当前位置: 首页 > news >正文

hanlp,pkuseg,jieba,cutword分词实践

总结:只有jieba,cutword,baidu lac成功将色盲色弱成功分对,这两个库字典应该是最全的

hanlp[持续更新中]

https://github.com/hankcs/HanLP/blob/doc-zh/plugins/hanlp_demo/hanlp_demo/zh/tok_stl.ipynb

import hanlp
# hanlp.pretrained.tok.ALL # 语种见名称最后一个字段或相应语料库tok = hanlp.load(hanlp.pretrained.tok.COARSE_ELECTRA_SMALL_ZH)
# coarse和fine模型训练自9970万字的大型综合语料库,覆盖新闻、社交媒体、金融、法律等多个领域,是已知范围内全世界最大的中文分词语料库# tok.dict_combine = './data/dict.txt'
print(tok(['身高1.60米以上,无色盲色弱具体要求见我校招生章程']))

在这里插入图片描述

pkuseg[不再维护了]

https://github.com/lancopku/pkuseg-python

下载最新模型
在这里插入图片描述

import pkuseg
c = pkuseg.pkuseg(model_name=r'C:\Users\ymzy\.pkuseg\default_v2') #指定模型路径加载,如果只写模型名称,会报错[Errno 2] No such file or directory: 'default_v2\\unigram_word.txt'
# c = pkuseg.pkuseg(user_dict=dict_path,model_name=r'C:\Users\ymzy\.pkuseg\default_v2') #, postag = True
print(c.cut('身高1.60米以上,无色盲色弱具体要求见我校招生章程'))

在这里插入图片描述

jieba[不再维护了]

https://github.com/fxsjy/jieba
在这里插入图片描述
在这里插入图片描述
HMM中文分词原理

import jieba# jieba.load_userdict(file_name)
sentence = '身高1.60米以上,无色盲色弱具体要求见我校招生章程'
#jieba分词有三种不同的分词模式:精确模式、全模式和搜索引擎模式:
seg_list = jieba.cut(sentence, cut_all=True) #全模式
print("Full Mode:" + "/".join(seg_list))
seg_list = jieba.cut(sentence, cut_all=False) #精确模式
print("Default Mode:" + "/".join(seg_list))
seg_list = jieba.cut(sentence, HMM=False) #不使用HMM模型
print("/".join(seg_list))
seg_list = jieba.cut(sentence, HMM=True) #使用HMM模型
print("/".join(seg_list))

在这里插入图片描述

cutword[202401最新]

https://github.com/liwenju0/cutword
在这里插入图片描述

from  cutword import Cuttercutter = Cutter(want_long_word=True)
res = cutter.cutword("身高1.60米以上,无色盲色弱具体要求见我校招生章程")
print(res)

在这里插入图片描述

lac【不再维护】

https://github.com/baidu/lac
在这里插入图片描述

from LAC import LAC# 装载分词模型
seg_lac = LAC(mode='seg')
seg_lac.load_customization('./dictionary/dict.txt', sep=None)texts = [u"身高1.60米以上,无色盲色弱具体要求见我校招生章程"]
seg_result = seg_lac.run(texts)
print(seg_result)

在这里插入图片描述

http://www.lryc.cn/news/285629.html

相关文章:

  • 一个简单的Vue实例
  • 【GoLang入门教程】Go语言几种标准库介绍(八)
  • [系统安全] 五十四.恶意软件分析 (6)PE文件解析及利用Python获取样本时间戳
  • kafka入门(九):副本
  • 【5G 接口协议】N2接口协议NGAP(NG Application Protocol)介绍
  • 2024年甘肃省职业院校技能大赛信息安全管理与评估 样题三 模块二
  • Python自动化我选DrissionPage,弃用Selenium
  • MQ 消息丢失、重复、积压问题,如何解决?
  • 【Linux】第三十三站:日志
  • MVC和MVVM区别和VUE关系
  • vue3自定义按钮点击变颜色实现(多选功能)
  • Redis的key过期策略是怎么实现的
  • vue+elenemt分页+springboot
  • C++ :命名空间域
  • 提升网站关键词排名的工具
  • ICMP控制消息 汇总
  • C#,入门教程(22)——函数的基础知识
  • 已经30了,5年多,只会功能测试的怎么办?
  • 什么是UML?有什么用?
  • 盘点好用内容合规监测工具
  • CC工具箱使用指南:【查找锐角】
  • kafka消费相关问题(GPT回答版本)
  • 【C++】string的基本使用二
  • MATLAB解决考研数学一题型(上)
  • Vue以弹窗形式实现导入功能
  • 分布式锁原理及实现
  • 蓝桥杯官网填空题(海盗与金币)
  • JavaScript 中JSON 字符串和对象之间的转换。
  • All the stories begin at installation
  • Linux文件系统与设备文件