当前位置: 首页 > news >正文

中文分词工具jieba的使用

1.jieba简介

在自然语言处理任务时中文文本需要通过分词获得单个的词语,这个时候就需要用到中文分词工具jieba

jieba分词是一个开源项目,地址为github.com/fxsjy/jieba

它在分词准确度和速度方面均表现不错。

2.jieba的安装

  1. 全自动安装
pip install jieba / pip3 install jieba

2.半自动安装

  • 先下载pypi.python.org/pypi/jieba/
  • 解压后运行 python setup.py install

3.手动安装:

  • 将 jieba 的整个目录放置于python的site-packages 目录中

3.jieba的分词原理分析

  • 初始化。加载词典文件,获取每个词语和它出现的词数
  • 切分短语。利用正则,将文本切分为一个个语句,之后对语句进行分词
  • 构建DAG。通过字符串匹配,构建所有可能的分词情况的有向无环图,也就是DAG
  • 构建节点最大路径概率,以及结束位置。计算每个汉字节点到语句结尾的所有路径中的最大概率,并记下最大概率时在DAG中对应的该汉字成词的结束位置
http://www.lryc.cn/news/116354.html

相关文章:

  • CTF Stegano练习之隐写初探
  • 大数据课程H2——TELECOM的电信流量项目实现
  • Langchain module ‘hnswlib‘ has no attribute ‘Index‘ 错误解决
  • HIVE学习
  • 逆了个天了,阿里开源自然语言写SQL的神器级别工具快用起来
  • 85. 最大矩形
  • Vue [Day5]
  • 备战大型攻防演练,“3+1”一套搞定云上安全
  • 网络_每日一学——网络的整体概述
  • 【ChatGPT 指令大全】怎么使用ChatGPT来帮我们写作
  • Redis 如何解决缓存雪崩、缓存击穿、缓存穿透难题
  • SSRF(服务器端请求伪造)漏洞
  • 【Axure动态面板】利用动态面板实现树形菜单的制作
  • Android 实现 RecyclerView下拉刷新,SwipeRefreshLayout上拉加载
  • 使用MethodInterceptor和ResponseBodyAdvice做分页处理
  • WEB集群——LVS-DR 群集、nginx负载均衡
  • 倒计时87天!软考初级信息处理技术员2023下半年报名考试攻略
  • 【腾讯云 Cloud Studio 实战训练营】使用Cloud Studio构建SpringSecurity权限框架
  • c语言每日一练(4)
  • VB字符转换
  • 【C++进阶之路】map与set的基本使用
  • 代码随想录算法训练营day56
  • 通话降噪算法在手机和IOT设备上的应用和挑战
  • Pet Detection System (PDS)
  • 【OpenCV常用函数:颜色空间转换、阈值化】cv2.cvtColor()+cv2.threshold()
  • 一键登录和短信验证登录,到底有什么区别?
  • 史上最精简Android RecyclerView实现拖拽排序改变位置代码
  • centos 7 系统上重启 mysql 时报错 Failed to restart mysqld.service: Unit not found.
  • 时间复杂度空间复杂度相关练习题
  • Linux | Ubuntu18.04安装RTX 4060显卡驱动完整教程