当前位置: 首页 > news >正文

Python jieba分词如何添加自定义词和去除不需要长尾词

Python jieba分词如何添加自定义词和去除不需要长尾词

作者:虚坏叔叔
博客:https://xuhss.com

早餐店不会开到晚上,想吃的人早就来了!😄

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZbGUd57b-1677564707180)(2007.assets/1-1677564619771.png)]

通过如下代码,读取一个txt的高频词汇:

            # 找到高频词汇tmp_content = self.getContent(tmp_path)keyword_list = tmp_content.split('\n')word_count = dict()for keyword in keyword_list:for word,flag in jp.cut(keyword):if word in word_count:word_count[word] = word_count[word] +1else:word_count[word] =1for word, count in word_count.items():print('%s\t%s' % (word,count))

很多情况下 jieba它不知道一些词汇,比如说获得的词汇如下

建立可视化 是2个独立的单词

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hGFRlmcz-1677564707182)(2007.assets/image-20230228140647773.png)]

一、添加自定义词

通过添加自定义词

import jieba
import jieba.posseg as jpjieba.load_userdict(r'jieba_dict.txt')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ljn92rgA-1677564707182)(2007.assets/image-20230228140134068.png)]

就可以看到,统计出来的词是这个自定义词

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uphMFIPd-1677564707182)(2007.assets/image-20230228140339267.png)]

二、去除不需要长尾词

有时 统计出来的某些词汇jieba认为是一个词汇 但是此时 我想让他变为多个词汇 ,可以通过如下代码实现:

import jieba
import jieba.posseg as jpjieba.del_word('创建活动')

此时 jieba 就会不认定 创建活动 是一个词,它会将它们分开统计

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QX0aqeZ8-1677564707183)(2007.assets/image-20230228140926854.png)]

总结

  • 本文主要介绍jieba的基础用法。
  • 如果觉得文章对你有用处,记得 点赞 收藏 转发 一波哦,博主也支持为铁粉丝制作专属动态壁纸哦~

💬 往期优质文章分享

  • C++ QT结合FFmpeg实战开发视频播放器-01环境的安装和项目部署
  • 解决QT问题:运行qmake:Project ERROR: Cannot run compiler ‘cl‘. Output:
  • 解决安装QT后MSVC2015 64bit配置无编译器和调试器问题
  • Qt中的套件提示no complier set in kit和no debugger,出现黄色感叹号问题解决(MSVC2017)
  • Python+selenium 自动化 - 实现自动导入、上传外部文件(不弹出windows窗口)

🚀 优质教程分享 🚀

  • 🎄如果感觉文章看完了不过瘾,可以来我的其他 专栏 看一下哦~
  • 🎄比如以下几个专栏:Python实战微信订餐小程序、Python量化交易实战、C++ QT实战类项目 和 算法学习专栏
  • 🎄可以学习更多的关于C++/Python的相关内容哦!直接点击下面颜色字体就可以跳转啦!
学习路线指引(点击解锁)知识定位人群定位
🧡 Python实战微信订餐小程序 🧡进阶级本课程是python flask+微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一个全栈订餐系统。
💛Python量化交易实战 💛入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统
❤️ C++ QT结合FFmpeg实战开发视频播放器❤️难度偏高分享学习QT成品的视频播放器源码,需要有扎实的C++知识!
💚 游戏爱好者九万人社区💚互助/吹水九万人游戏爱好者社区,聊天互助,白嫖奖品
💙 Python零基础到入门 💙Python初学者针对没有经过系统学习的小伙伴,核心目的就是让我们能够快速学习Python的知识以达到入门

🚀 资料白嫖,温馨提示 🚀

关注下面卡片即刻获取更多编程知识,包括各种语言学习资料,上千套PPT模板和各种游戏源码素材等等资料。更多内容可自行查看哦!

请添加图片描述

http://www.lryc.cn/news/23792.html

相关文章:

  • 云打包苹果证书生成、上架和应用截屏攻略
  • 洛谷 U91193:棋盘覆盖问题 ← 分治法
  • 基于OMAPL138+FPGA核心板多核软件开发组件MCSDK开发入门(下)
  • 熵,线性规划,半监督自监督聚类打标签
  • 求极限方法总结
  • Flutter Scrollable 中ViewPort滚动原理
  • 多目标粒子群结合极限学习机ELM求解帕累托前沿,MOPSO-ELM
  • (二十)操作系统-信号量机制
  • ceph osd slow ops 检测
  • 百度CTO王海峰:深度学习平台+大模型,夯实产业智能化基座
  • 【C++】vector的基本使用
  • 社交媒体营销的5个好处
  • 飞行机器人专栏(十)-- 异构多视角视觉系统
  • 2023年湖北住建厅八大员各岗位题库精准小题库-启程别
  • 志愿者招募令|来!一起Build OceanBase第一次开发者大会
  • java 元数据 和 元注解
  • RFID射频卡写入手机NFC心路小记
  • 【C++】STL 模拟实现之 list
  • 20230228----重返学习-数组-引用数据类型的转换-基础调试用方法-对象检测-各数据转布尔值及相等运算符-条件语句-循环语句
  • apscheduler 定时任务框架
  • Softing OPC Tunnel——绕过DCOM配置实现OPC Classic广域网通信
  • Java的运算操作
  • 基于OBD系统的量产车评估测试(PVE)
  • 【蓝桥杯集训10】Tire树 字典树 最大异或对专题(3 / 3)
  • docker部署zabbix6.2.7+grafana
  • 【Java开发】JUC基础 04:Synchronized、死锁、Lock锁
  • 离散数学---期末复习知识点
  • 在线安装ESP32和ESP8266 Arduino开发环境
  • 【Python实战】激情澎湃,2023极品劲爆舞曲震撼全场,爬虫一键采集DJ大串烧,一曲醉人女声DJ舞曲,人人都听醉~(排行榜采集,妙啊~)
  • [SSD综述 1.5] SSD固态硬盘参数图文解析_选购固态硬盘就像买衣服?