当前位置: 首页 > news >正文

【Python】jieba分词基础

jieba分词主要有3种模式:

1、精确模式:jieba.cut(文本, cut_all=False)

2、全模式:jieba.cut(文本, cut_all=True)

3、搜索引擎模式:jieba.cut_for_search(文本)

分词后的关键词提取:

jieba.analyse.textrank(txt,topK=20, withWeight=False)

topK:要提取的关键词个数,默认为20

withWeight:是否返回关键词权重,默认为False

allowPOS:是否指定关键词词性(名词、形容词、动词),默认为空,也就是不筛选

import jieba.analyse
import jieba
import chardet
import wordcloud# 文件路径
path = 'C:\\Users\\86185\\PycharmProjects\\pythonProject\\practice\\txt'
file='lsm.txt'
#指定文件
txt_url=path+'\\'+file
#打开文件,这一次打开主要是为了获取编码格式
with open(txt_url, 'rb') as f:cont = f.read()encoding = chardet.detect(cont)['encoding']if encoding == 'GB2312':encoding = 'gbk'elif encoding == None:encoding = 'utf-8'f.close()#打开文件内容
with open(txt_url, encoding=encoding) as f:txt = f.read()txt_word=jieba.cut_for_search(txt)#print(list(txt_word))txt_main=jieba.analyse.textrank(txt,topK=20, withWeight=False)print(txt_main)

如果展示权重:

http://www.lryc.cn/news/247956.html

相关文章:

  • 使用jmeter对接口进行简单测试
  • 成长在于积累——https 认证失败的学习与思考
  • C语言——数字金字塔
  • 关于 typedef 的用法
  • Webshell流量分析
  • 高级IO—poll,epoll,reactor
  • 一文详解Python中常用数据类型
  • 【MATLAB源码-第85期】基于farrow结构的滤波器仿真,截止频率等参数可调。
  • ChatGPT Plus/GPT4高级数据分析和插件功能详解
  • 【Android Jetpack】Room数据库
  • 自定义中间件
  • 优化机器学习:解析数据归一化的重要性与应用
  • 五分钟,Docker安装flink,并使用flinksql消费kafka数据
  • 【小聆送书第一期】让架构师的成神之路温暖你这个不景气的冬天
  • 网页爬虫反扒措施有哪些?
  • C#实现批量生成二维码
  • 3种在ArcGIS Pro中制作山体阴影的方法
  • 【ChatGLM2-6B】Docker下部署及微调
  • 输入两个整数,输出它们的乘积。 ← Python 及 C++ 代码比较
  • C语言——从键盘输人一个表示年份的整数,判断该年份是否为闰年,并显示判断结果。
  • 出于隐私和安全的考虑,有时需要从谷歌删除你的个人数据,有两种方法
  • 【同一局域网下】两台电脑之间互ping
  • 【精选】Ajax技术知识点合集
  • 智能优化算法应用:基于水循环算法无线传感器网络(WSN)覆盖优化 - 附代码
  • java-netty知识点笔记和注意事项
  • 英伟达不同系列GPU介绍
  • C语言——I /深入理解指针(二)
  • MySQL使用函数和存储过程实现:向数据表快速插入大量测试数据
  • 力扣labuladong——一刷day59
  • 接口性能测试 —— Jmeter并发与持续性压测