当前位置: 首页 > news >正文

NLP--关键词

       在去停用词后的文本中进行词频统计和关键词统计以及词云图显示,来进行文本的关键词提取,让人一目了然。

1.词频统计

       统计文本中多次出现的词语,来寻找文章中的关键词,因为多次出现很可能就是关键内容。调用统计数量的Counter库和用来分词的jieba库。观察出现次数最多的十个词中,两个字以上的词语都有哪些?他们出现的次数分别是多少?

2.关键词统计:有TF-IDF算法和textrank算法。

       TF-IDF是评估一个词语对于一篇文档或一个语料库中的一篇文档的重要程度。词语的重要性与它在文档中出现的次数成正比,但与它在语料库中出现的频率成反比。调用jieba库,使用jieba.analyse函数的jieba.analyse.extract_tags进行关键词提取。

       textrank是一种基于图的排序算法,用于关键词的提取和文档摘要。该算法是从谷歌的网页重要性排序算法pagerank改进来的。调用jieba库,使用jieba.analyse函数的jieba.analyse.textrank进行关键词提取。

3.词云

      词云通过文本预处理,词频统计,将高频词以图片形式进行色彩渲染三个步骤。词云生成需要调用matplotlib库进行词云绘制,jieba库进行分词和关键词提取,词云生成器wordcloud,对该生成器需要进行相关配置就可以生成相应的词云。其中,需要根据不同的环境设置相应的字体。

 

 

 

http://www.lryc.cn/news/366873.html

相关文章:

  • Qt5学习笔记
  • 数据结构与算法笔记:基础篇 - 散列表(下):为什么散列表和链表经常会一起使用?
  • 读AI未来进行式笔记06自动驾驶技术
  • SpringAOP 常见应用场景
  • html+css示例
  • Day51 动态规划part10+Day52 动态规划part11
  • Wireshark自定义Lua插件
  • 商城项目【尚品汇】07分布式锁-2 Redisson篇
  • Adobe Illustrator 矢量图设计软件下载安装,Illustrator 轻松创建各种矢量图形
  • Nvidia/算能 +FPGA+AI大算力边缘计算盒子:中国舰船研究院
  • 双网卡配置IP和路由总结
  • 【纯血鸿蒙】——自适应布局如何实现?
  • Qt5学习笔记(一):Qt Widgets Application项目初探
  • Linux网络编程:数据链路层协议
  • 企业估值的三种方法
  • 比亚迪正式签约国际皮划艇联合会和中国皮划艇协会,助推龙舟入奥新阶段
  • 宏集Panorama SCADA:个性化定制,满足多元角色需求
  • 聪明人社交的基本顺序:千万别搞反了,越早明白越好
  • 图片和PDF展示预览、并支持下载
  • 图论第5天
  • Java开发-面试题-0004-HashMap 和 Hashtable的区别
  • Swift 序列(Sequence)排序面面俱到 - 从过去到现在(一)
  • redis 04 redis结构
  • 【原创】springboot+mysql农业园区管理系统设计与实现
  • web前端 孙俏:深度探索与实战之路
  • opencv实战小结-银行卡号识别
  • Windows API 开发桌面应用程序,在窗口按下鼠标左键不放可以拖图,并且拖图期间鼠标图标变成手掌
  • Docker的网络管理
  • 【数据结构】平衡二叉树左旋右旋与红黑树
  • 2024蓝桥杯初赛决赛pwn题全解