当前位置: 首页 > news >正文

【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 基于jieba实现词频统计

大家好,我是java1234_小锋老师,最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)视频教程,持续更新中,计划月底更新完,感谢支持。今天讲解 基于jieba实现词频统计

视频在线地址:

2026版【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts+爬虫) 视频教程 (火爆连载更新中..)_哔哩哔哩_bilibili

课程简介:


本课程采用主流的Python技术栈实现,Mysql8数据库,Flask后端,Pandas数据分析,前端可视化图表采用echarts,以及requests库,snowNLP进行情感分析,词频统计,包括大量的数据统计及分析技巧。

实现了,用户登录,注册,爬取微博帖子和评论信息,进行了热词统计以及舆情分析,以及基于echarts实现了数据可视化,包括微博文章分析,微博IP分析,微博评论分析,微博舆情分析。最后也基于wordcloud库实现了词云图,包括微博内容词云图,微博评论词云图,微博评论用户词云图等功能。

基于jieba实现词频统计

我们来实现下微博舆情热词分析,对微博评论信息进行词频统计。

首先第一步,从数据库获取所有微博评论信息,然后遍历每条评论信息,进行分词,过滤掉停用词,最后统计出每个词出现的次数,排个序,就能找到热词。

第一步,数据库查询所有评论信息。

通过Pymsql实现,先定义一个dbUtil.py数据库工具类

"""数据库连接工具作者 : 小锋老师官网 : www.python222.com
"""
​
from pymysql import Connection
​
​
def getCon():"""获取数据连接:return: 数据库连接"""con = Connection(host="localhost",  # 主机名port=3308,  # 端口user="root",  # 账户password="123456",  # 密码database="db_weibo",  # 数据库autocommit=True  # 设置自动提交)return con
​
​
def closeCon(con: Connection):"""关闭数据库连接:param con: 数据库连接:return:"""if con:con.close()

再新建commentDao.py,操作评论信息的数据访问对象,实现查询所有评论信息的方法

"""用户评论信息 数据访问对象
"""
from util import dbUtil
​
​
def getAllComment():"""获取所有评论信息:return:"""con = Nonetry:con = dbUtil.getCon()cursor = con.cursor()sql = "SELECT * from t_comment where text!=''"cursor.execute(sql)return cursor.fetchall()except Exception as e:print(e)con.rollback()return Nonefinally:dbUtil.closeCon(con)

jieba分词后,我们还需要进行过滤过滤数据,单个字以及停顿词。

词频统计实现代码:

"""
微博评论信息分词 词频统计
"""
import re
​
import jieba
import pandas as pd
​
from dao import commentDao
​
​
def outCommentFreToCsv(sorted_wfc_list):"""词频统计后,写入到csv:param sorted_wfc_list::return:"""df = pd.DataFrame(sorted_wfc_list, columns=['热词', '数量'])df.to_csv('comment_fre.csv', index=False)
​
​
def getStopWordsList():"""获取停顿词:return:"""return [line.strip() for line in open('stopWords.txt', encoding='UTF-8').readlines()]
​
​
def cut_comment():"""分词:return:"""allCommentStr = " ".join([comment[1].strip() for comment in commentDao.getAllComment()])seg_list = jieba.cut(allCommentStr)  # 精准模式分词return seg_list
​
​
def word_fre_count():"""词频统计 过滤数据,单个字以及停顿词:return:"""seg_list = cut_comment()stopWord_list = getStopWordsList()# 正则去掉数字,单个字以及停顿词new_seg_list = []for s in seg_list:number = re.search('\d+', s)if not number and s not in stopWord_list and len(s) > 1:new_seg_list.append(s)
​# 词频统计wfc = {}for w in set(new_seg_list):wfc[w] = new_seg_list.count(w)
​# 排序sorted_wfc_list = sorted(wfc.items(), key=lambda x: x[1], reverse=True)return sorted_wfc_list
​
​
if __name__ == '__main__':# print("/".join(cut_comment()))# print(getStopWordsList())outCommentFreToCsv(word_fre_count())

运行后,写入到csv文件。

http://www.lryc.cn/news/592063.html

相关文章:

  • 在 React 中根据数值动态设置 SVG 线条粗细
  • Hadoop与云原生集成:弹性扩缩容与OSS存储分离架构深度解析
  • VSCode - VSCode 快速跳转标签页
  • 135. Java 泛型 - 无界通配符
  • Android CountDownTimer
  • Ubuntu系统下交叉编译Android的X265库
  • UVC for USBCamera in Android - 篇二
  • 股指期货的杠杆比例一般是多少?
  • 【软件系统架构】系列七:系统性能——路由器性能深入解析
  • 【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - jieba库分词简介及使用
  • 短视频矩阵系统哪家好?全面解析与推荐
  • 短视频矩阵系统:从源头到开发的全面解析
  • 【unity实战】使用unity的Navigation+LineRenderer实现一个3D人物寻路提前指示预测移动轨迹的效果,并可以适配不同的地形
  • Charles 中文版介绍与使用指南 强大抓包工具助力 API 调试与网络优化
  • 网络编程(modbus,3握4挥)
  • 新书推介 | 吉林大学出版教材《汽车智能辅助驾驶系统技术》,国产仿真工具链GCKontrol-GCAir教学应用
  • mybatisdemo(黑马)
  • S7-1200 Profinet 的诊断功能
  • 嵌入式教育的云端革命:零边界实验室如何重塑未来工程师
  • 硬核电子工程:从硅片到系统的全栈实战指南—— 融合电路理论、嵌入式开发与PCB设计的工程艺术
  • 第三章自定义检视面板_创建自定义编辑器类_检测与应用修改(本章进度(2/9))
  • Xilinx Zynq:一款适用于软件定义无线电的现代片上系统
  • 深度学习之----对抗生成网络-pytorch-CycleGAN-and-pix2pix
  • IP协议深入理解
  • RustDesk 自建中继服务器教程(Mac mini)
  • 蓝松抠图的几大优点.
  • Vue中的refs字段使用记录
  • (数据结构)线性表(上):SeqList 顺序表
  • k8s:利用kubectl部署postgis:17-3.5
  • Kotlin序列