当前位置: 首页 > news >正文

【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 微博类别信息爬取

大家好,我是java1234_小锋老师,最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)视频教程,持续更新中,计划月底更新完,感谢支持。今天讲解架构搭建

视频在线地址:

2026版【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts+爬虫) 视频教程 (火爆连载更新中..)_哔哩哔哩_bilibili

课程简介:


本课程采用主流的Python技术栈实现,Mysql8数据库,Flask后端,Pandas数据分析,前端可视化图表采用echarts,以及requests库,snowNLP进行情感分析,词频统计,包括大量的数据统计及分析技巧。

实现了,用户登录,注册,爬取微博帖子和评论信息,进行了热词统计以及舆情分析,以及基于echarts实现了数据可视化,包括微博文章分析,微博IP分析,微博评论分析,微博舆情分析。最后也基于wordcloud库实现了词云图,包括微博内容词云图,微博评论词云图,微博评论用户词云图等功能。

微博类别信息爬取

再爬取微博之前,我们先把所有微博类别爬取,再遍历每个类别,爬取微博内容。

访问微博首页:Sina Visitor System 打开谷歌开发者工具或者F12直接快捷打开

点热门推荐,我们可以直观的看到所有的微博类别。

通过分析,我们找到微博类别的请求接口:https://weibo.com/ajax/feed/allGroups

继续分析:接口返回数据的的groups下的第3和第4个下标值正好是所有的微博数据。

实现代码:

"""https://weibo.com/ajax/feed/allGroups微博类别 爬虫代码 以及存到csv文件中
"""
import csv
import os.pathimport numpy as np
import requestsdef init_csv():"""初始化操作,判断csv文件是否存在,不能存在就创建一个:return:"""if not os.path.exists('arcType_data.csv'):  # 不存在就创建一个with open('arcType_data.csv', 'w', encoding='utf8',newline='') as file:  # newline=''参数,参数用于控制换行符的行为 这表示禁用自动换行符转换,即写入文件时使用原始的换行符(例如\r\n或\n)。这对于处理CSV文件时避免不必要的空行特别有用。writer = csv.writer(file)writer.writerow(['类别标题(title)','分组id(gid)','分类id(containerid)'])def getJsonHtml(url, params):"""请求获取Html内容 json数据:param url::param params::return:"""headers = {'user-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36",'cookie': "UOR=www.baidu.com,s.weibo.com,www.baidu.com; SINAGLOBAL=147269028916.96313.1738405722917; SCF=Aq_smbP0Qulm3aIQiWHRj0MVjLlLvMzPjh08C1UOgzZGKmgtkj3RlIKkPpPunA-Yp4Vs3PxaE2Mnw4EfY-zo22k.; ULV=1746148684228:3:1:1:750370364305.8235.1746148684180:1743395262982; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WWdhwhTipHbo3gGv6wzaRcu5JpX5KMhUgL.Foef1hMR1KqEeoz2dJLoI08ZqP9yi--NiKLsi-2fi--Ri-8siKnci--fiKnRiKnci--Xi-iWi-8Fi--Ni-i2iK.p; XSRF-TOKEN=jkBbdfx8ioL49wGmuLw8ZTv2; ALF=1754794282; SUB=_2A25FdAx5DeRhGeVL41UZ-SjOyT6IHXVmCAGxrDV8PUJbkNAbLWfskW1NTBTNHVQQjZ8TTBpAQ68hUItVd4KUD_CC; WBPSESS=_IA_wwSTTkx7cB4s0X9svEMSaQHgjmYl9nytbvfrAcd7Iosa-3IBWF4ACq_6aV-rM8H92uAEfJAtiOQKdY2Gha_-gW_mgEBLLJLDTNTrl4COyaKsVhMD_fKgQcz8yS4cNe68un-DHcy9a6K983O71w=="}response = requests.get(url, headers=headers, params=params)if response.status_code == 200:return response.json()else:return Nonedef writeToCsv(row):"""写入csv操作 a操作 尾部追加 写入操作:param row::return:"""with open('arcType_data.csv', 'a', encoding='utf8',newline='') as file:writer = csv.writer(file)writer.writerow(row)def parseJson(json):"""解析Json数据:param json::return:"""arcTypeList = np.append(json['groups'][3]['group'], json['groups'][4]['group'])print(arcTypeList)for arcType in arcTypeList:arcType_title = arcType['title']gid = arcType['gid']containerid = arcType['containerid']writeToCsv([arcType_title, gid, containerid])def start():init_csv()url = 'https://weibo.com/ajax/feed/allGroups'jsonHtml = getJsonHtml(url, {})print(jsonHtml)parseJson(jsonHtml)if __name__ == '__main__':start()

运行后,生成srcType_data.csv文件,里面数据也无误。

http://www.lryc.cn/news/589766.html

相关文章:

  • C#——循环(while循环和do-while循环)
  • Java 大视界 -- 基于 Java 的大数据分布式存储在云计算数据中心数据管理与调度中的应用(348)
  • docker run elasticsearch 报错
  • 征服ZYNQ双核潜能:OCM内存精妙分配与免锁通信实战
  • WPF 加载和显示 GIF 图片的完整指南
  • 【游戏引擎之路】登神长阶(十七):Humanoid动画——长风破浪会有时,直挂云帆济沧海
  • Arduino土壤湿度检测
  • 新手向:自动化图片格式转换工具
  • 【游戏引擎之路】登神长阶(十八):3天制作Galgame引擎《Galplayer》——无敌之道心
  • 玩转Docker | 使用Docker部署bender个人导航页工具
  • my2sql-binlog闪回测试
  • 设计一款用于捕捉动态产品视频的摄像机器人
  • 记录一道sql面试题3
  • EVA series系列(上)
  • 【MySQL基础】MySQL事务详解:原理、特性与实战应用
  • 网络安全(初级)(XSS-labs 1-8)
  • JWT基础详解
  • Linux内核设计与实现 - 第2章 内核开发的准备
  • Python包开发实战:从零构建你的第一个Python包
  • 《透视定轴:CSS 3D魔方中视觉层级的秩序法则》
  • 使用CodeQL挖掘Spring中的大量赋值漏洞
  • PLC-BMS电力载波通信技术深度解析:智能电网与储能系统的融合创新
  • Python 测试全景:单元测试、集成测试与端到端测试实战指南
  • NDVI、噪声和细微差别:使用卫星时间序列进行土地覆盖分类
  • 【源力觉醒 创作者计划】百度携文心 4.5 入局,开源大模型市场再添一员猛将,与 Qwen3 对比如何?
  • 列车调度(vector)
  • Spring Boot 缓存 与 Redis
  • XXE漏洞2-漏洞原理及检测方式(超详细)
  • HandlerIntercepter,JWT和杂项知识点
  • LeetCode Hot 100 二叉树的最大深度