当前位置: 首页 > news >正文

python 11Pandas数据可视化实验

实验目的:

学会使用Pandas操作数据集,并进行可视化。

数据集描述:

该数据集是CNKI中与“中药毒理反应”相关的文献信息,包含文章题目、作者、来源(出版社)、摘要、发表时间等信息。

实验要求:

  1. 使用Pandas读取数据集。
  2. 统计每年的发文数量,并绘制折线图。
  3. 统计出版社的发文量信息,列出发文前10位的出版社。
  4. 使用jieba分词,对摘要进行分词统计,制作词频前30位的词云图。(需安装jieba分词和词云工具包)。

实验过程:

为了完成这个实验,你需要在你的Python环境中安装Pandas, jieba, matplotlib, 和 wordcloud这几个库。如果你还没有安装,可以通过以下命令进行安装:

pip install pandas jieba matplotlib wordcloud

导入库,导入文件(文件名称为 ansi.csv),打印几行看看导入情况

import pandas as pd
df = pd.read_csv('./ansi.csv')
df.head()

通过输出查看文件的表头是什么

print(df.columns)

统计每年的发文数量,并绘制折线图

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题
df['年'] = pd.to_datetime(df['5'], format='%Y-%m-%d %H:%M', errors='coerce').dt.year
year = df['年'].value_counts().sort_index()
plt.figure(figsize=(10, 6))
plt.plot(year.index, year.values, marker='o')
plt.title('每年中药毒理反应文献发表数量')
plt.xlabel('年份')
plt.ylabel('发表数量')
plt.grid(True)
plt.show()

统计出版社的发文量信息,列出发文前10位的出版社

publisher = df['2'].value_counts()
top = publisher.head(10)
print("发文前10位的出版社:")
print(top)

使用jieba分词,对摘要进行分词统计,制作词频前30位的词云图

import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as pltdef tokenize_abstracts(abstracts):all_words = []for abstract in abstracts:words = jieba.cut(abstract, cut_all=False)all_words.extend(words)return all_wordsabstracts = df['4'].dropna().tolist()# 分词
all_words = tokenize_abstracts(abstracts)# 计算词频
word_freq = {word: all_words.count(word) for word in set(all_words)}# 制作词云
wordcloud = WordCloud(font_path='simhei.ttf',width=800, height=600, background_color='white', max_words=30).generate_from_frequencies(word_freq)# 显示词云图
plt.figure(figsize=(10, 8))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

http://www.lryc.cn/news/343533.html

相关文章:

  • 【JUC】并发编程 AQS,ReentryLock,CyclicBarrier,CountDownLatch 原理总结
  • 移动端底层事件(如左滑返回事件)在同一个路由下不同页面需要不同的处理要怎样才能做到统一处理?
  • hive中开窗函数row_number的使用
  • 华为数据之道第三部分导读
  • 【Qt】常用控件(一)
  • Python基础之流程控制语句
  • 2024蓝桥杯网络安全部分赛题wp
  • Android版本依赖Version catalog
  • Redis---------实现商品秒杀业务,包括唯一ID,超卖问题,分布式锁
  • C++之QT文本处理QDir、QFileDialog、QStringList、QFile
  • 24.5.8数据结构|单向循环链表
  • 2024年,抖音小店开通需要多少钱?一篇详解!
  • 2023年全国职业院校技能大赛(高职组)“云计算应用”赛项赛卷1(私有云)
  • Python数据可视化------地图
  • Rust中的并发性:Sync 和 Send Traits
  • |Python新手小白中级教程|第二十七章:面向对象编程(示例操作)(3)使用turtle库与类结合
  • Android OpenMAX(五)高通OMX Core实现
  • XXE漏洞
  • [华为OD]C卷 BFS 亲子游戏 200
  • 大模型微调实战之强化学习 贝尔曼方程及价值函数(五)
  • 初探MFC程序混合使用QT
  • 【LeetCode题库】1068. 产品销售分析 I —— MySQL 性能提升,using()关键字
  • leetcode 1 ~ 100
  • 分享6个免费下载电子书的网站
  • typescript的入门到吐槽:看了typescript,发现前端真的卷,
  • 抖店商品详情API接口,商品上架(主图,价格,sku等属性,)item_get-获得抖店商品详情
  • STM32使用ADC单/多通道检测数据
  • Unity 性能优化之动态批处理(四)
  • Windows 11 系统安装时如何跳过联网和逃避微软账号登录
  • uniapp + vue3 使用axios