当前位置: 首页 > news >正文

数据分析基本内容(第二十节课内容总结)

1.pd.read_csv('一个文件.csv')

本地文件加载数据,返回一个 DataFrame 对象,这是 pandas 中用于存储表格数据的主要数据结构

2.df.head()

查看数据的前五行,帮助快速了解数据的基本结构和内容

3.df.info()

查看数据的特征,包括每列的非空值数量、数据类型以及内存使用情况

4.df.shape

返回数据的行数和列数,帮助了解数据的规模

5.df.describe()

生成数据的描述性统计信息,如均值、标准差、最小值、最大值等,但默认只对数值型列进行统计

6.df.drop_duplicates(inplace = False)

删除重复行inplace=False 表示返回一个新的 DataFrame,而不修改原数据

7.data.reset_index(inplace = True,drop = True)

重置索引drop=True 表示丢弃旧的索引

inplace=True:直接在原数据上修改,节省内存,但会改变原始数据。

inplace=False:返回一个新的数据对象,原始数据保持不变

drop:用于删除行或列,可以通过 inplace 参数控制是否直接修改原数据

8.data.loc[data['sale_count'].isnull()].head() 和                                                                                                                                          data.loc[data['comment_count'].isnull()].tail()

分别查看 sale_countcomment_count 列中缺失值的前五行和后五行,帮助了解缺失数据的情况

9.data.fillna(0)

用 0 填补所有缺失值

10.data.isnull().any()

检查数据中是否还有缺失值

11.lcut_for_search

针对搜索引擎的分词模式,更适合提取关键词

12.data.groupby('店名')['销售额'].sum()

按店铺名称(店名分组计算每个店铺的销售

13.plt.pie绘制饼图

autopct='%0f%%'

显示百分比格式

pctdistance=0.9

百分比标签与饼图中心的距离

14.plt.bar绘制柱状图

15.ci=0:不显示置信区间

16.plt.tight_layout():

自动调整子图的布局,避免标签重叠

17.pctdistance

pctdistance 的值小于 1,百分比标签会显示在饼图内部,距离圆心越近,值越小

pctdistance 的值大于 1,百分比标签会显示在饼图外部

18.ascending

ascending=True  表示按照升序排序(从小到大)

ascending=False  表示按照降序排序(从大到小)

http://www.lryc.cn/news/618792.html

相关文章:

  • Rsync自动化备份平台建设实战
  • 【数据分析与挖掘实战】金融风控之贷款违约预测
  • 阿里云 Windows 服务器 搭建 Gitea 私有 Git 服务器完整教程
  • 开疆智能Ethernet转ModbusTCP网关连接PAC3200电能表配置案例
  • VirtualBox 虚拟机磁盘扩容完整手册
  • MaxKB+合合信息TextIn:通过API实现PDF扫描件的文档审核
  • [git] 重配ssh key | 解决冲突
  • python日志中的logging.basicConfig和logging.getLogger
  • [Robotics_py] 机器人运动模型 | `update`函数 | 微积分矩阵
  • 数据类型 list
  • 浏览器CEFSharp+X86+win7 之 全球外贸电商平台订单管理(十)
  • 每日五个pyecharts可视化图表-line:从入门到精通 (4)
  • 数据结构:链表栈的操作实现( Implementation os Stack using List)
  • Java 中 List 接口详解:知识点与注意事项
  • Java数据结构之LinkedList
  • 【开发环境下浏览器前后端Cookie跨域问题】
  • 视频安全预警系统的应用价值
  • vue3用quill富文本赋值后回退键删除报错
  • 可以免费使用的数字人API
  • 亚马逊POST退场后的增长突围:关联与交叉销售的全链路策略重构
  • 一维数组的创建、初始化与使用指南
  • 详解k6中的核心概念——场景(Scenarios)
  • Spring面试宝典
  • Pytest项目_day13(usefixture方法、params、ids)
  • Linux系统管理利器lsof命令详解与实战应用
  • 杰理手表-增加提示音-提示音音量调整--使用提示音
  • kafka 消费者组的概念是什么?它是如何实现消息的点对点和发布/订阅模式?
  • 无人机航拍数据集|第14期 无人机水体污染目标检测YOLO数据集3000张yolov11/yolov8/yolov5可训练
  • Linux中Https配置与私有CA部署指南
  • 股指期货基本术语是什么?