当前位置: 首页 > news >正文

小杰python高级(six day)——pandas库

1.数据可视化

        用于绘制 DataFrame 数据图形,它允许用户直接从 DataFrame 创建各种类型的图表,而不需要使用其他绘图库(底层实际上使用了 Matplotlib)。

(1)plot

DataFrame.plot(*args, **kwargs)

功能:绘制各种线图

参数:kind: 图表类型,可以是以下之一:

                'line': 折线图(默认)

                'bar': 柱状图

                'barh': 水平柱状图

                'hist': 直方图

                'box': 箱线图

                'kde': 核密度估计图

                'area': 面积图

                'pie': 饼图

                'scatter': 散点图

                'hexbin': 六边形箱图

        x:指定X轴数据(列名或索引)

        y:指定y轴数据(列名或列名列表)

        ax: Matplotlib 子图对象

        subplots:是否绘制子图,True绘制子图

        figsize: 图表的尺寸,格式为 `(width, height)`,单位为英寸。

        use_index: 是否使用 pandas 的索引作为 x 轴标签。默认为 `True`。

        title: 图表的标题。

        grid: 是否显示网格线。默认为 `False`。

        legend: 是否显示图例。默认为 `True`。

        xticks: x 轴的刻度位置。

        yticks: y 轴的刻度位置。

        xlim: x 轴的范围,格式为 `(min, max)`。

        ylim: y 轴的范围,格式为 `(min, max)`。

        color: 绘制颜色,可以是单个颜色或颜色列表。

        label: 图例标签。

data = {'name':['zhangsan','lisi','wangwu', 'json'],'age':[12, 14, 20, 14],'height':[30, 14, 20, 14]}
df = pd.DataFrame(data)
print(df)# 绘制柱状图
# 将df的name作为x轴标签,只绘制age数据
df.plot(kind='bar', x='name', y='age')
plt.show()

2.文件的读写

pandas.read_csv(filepath, sep=',', header='infer', usecols=None,...)功能:读取csv类型的文件
参数:filepath:读取的文件名
      sep:字段分隔符,默认为逗号
      header:指定第一行作为列名,默认为0(第一行)
      usecols:返回一个数据子集,需要读取的列pandas.read_excel(filepath, sheet_name=0, header=0, usecols=None, ...)功能:读取execl类型文件
参数:sheet_name:工作表名称或索引,默认为0(第一个工作表)
      其他同上DataFrame.to_csv(path=None, sep=',', columns=None, index=True,  ...)功能:将DataFrame写入csv类型的文件
参数:columns:要写入的列名列表index:是否写行(索引)名称。默认为TrueDataFrame.to_excel(excel_writer, sheet_name='Sheet1',  ...)功能:将DataFrame写入excel类型的文件
参数:同上
# 读csv文件
# df = pd.read_csv('./learn_pandas.csv', usecols=['School','Height'])
# print(df)
# 读excel文件
df = pd.read_excel('./item.xlsx', usecols=['order-info','order-info 2'])
print(df)
# 写excel文件
df.to_excel('test.xlsx')

3.爬虫工具

1.简介

Instant Data Scraper插件是一款功能强大的数据抓取工具,主要用于从网页上自动提取数据。

Instant Data Scraper插件能够自动检测并提取网页上的数据,包括但不限于产品信息、评论、价格等,这些数据可以被导出为Excel或CSV文件,方便用户进行进一步的分析和处理。此外,该插件还支持动态数据检测,能够确保提取的数据是最新的。

2.使用步骤
        1.安装插件

               1. 使用谷歌浏览器安装插件

在线访问可能访问不了,使用本地插件进行加载。

2.打开右上角

​​​​​​​3.下载群里的,把插件的扩展名改为rar,把文件夹解压缩。

4.回到Chrome浏览器中,点击下图,在弹出的窗口中选择刚才解压后的文件夹。

5.找到这个图标,将精灵球固定在任务栏

​​​​​​​2.数据爬取

打开任意要爬取的网址

点击告诉爬虫程序翻页键在哪里,再次点击

点击开始爬取,点击下载爬取数据。

点击可以停止爬取。

4.三个库的总结

(1)numpy

  • 创建ndarray = array

emptyzerosonesfullfill

arangelinspacerandom(rand、random、randint、randn、normal、uniform、shuffle)

  • 访问下标切片
  • numpy数据类型:基本数据类型i4 S10结构化数据类型[(键名,类型),()]
  • 属性ndimshapesizedtype

修改属性astype类型reshape形状np.resize/arr.resizeflattenT

  • 运算

算术运算+ - * / **0.5 add\subtract/multiply/divide/powrer

广播机制

矩阵运算@ dot

逻辑运算& | ~

关系运算==

统计运算sum、meanmaxmin(argmax、argmin)、cumsumcumprodvarstd

数学函数sin/cos/tanexp/exp2log/log2

排序sort()[::-1]

  • 数组操作

添加删除append/insert/delete

修改数组维度expand_dims升维squeeze降维

数组连接concatenatestack

数组分割split

where函数根据条件筛选数据

(2)matplotlib

pyplot:绘图函数plotbar/barhscatterpiehistcontour

设置属性titlexlabelylabellegendsubplottight_layoutsubplots

操作函数savefigimreadimshowimsaveclosepause

Line2D对象set_data\get_label

Figure对象创建隐式显示(figure())

操作add_subplot\suptitle\add_axes\subplots_adjust\get_size_inches\clear

Axes对象获取对象plt.gca plt.gcf

操作set_xlim/set_ylimset_xlabel/set_ylabelset_titletext

GridSpec对象绘制子图网格 GridSpec

(3)pandas

  • 数据结构

Series创建访问(位置、标签、切片、函数get/head/tail/isin)、属性(value\index\dtype\shape\size\name\hasnans\is_unique\empty\axes)

DataFrame:创建访问([列]、loc、iloc)属性(index/columns/values/dtypes/ndim/T)

  • 数据操作

数据清洗dropna/fillna/isnull/drop_duplicates

数据转换replacetransform

数据排序sort_valuessort_index

数据筛选根据关系运算结果或布尔数组进行筛选

数据拼接concat

统计运算summeancountmaxminvarstdquantiledescribevalue_counts

分组聚合gropbyagg

数据可视化plot

文件读写read_csv/read_excel/to_csv/to_excel​​​​​​​

http://www.lryc.cn/news/620851.html

相关文章:

  • 一篇文章读懂.Net的依赖注入
  • C#WPF实战出真汁00--项目介绍
  • 融合服务器助力下的电视信息发布直播点播系统革新
  • 【测试用例】软件测试用例编写规范
  • 第三集 测试用例
  • [Android] 二十四节气日历v1.0.3 - 弘扬传统文化,精致设计,无广告纯净体验!
  • 在 CentOS 7 中使用 systemd 创建自定义服务
  • Java 设计模式-装饰器模式
  • 线程P4 | 线程安全问题及解决方法
  • Linux信号产生
  • Linux下使用Samba 客户端访问 Samba 服务器的配置(Ubuntu Debian)
  • mysql 提示符及快捷执行
  • 从零开始搭建React+TypeScript+webpack开发环境——基于MobX的枚举数据缓存方案设计与实践
  • React 数据持久化:从 “刷新就丢“ 到 “永存不灭“ 的实现方案
  • WEBSTORM前端 —— 第4章:JavaScript —— 第3节:数据类型与类型转换
  • Streamlit实现Qwen对话机器人
  • Pytest自动化测试框架总结
  • 2025年机器视觉与信号处理国际会议(MVSP 2025)
  • springboot博客实战笔记02
  • 游戏行业DevOps实践:维塔士集团基于Atlassian工具与龙智服务构建全球化游戏开发协作平台
  • 阿里云RDS SQL Server实例之间数据库迁移方案
  • flstudio.exe安装教程|FL Studio怎么下载安装?超简单中文指南
  • K8S企业级应用与DaemonSet实战解析
  • 深入解析 HTTP 协议演进:从 1.0 到 3.0
  • 怎么判断晶振的好坏,有什么简单的办法
  • .NET 的 WebApi 项目必要可配置项都有哪些?
  • 【论文阅读-Part1】PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation
  • 机器学习算法篇(八)-------svm支持向量机
  • Android数据缓存目录context.getCacheDir与Environment.getExternalStorageDirectory
  • Linux 文件系统简介