当前位置: 首页 > news >正文

机器学习入门之 pandas

pandas 有三种数据结构

一种是 Series

一种是 Dataframe

import  pandas as  pd
import  numpy as  np
score = np.random.randint(0,100,[10,5])score[0,0] = 100Datascore = pd.DataFrame(score)subject = ["语文","数学","英语","物理","化学"]Datascore.columns = subjectstuName = {"同学"+ str(i) for i  in range(10)}Datascore.index = stuNameprint(Datascore)print(Datascore.shape)

使用  列表  做数据传入  可以更方便使用列表的下标更改数据

import  pandas as  pd
import  numpy as  np
import  matplotlib.pyplot as  plt
# 读取 csv的 文档
starbucks =    pd.read_csv('directory.csv')
# 按照 Country 进行分组聚合
count = starbucks.groupby(['Country']).count()
# 绘制直线图
count['Brand'].plot(kind = "bar",figsize=(20,8))
plt.show()

import  matplotlib.pyplot as plt
import pandas as pd
import numpy as  np
# 使得数据显示完全
pd.set_option('display.max_columns', 1000)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 1000)# 读取文件
MovieDate = pd.read_csv("IMDB-Movie-Data.csv")
# 取平均值  取平均值函数 mean()
meanData=MovieDate["Rating"].mean()
print(meanData)
# 获取导演的人数  使用获取标签  然后使用 unipue去掉重复值  然后获取到对应的数量
DirectorCount = MovieDate["Director"].unique().shape[0]
print(DirectorCount)
import  matplotlib.pyplot as plt
import pandas as pd
import numpy as  np
# 使得数据显示完全
pd.set_option('display.max_columns', 1000)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 1000)# 读取文件
MovieDate = pd.read_csv("IMDB-Movie-Data.csv")
# 取平均值  取平均值函数 mean()
meanData=MovieDate["Rating"].mean()# 获取导演的人数  使用获取标签  然后使用 unipue去掉重复值  然后获取到对应的数量
DirectorCount = MovieDate["Director"].unique().shape[0]# 获得 Rating  和 Values的分布
# 使用pandas的画图工具来画的话,无法精细的描绘图像,还是需要使用matplotlib
MovieDate["Rating"].plot(kind="hist")
# 创建画布
plt.figure(figsize=(20,8),dpi=100)
# 描绘直方图  添加数据就可以弹出图形
plt.hist(MovieDate["Rating"])
# 修改刻度
# 确定最大值  最小值   分组
Maxrate = MovieDate['Rating'].max()
Minrate = MovieDate['Rating'].min()
# linespace  np的一个函数  可以创建等差数列,这些数列均匀的分布在范围内  返回一维数组类型
# start end num-->分成的组数
xticks=np.linspace(Minrate,Maxrate,num=21)
# 只能填入
plt.xticks(xticks)
plt.show()

http://www.lryc.cn/news/108844.html

相关文章:

  • Django之JWT库与SimpleJWT库的使用
  • Jmeter远程服务模式运行时引用csv文件的路径配置
  • 《OWASP代码审计》学习——注入漏洞审计
  • Linux虚拟机中安装MySQL5.6.34
  • Django的FBV和CBV
  • [每周一更]-(第57期):用Docker、Docker-compose部署一个完整的前后端go+vue分离项目
  • springboot-mybatis的增删改查
  • HTML5(H5)的前生今世
  • 抽象工厂模式(Abstract Factory)
  • Java 实现下载文件工具类
  • C# 12 预览版的新功能
  • 34.利用matlab解 多变量多目标规划问题(matlab程序)
  • 暑假刷题第18天--7/30
  • 通向架构师的道路之Apache整合Tomcat
  • 如何消除“信息孤岛”对业务增长的威胁?
  • Kali部署dvwa和pikachu靶场
  • ​LeetCode解法汇总722. 删除注释
  • Linux中的firewall-cmd
  • python 最大归一化
  • Netty:ByteBuf写入数据、读出数据
  • C++(15):面向对象程序设计
  • 2023牛客暑期多校训练营6-A Tree
  • Vc - Qt - QPainter::SmoothPixmapTransform及QPainter::Antialiasing
  • 【练习】条件变量:创建三个线程 id号为ABC,三个线程循环打印自己的ID号,运行顺序为 ABCABC
  • SpringBoot项目修改中静态资源,只需刷新页面无需重启项目(附赠—热加载)
  • clear_data_code_2d_model
  • “深入剖析JVM:揭秘Java虚拟机的工作原理“
  • elementui表格table中实现内容的换行
  • java 框架
  • 死锁的发生原因和怎么避免