当前位置: 首页 > news >正文

R实现数据分布特征的视觉化——多笔数据之间的比较

      大家好,我是带我去滑雪!

      如果要对两笔数据或者多笔数据的分布情况进行比较,Q-Q图、柱状图、星形图都是非常好的选择,下面开始实战。     

(1)绘制Q-Q图

     首先导入数据bankwage.csv文件,该数据集包含474条数据,变量分别是wage(数值)、wage0(数值)、edu(数值)、gender(字符)、minority(字符)、job(字符):

bankwage=read.csv("bankwage.csv")

     目的:尝试比较员工薪酬上是否存在性别差异。

mwage = subset(bankwage, gender == "Male")$wage_current
fwage = subset(bankwage, gender == "Female")$wage_current
qqplot(mwage, fwage, xlim = range(wage_current), ylim = range(wage_current),  xaxs = "i", yaxs = "i", xlab = "Male workers' wage", ylab = "Female workers' wage")
abline(0, 1)

输出结果:

43f6f8a72f0f41a48e135a0247a82952.png

     通过图像,可以发现薪酬分布倾向男性,说明男性和女性在薪酬上存在性别差异。

(2)绘制柱状图

       数据采用国际上13个交易市场的市价总值数据,目的是比较多个市场市价总值2003年到2008年的差别情况,使用柱状图呈现数据。

load("Cap.RData")
par(mfrow=c(2,1))
barplot(t(Cap)/1e+06, beside = T,las=3,ylab="Capitalization")
title(main = "Major Stock Markets")
mtext(side = 3, "2003 - 2008")
barplot(Cap/1e+06, beside = TRUE,ylab="Capitalization")
par(mfrow=c(1,1))

输出结果:

9527e03ea85542abb998f482c34cbe6e.png

(3)星形图

       星形图(Star Plot),也称为雷达图(Radar Plot)或蜘蛛图(Spider Plot),是一种用于可视化多维数据的图表类型。它以一个多边形的形式显示了多个变量或特征的值,使您能够比较各个特征之间的相对大小和分布。星形图通常用于展示数据的多维特征,特别适用于在不同类别或维度上比较多个观测值的情况。

palette(rainbow(13, s = 0.6, v = 0.75))
stars(t(log(Cap)), draw.segments = TRUE, ncol = 3, nrow = 2,
      key.loc = c(4.6, -0.5), mar = c(15, 0, 0, 0))
mtext(side = 3, line = 2.2, text = "Growth and Decline of Major Stock Markets",
      cex = 1.5, font = 2)
abline(h = 0.9)
输出结果:

481c315395b64c6dbbcb1aff238a1fb2.png

(4)相关性绘图

       分析数值型数据时,变量间的相关性是一项重点,使用corrgram()函数用图形及其组合将相关系数矩阵可视化。可以通过图形色彩、形状等特征轻松地判断相关性是正还是负,甚至相关系数是否显著。

library(corrgram)        
data(auto)
head(auto)
vars_name = setdiff(colnames(auto), c("Model", "Origin"))
low=panel.conf
up=panel.pie
txt=panel.txt
diag=NULL  #or panel.minmax
corrgram(auto[, vars_name],lower.panel=low, upper.panel=up, text.panel=txt,diag.panel=diag, order=TRUE, main="Auto data (PC order)")

输出结果:

967b1138618c44d1b7a0b81b3b619d2a.png


更多优质内容持续发布中,请移步主页查看。

   点赞+关注,下次不迷路!

http://www.lryc.cn/news/189198.html

相关文章:

  • TCPUDP
  • 设计模式 - 备忘录模式
  • OpenCV4(C++)—— 几何图形的绘制
  • 智能优化算法常用指标一键导出为EXCEL,CEC2017函数集最优值,平均值,标准差,最差值,中位数,秩和检验,箱线图...
  • python文件打包方式汇总
  • 基于ChatGPT+词向量/词嵌入实现相似商品推荐系统
  • 虾皮商品链接获取虾皮商品详情数据(用 Python实现虾皮商品信息抓取)
  • 【数据库系统概论】数据查询之单表查询。详细解释WHERE、OEDER BY、GROUP BY 和 HAVING
  • 2023年医药商业行业发展研究报告
  • Android 消息机制
  • QT计时器QTime的使用举例
  • js中await用法
  • Qt多工程同名字段自动翻译工具
  • vue3+elementui实现表格样式可配置
  • x11截屏源码(ubuntu18.04)
  • 【ComfyUI】MacBook Pro 安装(Intel 集成显卡)
  • HTTPS 加密全过程
  • 联邦学习综述二
  • Idea本地跑flink任务时,总是重复消费kafka的数据(kafka->mysql)
  • 基于nodemailer实现邮件发送
  • 【PostgreSQL内核学习(十八)—— (数据库表参数)】
  • 区块链的两个核心概念之一签名, 另一个是共识.
  • wpf中prism框架切换页面
  • 正则表达式(Regular Expression)学习网址分享
  • 【已解决】socket.gaierror: [Errno -3] Temporary failure in name resolution
  • CUDA code=700(cudaErrorIllegalAddress) 报错与排查方法
  • 项目管理过程组
  • python每日一练(5)
  • 经典循环命题:百钱百鸡
  • IDEA使用模板创建webapp时,web.xml文件版本过低的一种解决方法