当前位置: 首页 > news >正文

数据可视化---离群值展示

内容导航

类别内容导航
机器学习机器学习算法应用场景与评价指标
机器学习算法—分类
机器学习算法—回归
机器学习算法—聚类
机器学习算法—异常检测
机器学习算法—时间序列
数据可视化数据可视化—折线图
数据可视化—箱线图
数据可视化—柱状图
数据可视化—饼图、环形图、雷达图
统计学检验箱线图筛选异常值
3 Sigma原则筛选离群值
Python统计学检验
大数据PySpark大数据处理详细教程
使用教程CentOS服务器搭建Miniconda环境
Linux服务器配置免密SSH
大数据集群缓存清理
面试题整理面试题—机器学习算法
面试题—推荐系统

"""
传入一个list,以及几倍的sigma参数threshold,可以将数据中的正常值及离群值用不同颜色展示出来
"""
import numpy as np
import pandas as pd
import matplotlib.pyplot as pltdef Outlier_visualization_line(data,threshold):plt.style.use('ggplot')data = pd.Series(data)mean = data.mean()std  = data.std()#筛选出离群值left  = mean - threshold * stdright = mean + threshold * stderror = data[(data<left)|(data>right)]data_c = data[(data>=left)&(data<=right)]# #不同着色,正常绿色,离群值红色# sp = np.where(data.isin(data_c),'g','r') # 可视化fig = plt.figure(figsize=(12,8))plt.plot(data.index,data.values,'bo--',alpha=0.4)plt.scatter(error.index,error.values,c='r',s=60)plt.title('Outlier Visualization',size=20)plt.text(len(data)*0.4,data.values.max()+data.values.max()*0.01,r'$\mu={},\ \sigma={}$'.format(round(mean,2),round(std,2)),fontsize=14,bbox=dict(facecolor='red', alpha=0.2))# 添加水平辅助线plt.axhline,添加垂直辅助线plt.axvline(轴位置,线形,标签))plt.axhline(left,linestyle = '--',label="{} sigma low".format(threshold))plt.axhline(right,linestyle = '--',label="{} sigma up".format(threshold))plt.xlabel('Index',size=18)plt.ylabel('Value',size=18)plt.grid(True)plt.legend(loc='best')plt.show()fig.savefig('Outlier_visualization_line.png',dpi=600)data = np.random.randn(100)*100
Outlier_visualization_line(data,threshold=1.5)

在这里插入图片描述

"""
传入一个list,以及几倍的sigma参数threshold,可以将数据中的正常值及离群值用不同颜色展示出来
"""
import numpy as np
import pandas as pd
import matplotlib.pyplot as pltdef Outlier_visualization_scatter(data,threshold):plt.style.use('ggplot')data = pd.Series(data)mean = data.mean()std  = data.std()#筛选出离群值left  = mean - threshold * stdright = mean + threshold * stderror = data[(data<left)|(data>right)]data_c = data[(data>=left)&(data<=right)]#不同着色,正常绿色,离群值红色sp = np.where(data.isin(data_c),'g','r') # 可视化fig = plt.figure(figsize=(12,8))plt.scatter(data.index,data.values,marker='o',c=sp)plt.title('Outlier Visualization',size=20)plt.text(len(data)*0.4,data.values.max(),r'$\mu={},\ \sigma={}$'.format(round(mean,2),round(std,2)),fontsize=14,bbox=dict(facecolor='red', alpha=0.2))plt.xlabel('Index',size=18)plt.ylabel('Value',size=18)plt.grid(True)plt.show()fig.savefig('Outlier_visualization_scatter.png',dpi=600)data = np.random.randn(10000)*100
Outlier_visualization_scatter(data,threshold=2.7)

在这里插入图片描述

友情提示如果你觉得这个博客对你有帮助,请点赞、评论和分享吧!如果你有任何问题或建议,也欢迎在评论区留言哦!!!

http://www.lryc.cn/news/263579.html

相关文章:

  • LeetCode Hot100 51.N皇后
  • 机器学习 | 贝叶斯方法
  • 缓存的定义及重要知识点
  • TrustZone之顶层软件架构
  • SpringBoot Whitelabel Error Page 报错--【已解决】
  • 02.Git常用基本操作
  • 黑盒测试中关键截图如何打点
  • 画图之C4架构图idea和vscode环境搭建篇
  • 安卓小练习-校园闲置交易APP(SQLite+SimpleCursorAdapter适配器)
  • Pycharm 如何更改成中文版| Python循环语句| for 和 else 的搭配使用
  • 智合同是怎么审合同的?
  • 使用Httpclient来替代客户端的jsonp跨域解决方案
  • 测试工具Jmeter:设置中文界面
  • K8s攻击案例:RBAC配置不当导致集群接管
  • 运行hive的beelin2时候going to print operations logs printed operations logs
  • 从 MySQL 到 DolphinDB,Debezium + Kafka 数据同步实战
  • 六.聚合函数
  • Eclipse_03_如何加快index速度
  • scrapy的入门和使用
  • yolov5单目测距+速度测量+目标跟踪(算法介绍和代码)
  • flink 读取 apache paimon表,查看source的延迟时间 消费堆积情况
  • 无人机在融合通信系统中的应用
  • MySQL库的操作
  • 服务器解析漏洞有哪些?IIS\APACHE\NGINX解析漏洞利用
  • Https图片链接下载问题
  • Wireshark在移动网络中的应用
  • Leetcode 1901. 寻找峰值 II(Java + 列最大值 + 二分)
  • RabbitMQ 消息持久化
  • Opencv实验合集——实验四:图片融合
  • Java复习