当前位置: 首页 > news >正文

异常数据检测 | Python实现孤立森林(IsolationForest)异常检测

孤立森林(IsolationForest)异常检测
IsolationForest[6]算法它是一种集成算法(类似于随机森林)主要用于挖掘异常(Anomaly)数据,或者说离群点挖掘,总之是在一大堆数据中,找出与其它数据的规律不太符合的数据。该算法不采样任何基于聚类或距离的方法,因此他和那些基于距离的的异常值检测算法有着根本上的不同,孤立森林认定异常值的原则是异常值是少数的和不同的数据。它通常用于网络安全中的攻击检测和流量异常等分析,金融机构则用于挖掘出欺诈行为。

当我们使用IsolationForest[7]算法时需要设置一个异常值比例的参数contamination, 该参数的作用类似于之前的outliers_fraction。
使用 fit 方法对孤立森林模型进行训练
使用 predict 方法去发现数据中的异常值。返回1表示正常值,-1表示异常值。

data = df[[‘price_usd’, ‘srch_booking_window’, ‘srch_saturday_night_bool’]]
scaler = StandardScaler()
np_scaled = scaler.fit_transform(data)
data = pd.DataFrame(np_scaled)

训练孤立森林模型

model = IsolationForest(contamination=outliers_fraction)
model.fit(data)

#返回1表示正常值,-1表示异常值
df[‘anomaly2’] = pd.Series(model.predict(data))

fig, ax = plt.subplots(figsize=(10,6))
a = df.loc[df[‘anomaly2’] =

http://www.lryc.cn/news/249587.html

相关文章:

  • 营销互动类小游戏策划与开发
  • 主机的容器化技术介绍
  • 网络基础『发展 ‖ 协议 ‖ 传输 ‖ 地址』
  • Aapche Dubbo 不安全的 Java 反序列化 (CVE-2019-17564)
  • B/S软件开发架构
  • 【docker系列】docker实战之部署SpringBoot项目
  • 【数据结构】时间和空间复杂度
  • 【Web】[GKCTF 2021]easycms
  • VM CentOS7安装ffmpeg
  • PyTorch Models
  • viple模拟器使用(四):unity模拟器中实现沿右墙迷宫算法
  • 面试送分题!“商品分类浏览”如何测试?
  • 在浏览器中直接打开PDF
  • docker集群的详解以及超详细搭建
  • 4进制思路。。。。。。。。
  • 解决ansible批量加入新IP涉及known_hosts报错的问题
  • vuepress----1、快速开始
  • C++ -- 每日选择题 -- Day2
  • 软件测评中心▏软件集成测试和功能测试之间的区别和联系简析
  • Selenium/webdriver介绍以及工作原理
  • HTML5+CSS3+JS小实例:九宫格图片鼠标移入移出方向感知特效
  • 在Rust中编写自动化测试
  • 羊大师提问,为什么吃得越咸越容易出现健康问题?
  • linux ld 链接器学习笔记
  • 栈模拟先序后序中序遍历(非递归遍历)
  • linux 内核软中断介绍
  • 软考:2024年软考高级:软件工程
  • Kubernetes(K8s)_15_CNI
  • python 生成器的作用
  • 第十五届蓝桥杯(Web 应用开发)模拟赛 2 期-大学组(详细分析解答)