当前位置: 首页 > news >正文

LOF(Local Outlier Factor)原理

文章目录

  • 1定义
  • 2 k近邻距离(k-distance of an object p)
  • 3 k近邻
  • 4 可达距离
  • 5 局部可达密度
  • 6 lof
  • 参考:

1定义

LOF(Local Outlier Factor)是一种描述异常值的方法。

2 k近邻距离(k-distance of an object p)

假设p是查询点,离p最近的第K个点为o,则点p的k近邻距离记为k−distance(o)k-distance(o)kdistance(o),一般情况下可以认为k−distance(o)k-distance(o)kdistance(o)等于po之间的距离d(p,o)d(p,o)d(p,o)

3 k近邻

假设p是查询点,距离小于k近邻距离的点,都属于点p的k近邻,由集合Nk−distance(p)(p)N_{k-distance(p)}(p)Nkdistance(p)(p)表示,简记为Nk(p)N_k(p)Nk(p)
如果对k近邻算法很熟悉的话,以上两个定义都是很自然而然的定义。

4 可达距离

假设p是查询点,o是p的第k个近邻点,则定义p的可达距离:
reach-distk(p,o)=max⁡{k−distance(o),d(p,o)}\text{reach-dist}_k(p, o) = \max \left\{k-distance(o), d(p, o)\right\}reach-distk(p,o)=max{kdistance(o),d(p,o)}
值得注意的是:k−distance(o)k-distance(o)kdistance(o)是第k个近邻点o的k近邻距离,不是查询点p的k近邻距离(网上博客很多都是错误的)。因此通俗的讲:
对于查询点p而言,假设其第k个近邻点为o,则p的可达距离为o到o的第k个近邻点距离和po的最大值。

5 局部可达密度

假设p是查询点,o是p的近邻点集合N中的任一点,则定义p的可达密度:
lrd⁡k⁡(p)=(1/∑o∈Nk⁡(p)reach-dist k (p,o)∣Nk (p)∣)\operatorname{lrd}_{\operatorname{k}}(p)=\left( 1 / \frac{\underset{o \in N_{\operatorname{k}}(p)}{\sum} \text { reach-dist }_{\text {k }}(p, o)}{\left|N_{\text {k }}(p)\right|}\right) lrdk(p)=1/N(p)oNk(p) reach-dist (p,o)
局部可达密度等于p的所有k近邻点集合(从第一个近邻点到第k个近邻点)对应的可达距离平均值的倒数。∣Nk (p)∣\left|N_{\text {k }}(p)\right|N(p)这里应该表示查询点p的近邻数量,一般情况等于k

6 lof

假设p是查询点,o是p的近邻点集合N中的任一点,lof定义如下:
LOF⁡k⁡(p)=(∑o∈Nk⁡(p)lrdk⁡(o)lrdk⁡(p)∣Nk (p)∣)\operatorname{LOF}_{\operatorname{k}}(p)=\left( \frac{\underset{o \in N_{\operatorname{k}}(p)}{\sum} \frac{{lrd}_{\operatorname{k}}(o)} {{lrd}_{\operatorname{k}}(p)}}{\left|N_{\text {k }}(p)\right|}\right) LOFk(p)=N(p)oNk(p)lrdk(p)lrdk(o)
可以看出,lof计算不难,但要计算所有近邻点的局部可达密度,所以应该是比较耗时的。

参考:

lof原文:《LOF: Identifying Density-Based Local Outliers》
Charu C. Aggarwal《data mining》8.5.2.1 Local Outlier Factor (LOF)
sklearn 源码1
pdal源码1

http://www.lryc.cn/news/9310.html

相关文章:

  • [ vulhub漏洞复现篇 ] Drupal<7.32 Drupalgeddon SQL注入漏洞(CVE-2014-3704)
  • Part 4 描述性统计分析(占比 10%)——下
  • 【一般人不会告诉你】比肩chatgtp的5款AI网站
  • LA@相似方阵和对角化
  • 存储类别、链接与内存管理(二)
  • JavaScript 入门教程||javascript 简介||JavaScript 用法
  • 新闻稿写作指南
  • 一文详解Redis持久化的两种方案
  • 第六章 - 数据过滤where(where与and和or的组合用法)
  • Oracle 定时任务例子
  • Android常用9种自动化测试框架对比,Appium有哪些优势?
  • 在vue2使用百度脑图的kityminder-core进行二次开发思维导图,给节点绑定数据后添加新的图标
  • FPGA时序约束与分析 --- 时序约束概述
  • 2022——寒假总结
  • C++11 Lambda表达式
  • 冰湖灾害遥感监测评价与模拟分析
  • Highcharts.Chart
  • 遍历map的几种方法
  • RocketMQ源码分析之Broker概述与同步消息发送原理与高可用设计及思考
  • K8s常见面试题总结
  • OpenFeign 自定义解码器Decoder 失效
  • c++练习题8
  • Python循环语句代码详解:while、for、break
  • vue父子组件传值不能实时更新
  • 2023美赛A题思路数据代码分享
  • 【蓝桥杯集训·每日一题】AcWing 3768. 字符串删减
  • Python|每日一练|树|深度优先搜索|数组|二分查找|链表|双指针|单选记录:填充每个节点的下一个右侧节点指针|搜索插入位置|旋转链表
  • 降雨量实时监测系统压电式雨量计
  • 滑动相关的原理以及用滤波器实现滑动相关(匹配滤波器捕获DMF)
  • 计算机网络笔记(三)—— 数据链路层