当前位置: 首页 > news >正文

05.KNN算法总结

KNN算法总结

1 k近邻算法优缺点汇总

  • 优点:
    • 简单有效
    • 重新训练的代价低
    • 适合类域交叉样本
      • KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。
    • 适合样本容量比较大的类域自动分类
      • 该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分
样本量、样本个数与样本容量的关系举例
一个箱子最多能放50个苹果(样本),从中取样30个。
在这里,苹果是样本,箱子最多能放的个数(即苹果的总数)50是这个样本的样本(容)量,而所抽取的样本个数30则是样本量。

  • 缺点:
    • 惰性学习
      • KNN算法是懒散学习方法(lazy learning,基本上不学习),一些积极学习的算法要快很多
    • 类别评分不是规格化
      • 不像一些通过概率评分的分类
    • 输出可解释性不强
      • 例如决策树的输出可解释性就较强
    • 对不均衡的样本不擅长
      • 当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本,某一类的样本数量很大,那么或者这类样本并不接近目标样本,或者这类样本很靠近目标样本。无论怎样,数量并不能影响运行结果。可以采用权值的方法(和该样本距离小的邻居权值大)来改进。
    • 计算量较大
      • 目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。
http://www.lryc.cn/news/526872.html

相关文章:

  • CentOS 7 搭建lsyncd实现文件实时同步 —— 筑梦之路
  • java定时任务备份数据库
  • Vue.js 传递路由参数和查询参数
  • 2025数学建模美赛|F题成品论文
  • 私有包上传maven私有仓库nexus-2.9.2
  • 企业信息化4:免费开源的财务管理系统
  • PyCharm配置Python环境
  • 蓝桥杯3522 互质数的个数 | 数论
  • Effective C++ 规则49:了解 new-handler 的行为
  • 头像生成小程序搭建(免费分享)
  • 手撕Diffusion系列 - 第九期 - 改进为Stable Diffusion(原理介绍)
  • MySQL 基础学习(2): INSERT 操作
  • openstack 客户端命令行简介
  • Oracle查看数据库表空间使用情况
  • [护网杯 2018]easy_tornado1
  • 关于java实现word(docx、doc)转html的解决方案
  • 【8】思科IOS AP升级操作
  • 【ROS2】RViz2界面类 VisualizationFrame 详解
  • 2025年01月24日Github流行趋势
  • Gradle buildSrc模块详解:集中管理构建逻辑的利器
  • 【Airsim 仿真】查找配置文件 settings json 的路径优先级
  • 【FreeRTOS 教程 四】队列创建与发布项目到队列
  • STM32项目分享:智能厨房安全检测系统
  • 2025美赛数学建模MCM/ICM选题建议与分析,思路+模型+代码
  • 高并发问题的多维度解决之道
  • Ubuntu环境 nginx 源码 编译安装
  • K8S中的数据存储之基本存储
  • 编码器和扩散模型
  • PAT甲级-1024 Palindromic Number
  • FS8405 Release FS0B