当前位置: 首页 > news >正文

【机器学习】KNN算法-鸢尾花种类预测

KNN算法-鸢尾花种类预测

文章目录

  • KNN算法-鸢尾花种类预测
    • 1. 数据集介绍
    • 2. KNN优缺点:

K最近邻(K-Nearest Neighbors,KNN)算法是一种用于模式识别和分类的简单但强大的机器学习算法。它的工作原理非常直观:给定一个新数据点,KNN算法会查找离这个数据点最近的K个已知数据点,然后基于这K个最近邻数据点的类别来决定新数据点的类别。简而言之,KNN算法通过周围数据点的多数投票来决定新数据点所属的类别。KNN常用于分类问题,如图像分类、文本分类、垃圾邮件检测等。它也可以用于回归问题,称为K最近邻回归(K-Nearest Neighbors Regression),用于预测数值型输出。

1. 数据集介绍

Iris数据集是常用的分类实验数据集,由Fisher,1936搜集整理。Iris也称为鸢尾花数据集,是一类多重变量分析的数据集。关于数据集的介绍:

  • 实例数量:150个,三种各有50个
  • 属性数量:4个,数值型,数值型,帮助预测的属性和类
  • Attribute Information:
    • 萼片长度,萼片宽度,花瓣长度,花瓣宽度 cm
    • 山鸢尾,变色鸢尾,维吉尼亚鸢尾

以下是代码、注释以及输出:

from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
# K—近邻算法
def KNN_demo():"""sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto')n_neighbors:int可选,默认为5,k_neighbors查询默认使用的邻居数algorithm:{'auto','ball_tree','kd_tree','brute'},可选用于计算最近邻居的算法:‘ball_tree’将会使用BallTree,'kd_tree'将会使用KDTree。'auto'将尝试根据传递给fit方法的值来决定最合适的算法。(不同实现方式影响效率):return:"""# 获取数据iris = load_iris()# 划分数据集x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state= 6)# 特征工程 标准化transfer = StandardScaler()x_train = transfer.fit_transform(x_train)x_test = transfer.transform(x_test)# KNN算法预估器estimator = KNeighborsClassifier(n_neighbors= 3)estimator.fit(x_train, y_train)# 模型评估# 方法一:y_predict = estimator.predict(x_test)print("y_predict:\n", y_predict)print("直接比对真实值和预测值:\n", y_test == y_predict)# 方法二:score = estimator.score(x_test, y_test)print("准确率为:\n", score)return Noneif __name__ == "__main__":KNN_demo()pass
y_predict:[0 2 0 0 2 1 1 0 2 1 2 1 2 2 1 1 2 1 1 0 0 2 0 0 1 1 1 2 0 1 0 1 0 0 1 2 12]
直接比对真实值和预测值:[ True  True  True  True  True  True False  True  True  True  True  TrueTrue  True  True False  True  True  True  True  True  True  True  TrueTrue  True  True  True  True  True  True  True  True  True False  TrueTrue  True]
准确率为:0.9210526315789473

2. KNN优缺点:

  • 优点:简单,易于实现,不需训练
  • 缺点:懒惰算法,对测试样本分类时计算量大,内存开销大;必须指定K值,K值选择不当则分类精度不能保证。
  • 使用场景:小数据场景,几千~几万样本,具体场景具体业务去测试。
http://www.lryc.cn/news/208727.html

相关文章:

  • LuatOS-SOC接口文档(air780E)--lora - lora驱动模块
  • Compose 自定义 - 绘制 Draw
  • c#学习相关系列之构造函数
  • CS224W1.3——图表示的选择
  • rust学习——插件rust-analyzer安装与配置
  • Spring Boot简介
  • Linux下protobuf和 protobuf-c安装使用
  • FastAPI 快速学习之 Flask 框架对比
  • Spring Boot和XXL-Job:高效定时任务管理
  • 3、QtCharts 动态曲线图
  • Linux下自动挂载U盘或者USB移动硬盘
  • 一文通透位置编码:从标准位置编码到旋转位置编码RoPE
  • 八皇后问题
  • UE4/UE5 设置widget中text的字体Outline
  • 漏洞复现-phpmyadmin_SQL注入 (CVE-2020-5504)
  • 安装虚拟机(VMware)保姆级教程及配置虚拟网络编辑器和安装WindowsServer以及宿主机访问虚拟机和配置服务器环境
  • vue表格列表导出excel
  • CSS基础入门03
  • 大数据架构设计理论与实践
  • 2024级199管理类联考之英语二2200核心词汇(第三天)
  • SQL中:语法总结(group by,having ,distinct,top,order by,like等等)
  • 13.计算机视觉
  • 关于Java中的运算符
  • 细说RTSP、RTMP和GB28181区别
  • Windows下安装Anaconda、Pycharm以及iflycode插件图解
  • Steger算法实现结构光光条中心提取(python版本)
  • 【完整解题】2023年第四届MathorCup高校数学建模挑战赛——大数据竞赛B题 思路代码文章电商零售商家需求预测及库存优化问题
  • 服务网络基础
  • 2016年亚太杯APMCM数学建模大赛C题影视评价与定制求解全过程文档及程序
  • Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (四)