当前位置：首页 > news >正文

KNN算法：从原理到实战应用

news 2025/8/7 17:52:32

文章目录

KNN（K-Nearest Neighbors）算法详解
- 1. 算法概述
- 2. 算法原理
- - 2.1 基本流程
  - 2.2 距离度量
  - - (1) 欧氏距离（最常用）
    - (2) 曼哈顿距离
    - (3) 闵可夫斯基距离（泛化形式）
    - (4) 余弦相似度（文本向量场景常用）
  - 2.3 决策规则
- 3. 算法实现
- - 3.1 分类示例（`sklearn`）
  - 3.2 决策边界可视化
- 4. 模型评估与超参数选择
- 5. 优缺点分析
- - 5.1 优点
  - 5.2 缺点
- 6. 维度灾难解析
- 7. 应用场景
- 8. 总结

KNN（K-Nearest Neighbors）算法详解

1. 算法概述

KNN 是一种 基于实例的监督学习算法，常用于分类和回归。核心思想是：

一个样本的类别/数值由其最近的 K 个邻居共同决定。

直观类比：想判断一个水果是苹果还是橙子？看看它周围最相似的 K 个水果是什么。

2. 算法原理

2.1 基本流程

选择超参数 $K$ （邻居数量）。
计算新样本与训练集中所有样本的距离。
选取距离最近的 $K$ 个样本。
分类任务：多数投票决定类别。
回归任务：取 K 个邻居的平均值。

2.2 距离度量

(1) 欧氏距离（最常用）

$d(x,y)=∑i=1n(xi−yi)2d(\mathbf{x}, \mathbf{y}) = \sqrt{\sum_{i=1}^n (x_i - y_i)^2}$

(2) 曼哈顿距离

$d(x,y)=∑i=1n∣xi−yi∣d(\mathbf{x}, \mathbf{y}) = \sum_{i=1}^n |x_i - y_i|$

(3) 闵可夫斯基距离（泛化形式）

$d(x,y)=(∑i=1n∣xi−yi∣p)1pd(\mathbf{x}, \mathbf{y}) = \left( \sum_{i=1}^n |x_i - y_i|^p \right)^{\frac{1}{p}}$

(4) 余弦相似度（文本向量场景常用）

$cos⁡(θ)=x⋅y∥x∥∥y∥\cos(\theta) = \frac{\mathbf{x} \cdot \mathbf{y}}{\|\mathbf{x}\|\|\mathbf{y}\|}$

2.3 决策规则

分类：多数投票法

$y^=arg⁡max⁡c∑i=1KI(yi=c)\hat{y} = \underset{c}{\arg\max} \sum_{i=1}^K I(y_i = c)$

回归：均值法

$y^=1K∑i=1Kyi\hat{y} = \frac{1}{K} \sum_{i=1}^K y_i$

3. 算法实现

3.1 分类示例（`sklearn`）

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier# 1. 加载数据
X, y = load_iris(return_X_y=True)# 2. 数据划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42
)# 3. 特征标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)# 4. 训练 KNN 模型
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)# 5. 模型评估
print("测试集准确率:", knn.score(X_test, y_test))

3.2 决策边界可视化

import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier# 仅使用两个特征绘制边界
X_plot = X[:, :2]
X_train, X_test, y_train, y_test = train_test_split(X_plot, y, test_size=0.3, random_state=42
)knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)# 网格化区域
x_min, x_max = X_plot[:, 0].min() - 1, X_plot[:, 0].max() + 1
y_min, y_max = X_plot[:, 1].min() - 1, X_plot[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1),np.arange(y_min, y_max, 0.1)
)
Z = knn.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)# 绘图
plt.contourf(xx, yy, Z, alpha=0.3)
plt.scatter(X_plot[:, 0], X_plot[:, 1], c=y, edgecolors='k')
plt.title("KNN 决策边界")
plt.xlabel("特征1")
plt.ylabel("特征2")
plt.show()