当前位置：首页 > news >正文

人工智能-python-机器学习-逻辑回归与K-Means算法：理论与应用

news 2025/8/12 12:03:05

文章目录

逻辑回归与K-Means算法：理论与应用
- 1. 引言
- 2. 逻辑回归:二分类的利器
- - 🔍 为什么用它？
  - 🎯 使用场景
  - 2.1 什么是逻辑回归？
  - 2.2 理论依据
  - 2.3 使用场景
  - 2.4 示例与API解释
  - 2.5 优缺点
  - - 优点：
    - 缺点：
- 3. K-Means算法
- - 3.1 什么是K-Means？
  - - 🔍 为什么用它？
  - 3.2 理论依据
  - 3.3 使用场景
  - 3.4 示例与API解释
  - 3.5 优缺点
  - - 优点：
    - 缺点：
- 4. 总结

逻辑回归与K-Means算法：理论与应用

1. 引言

在机器学习中，逻辑回归和K-Means是两种非常常见且实用的算法。逻辑回归广泛应用于分类问题，而K-Means则是经典的无监督学习算法，用于聚类任务。本文将分别介绍逻辑回归和K-Means算法的理论基础、使用场景、API解释和实际示例，以帮助读者更好地理解这两种算法的应用和实现。

2. 逻辑回归:二分类的利器

🔍 为什么用它？

结果导向：快速构建高解释性二分类模型（如用户购买/不购买）
核心优势：输出概率值（0-1），可设置灵活阈值，部署成本低
业界地位：金融风控、医疗诊断等领域的基准模型

🎯 使用场景

场景	问题类型	实例
风险评估	是否违约	银行贷款审批
用户行为预测	是否点击/购买	电商推荐系统
医学诊断	是否患病	癌症早期筛查
文本分类	情感极性	评论情感分析（正/负）

2.1 什么是逻辑回归？

逻辑回归是一种用于分类问题的回归模型，特别适用于二分类问题（例如：是否通过考试，是否贷款批准等）。尽管其名称中包含“回归”二字，逻辑回归其实是一种分类模型，采用Sigmoid函数将输入映射到0到1之间，从而预测样本属于某个类别的概率。

2.2 理论依据

逻辑回归的核心思想是通过线性组合输入特征，然后通过Sigmoid函数将其转化为概率值。其公式为：

$hθ(x)=11+e−θTxh_\theta(x) = \frac{1}{1 + e^{-\theta^T x}}$

其中：

$hθ(x)h_\theta(x)$ 是预测的概率值，表示样本属于正类的概率。
$θ\theta$ 是模型的参数。
$x$ 是输入特征。

三大数学原理：

Sigmoid函数：将线性输出映射到(0,1)概率区间
极大似然估计：最大化观测数据的出现概率
梯度下降：通过迭代优化损失函数（交叉熵）：
Loss = -Σ[yᵢlog(ŷᵢ) + (1-yᵢ)log(1-ŷᵢ)]

2.3 使用场景

逻辑回归适用于二分类问题，尤其当数据特征与目标类别之间存在线性关系时。常见应用场景包括：

疾病预测：预测一个人是否患有某种疾病。
信用卡欺诈检测：判断一笔交易是否是欺诈行为。
邮件垃圾分类：判断一封邮件是否为垃圾邮件。

2.4 示例与API解释

以下是一个使用逻辑回归进行分类的示例：

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score# 加载示例数据集
data = load_iris()
X = data.data
y = (data.target == 0).astype(int)  # 将任务转化为二分类问题# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 创建逻辑回归模型
model = LogisticRegression()# 训练模型
model.fit(X_train, y_train)# 预测
y_pred = model.predict(X_test)# 输出准确率
print("准确率：", accuracy_score(y_test, y_pred))

API解释：

LogisticRegression()：创建一个逻辑回归模型。
fit()：训练模型，传入训练数据集和标签。
predict()：用训练好的模型对测试数据集进行预测。
accuracy_score()：评估预测结果的准确性。

LogisticRegression(penalty='l2',           # 正则化类型: 'l1'或'l2'C=1.0,                  # 正则化强度(↓C=↑正则化)solver='lbfgs',         # 优化算法: 'newton-cg','sag','saga'max_iter=100,           # 最大迭代次数class_weight=None,      # 处理样本不平衡: 'balanced'random_state=42          # 随机种子)

2.5 优缺点

优点：

简单易懂，计算效率高。
适用于特征与目标之间存在线性关系的分类问题。
可以输出样本属于某一类的概率。

缺点：

不能很好地处理非线性问题。
对于数据中的异常值较为敏感。

3. K-Means算法

3.1 什么是K-Means？

K-Means算法是一种常见的无监督学习聚类算法，旨在将数据集分成K个簇，使得簇内的样本相似度最大，而簇间的样本差异度最小。K-Means广泛应用于聚类分析中，尤其是在无标签数据的情况下。

🔍 为什么用它？

结果导向：快速发现数据内在分组（无标签数据）
核心优势：计算高效(O(n))，可扩展性强，直观可视化
业界地位：用户分群、图像压缩的首选聚类算法

3.2 理论依据

K-Means算法通过最小化簇内样本到簇中心的距离来进行聚类。具体步骤如下：

初始化：随机选择K个样本作为初始簇中心。
分配样本：将每个样本分配给最近的簇中心。
更新簇中心：根据每个簇内的样本，重新计算簇的中心（即样本均值）。
重复：不断重复分配样本和更新簇中心的步骤，直到簇中心不再发生变化或达到最大迭代次数。

3.3 使用场景

K-Means算法适用于需要将数据分组的情况，常见的应用场景包括：

市场细分：将消费者分成若干群体，以制定更有针对性的市场营销策略。
图像压缩：将图像中的颜色值进行聚类，减少颜色种类以压缩图像。
基因数据分析：将基因表达数据分组，发现基因之间的相似性。

3.4 示例与API解释

以下是使用K-Means算法进行聚类的示例：

from sklearn.cluster import KMeans
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt# 加载数据集
data = load_iris()
X = data.data# 创建KMeans模型，假设聚类数为3
model = KMeans(n_clusters=3, random_state=42)# 训练模型
model.fit(X)# 获取聚类中心
centroids = model.cluster_centers_# 获取每个样本的簇标签
labels = model.labels_# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
plt.scatter(centroids[:, 0], centroids[:, 1], s=200, c='red', marker='X')  # 聚类中心
plt.title('K-Means 聚类结果')
plt.show()

API解释：
- KMeans(n_clusters=3)：创建一个K-Means聚类模型，n_clusters=3指定了聚类数为3。
- fit()：训练模型，传入数据集。
- cluster_centers_：获取每个簇的中心坐标。
- labels_：获取每个样本所属的簇标签。