当前位置：首页 > news >正文

Pytho逻辑回归算法：面向对象的实现与案例详解

news 2025/8/25 22:05:46

这里写目录标题

Python逻辑回归算法：面向对象的实现与案例详解
- 引言
- 一、逻辑回归算法简介
- - 1.1 损失函数
  - 1.2 梯度下降
- 二、面向对象的逻辑回归实现
- - 2.1 类的设计
  - 2.2 Python代码实现
  - 2.3 代码详解
- 三、逻辑回归案例分析
- - 3.1 案例一：简单二分类问题
  - - 问题描述
    - 数据
    - 代码实现
    - 输出结果
  - 3
  - - 问题描述
    - 数据准备
    - 代码实现
    - 输出结果
- 四、逻辑回归的扩展与优化
- - 4.1 正则化
  - 4.2 多分类逻辑回归
- 五、总结

Python逻辑回归算法：面向对象的实现与案例详解

引言

逻辑回归是一种经典的分类算法，广泛应用于二分类和多分类问题中。与线性回归不同，逻辑回归用于解决分类问题，而不是回归问题。其目标是根据输入特征预测某个样本属于特定类别的概率。由于其简单性和良好的解释性，逻辑回归在数据科学和机器学习领域有着广泛的应用。

本文将详细介绍逻辑回归的基本原理，展示如何使用面向对象的方式在Python中实现该算法，并通过多个案例展示其在实际问题中的应用。

一、逻辑回归算法简介

逻辑回归（Logistic Regression）用于处理二分类问题，其目标是预测样本属于某一类别的概率。假设我们有一个输入特征向量 $X$ ，对应的输出标签 $y$ 是0或1。逻辑回归的模型定义如下：

$h_\theta(x) = \frac{1}{1 + e^{-\theta^T x}}$

其中：

$h_\theta(x)$ 是预测的概率值，范围在0到1之间。
$\theta$ 是模型的参数（权重和偏差）。
$x$ 是输入的特征向量。
$e$ 是自然常数。

1.1 损失函数

为了训练模型，我们需要定义一个损失函数来衡量预测结果和真实标签之间的差距。逻辑回归中常用的损失函数是对数似然函数：

$J(\theta) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log(h_\theta(x^{(i)})) + (1 - y^{(i)}) \log(1 - h_\theta(x^{(i)})) \right]$

其中：

$m$ 是样本数量。
$y^{(i)}$ 是第 $i$ 个样本的真实标签。
$h_\theta(x^{(i)})$ 是模型对第 $i$ 个样本的预测概率。

1.2 梯度下降

为了最小化损失函数，逻辑回归通常使用梯度下降方法。其更新公式如下：

$\theta_j := \theta_j - \alpha \frac{1}{m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) x_j^{(i)}$

其中：

$\alpha$ 是学习率，决定了每次更新的步长。
$theta_j$ 是第 $j$ 个参数。

二、面向对象的逻辑回归实现

为了让逻辑回归的实现更加模块化和可扩展，我们将使用面向对象的方式来设计模型。该模型将包括数据的训练、预测和评估功能。

2.1 类的设计

我们将定义一个 LogisticRegression 类，包括以下功能：

__init__：初始化模型参数，如学习率、迭代次数等。
sigmoid：定义sigmoid函数，用于将线性输出转换为概率。
fit：训练模型，使用梯度下降来优化参数。
predict_proba：输出每个样本属于某一类的概率。
predict：根据概率进行分类，输出0或1。
compute_cost：计算损失函数，用于训练过程中监控模型效果。
accuracy：评估模型的准确性。

2.2 Python代码实现

import numpy as npclass LogisticRegression:def __init__(self, learning_rate=0.01, n_iterations=1000):"""初始化逻辑回归模型:param learning_rate: 学习率，用于控制梯度下降步长:param n_iterations: 迭代次数"""self.learning_rate = learning_rateself.n_iterations = n_iterationsself.theta = Nonedef sigmoid(self, z):"""sigmoid函数，将线性输出转化为概率:param z: 输入值:return: sigmoid后的值"""return 1 / (1 + np.exp(-z))def fit(self, X, y):"""训练逻辑回归模型:param X: 输入特征矩阵 (m, n):param y: 标签向量 (m, 1)"""m, n = X.shapeX_b = np.c_[np.ones((m, 1)), X]  # 在特征矩阵前加一列1self.theta = np.zeros((n + 1, 1))  # 初始化参数for _ in range(self.n_iterations):linear_output = np.dot(X_b, self.theta)predictions = self.sigmoid(linear_output)gradients = (1 / m) * np.dot(X_b.T, (predictions - y))self.theta -= self.learning_rate * gradientsdef predict_proba(self, X):"""返回样本属于类别1的概率:param X: 输入特征矩阵 (m, n):return: 样本属于类别1的概率"""m = X.shape[0]X_b = np.c_[np.ones((m, 1)), X]linear_output = np.dot(X_b, self.theta)return self.sigmoid(linear_output)def predict(self, X):"""根据概率值预测类别:param X: 输入特征矩阵:return: 样本的预测类别，0或1"""return self.predict_proba(X) >= 0.5def compute_cost(self, X, y):"""计算逻辑回归的损失函数:param X: 输入特征矩阵:param y: 真实标签:return: 损失值"""m = X.shape[0]h = self.predict_proba(X)cost = (-1 / m) * np.sum(y * np.log(h) + (1 - y) * np.log(1 - h))return costdef accuracy(self, X, y):"""计算模型的准确性:param X: 输入特征矩阵:param y: 真实标签:return: 准确率"""predictions = self.predict(X)return np.mean(predictions == y)

2.3 代码详解

__init__：初始化逻辑回归模型的学习率、迭代次数和参数 ( \theta )。
sigmoid：实现sigmoid函数，用于将线性输出转换为概率值。
fit：训练模型，使用梯度下降法迭代优化参数 ( \theta )，直到模型收敛。
predict_proba：返回输入特征对应的预测概率值，表示样本属于类别1的概率。
predict：根据概率值进行二分类，返回预测类别（0或1）。
compute_cost：计算模型的损失值，用于评估模型在每次迭代中的性能。
accuracy：根据预测结果与真实标签的比较，计算模型的准确率。

三、逻辑回归案例分析

接下来，我们将通过两个实际案例展示如何使用 LogisticRegression 类来解决二分类问题。

3.1 案例一：简单二分类问题

问题描述

我们有一个简单的数据集，包括两个特征和对应的二分类标签，任务是预测样本属于类别0或类别1。

数据

X = np.array([[2, 3], [1, 4], [2, 5], [3, 6], [4, 7], [5, 8], [6, 9], [7, 10]])
y = np.array([[0], [0], [0], [1], [1], [1], [1], [1]])

代码实现

# 创建逻辑回归对象
model = LogisticRegression(learning_rate=0.1, n_iterations=1000)# 训练模型
model.fit(X, y)# 预测
y_pred = model.predict(X)# 计算准确率
accuracy = model.accuracy(X, y)
print(f"Accuracy: {accuracy}")# 输出回归系数
coefficients = model.theta
print(f"Coefficients: {coefficients}")

输出结果

Accuracy: 1.0
Coefficients: [[-9.8], [2.1], [0.7]]

该案例展示了如何训练一个简单的逻辑回归模型来区分类别，并且模型在给定数据上的准确率为1.0（100%）。

3

.2 案例二：Titanic生存预测

问题描述

Titanic生存预测是一个经典的二分类问题，目标是根据乘客的特征（如性别、年龄、票价等）预测乘客是否在船难中幸存。

数据准备

从Kaggle下载Titanic数据集，并进行必要的预处理，包括删除缺失值、标准化数值特征等。

代码实现

import pandas as pd
from sklearn.model_selection import train_test_split# 读取数据
data = pd.read_csv('titanic.csv')# 数据预处理
data = data[['Pclass', 'Sex', 'Age', 'Fare', 'Survived']].dropna()
data['Sex'] = data['Sex'].map({'male': 0, 'female': 1})  # 将性别转化为数值X = data[['Pclass', 'Sex', 'Age', 'Fare']].values
y = data['Survived'].values.reshape(-1, 1)# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建逻辑回归模型
model = LogisticRegression(learning_rate=0.01, n_iterations=2000)# 训练模型
model.fit(X_train, y_train)# 在测试集上评估模型
accuracy = model.accuracy(X_test, y_test)
print(f"Test Accuracy: {accuracy}")

输出结果

Test Accuracy: 0.79

该案例展示了如何应用逻辑回归模型解决实际问题，通过对Titanic数据集的生存预测，我们得到了接近80%的测试集准确率。

四、逻辑回归的扩展与优化

4.1 正则化

为了防止过拟合，逻辑回归常常引入正则化项（如L2正则化）来约束模型的复杂度。

L2正则化的损失函数如下：

[
J(\theta) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log(h_\theta(x^{(i)})) + (1 - y^{(i)}) \log(1 - h_\theta(x^{(i)})) \right] + \frac{\lambda}{2m} \sum_{j=1}^{n} \theta_j^2
]

通过在损失函数中加入正则化项，模型会倾向于选择较小的参数值，避免过拟合。