当前位置：首页 > news >正文

自然语言处理NLP入门 -- 第四节文本分类

news 2025/8/28 21:56:45

目标

本章的目标是帮助你理解文本分类的基本概念，并通过具体示例学习如何使用 scikit-learn 训练文本分类模型，以及如何利用 OpenAI API 进行文本分类。

5.1 什么是文本分类？

文本分类（Text Classification）是自然语言处理（NLP）中的一个基础任务，指的是将文本数据自动归类到一个或多个预定义类别中的过程。例如：

垃圾邮件检测：判定邮件是“垃圾邮件”还是“正常邮件”。
情感分析：分析评论或社交媒体上的文本，判断其情感是“正面”、“负面”还是“中性”。
新闻分类：将新闻归类到“体育”、“政治”、“科技”等类别。

文本分类的常见方法

基于规则的方法：使用关键字匹配等方法进行分类，适用于简单场景。
机器学习方法：使用 scikit-learn 训练分类模型，如朴素贝叶斯（Naïve Bayes）、支持向量机（SVM）等。
深度学习方法：使用 BERT、LSTM、Transformer 等深度神经网络进行分类，适用于大规模数据。
预训练模型（如 OpenAI API）：直接使用强大的 NLP 模型进行分类，无需训练自己的模型。

5.2 使用 `scikit-learn` 训练文本分类模型

步骤

准备数据集
文本预处理（分词、去停用词、向量化）
训练分类模型
测试和评估模型

示例 1：垃圾邮件分类

我们使用 scikit-learn 的 Pipeline 训练一个简单的垃圾邮件分类器。

Step 1：安装必要的库

!pip install scikit-learn numpy pandas nltk

Step 2：导入所需库

import pandas as pd  # 用于处理数据集
import numpy as np  # 用于数值计算
import nltk  # 自然语言处理工具包
from sklearn.model_selection import train_test_split  # 用于数据集划分
from sklearn.feature_extraction.text import TfidfVectorizer  # 用于文本特征提取
from sklearn.naive_bayes import MultinomialNB  # 朴素贝叶斯分类器
from sklearn.pipeline import Pipeline  # 机器学习流水线（自动化处理流程）
from sklearn.metrics import accuracy_score, classification_report  # 评估模型性能

Step 3：加载数据

我们使用一个简单的数据集，其中包含邮件内容及其分类（ham 表示正常邮件，spam 表示垃圾邮件）。

# 创建一个简单的数据集
data = {"text": ["Get free money now!","Hello, how are you?","Congratulations! You have won a prize.","Call me when you get a chance.","Claim your free gift today!","Meeting at 3 PM, don't be late.","Win a brand new iPhone now!"],"label": ["spam", "ham", "spam", "ham", "spam", "ham", "spam"]
}# 转换数据为 Pandas DataFramedf = pd.DataFrame(data)# 将标签（类别）转换为数值（spam = 1, ham = 0）
df['label'] = df['label'].map({'spam': 1, 'ham': 0})
print(df)

示例输出：

                                     text  label
0                     Get free money now!      1
1                     Hello, how are you?      0
2  Congratulations! You have won a prize.      1
3          Call me when you get a chance.      0
4             Claim your free gift today!      1
5         Meeting at 3 PM, don't be late.      0
6             Win a brand new iPhone now!      1

Step 4：数据预处理

TfidfVectorizer：将文本转换为数值向量，去除停用词（如 the, and）。
MultinomialNB：使用朴素贝叶斯算法进行分类。

# 划分数据集（80% 训练，20% 测试）
X_train, X_test, y_train, y_test = train_test_split(df["text"], df["label"], test_size=0.2, random_state=42)# 创建文本分类管道（Pipeline）
pipeline = Pipeline([("tfidf", TfidfVectorizer(stop_words="english")),  # 文本向量化并去除停用词("classifier", MultinomialNB())  # 朴素贝叶斯分类器
])# 训练模型
pipeline.fit(X_train, y_train)# 进行预测
y_pred = pipeline.predict(X_test)# 评估模型
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))

Step 5：测试新文本

new_texts = ["Win a free iPhone!", "Meeting at 9 PM online.", "Get rich fast with this simple trick!"]
predictions = pipeline.predict(new_texts)for text, label in zip(new_texts, predictions):print(f"'{text}' -> {'Spam' if label == 1 else 'Ham'}")

示例输出：

'Win a free iPhone!' -> Spam
'Meeting at 9 PM online.' -> Ham
'Get rich fast with this simple trick!' -> Spam

5.3 使用 OpenAI API 进行文本分类

如果你不想训练自己的模型，可以直接使用 OpenAI 的 GPT 进行文本分类。

步骤

获取 OpenAI API Key
调用 OpenAI API 进行文本分类
解析 API 结果

Step 1：安装 `openai` 库

!pip install openai

Step 2：编写 API 调用代码

import openai# 设置 API Key（你需要在 OpenAI 官网申请）
openai.api_key = "your-api-key"def classify_text(text):response = openai.chat.completions.create(model="gpt-4",messages=[{"role": "system", "content": "You are a text classification assistant."},{"role": "user", "content": f"Classify the following message as 'spam' or 'ham': {text}"}])return response.choices[0].message.content# 测试 API
test_messages = ["Win a free iPhone!", "Let's have lunch together."]
for msg in test_messages:print(f"'{msg}' -> {classify_text(msg)}")

示例输出

'Win a free iPhone!' -> I would classify this message as 'spam'.
'Let's have lunch together.' -> The message "Let's have lunch together" can be classified as 'ham'.