当前位置：首页 > news >正文

Python知识点：结合Python工具，如何使用TfidfVectorizer进行文本特征提取

news 2025/8/16 23:12:51

开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！

如何使用Python的TfidfVectorizer进行文本特征提取

在自然语言处理（NLP）中，特征提取是将原始文本数据转换为可以被机器学习算法处理的数值型特征的过程。TF-IDF（Term Frequency-Inverse Document Frequency）是一种广泛使用的特征提取方法，它能够反映词语在文档集合中的重要性。在Python中，我们可以使用sklearn库中的TfidfVectorizer来实现TF-IDF特征提取。本文将介绍如何使用TfidfVectorizer进行文本特征提取。

安装`sklearn`

如果你还没有安装sklearn库，可以通过以下命令进行安装：

pip install scikit-learn

基本使用

TfidfVectorizer是sklearn.feature_extraction.text模块中的一个类，它可以将文本文档集合转换为TF-IDF特征矩阵。

示例代码

from sklearn.feature_extraction.text import TfidfVectorizer# 定义一组文档
documents = ["I have a pen","I have an apple","Apple pen, Apple pen","Pen Pineapple, Apple Pen"
]# 创建TfidfVectorizer对象
tfidf_vectorizer = TfidfVectorizer()# 训练TfidfVectorizer对象，并将文档转换为TF-IDF特征矩阵
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)# 查看特征词汇
print(tfidf_vectorizer.get_feature_names_out())# 查看TF-IDF矩阵
print(tfidf_matrix.toarray())

参数详解

TfidfVectorizer有许多参数可以定制，以下是一些常用的参数：

stop_words: 停用词集合，用于过滤掉无意义的常见词。
max_df: 过滤掉在超过指定比例的文档中出现的词汇。
min_df: 过滤掉在少于指定比例的文档中出现的词汇。
ngram_range: 设定词汇的n-gram范围，例如(1, 2)表示提取单字和双字词组。
token_pattern: 用于分词的正则表达式。

示例：使用参数

# 定义一组文档
documents = ["I have a pen","I have an apple","Apple pen, Apple pen","Pen Pineapple, Apple Pen"
]# 创建TfidfVectorizer对象，并设置参数
tfidf_vectorizer = TfidfVectorizer(stop_words='english', max_df=0.5, min_df=2, ngram_range=(1, 2))# 训练TfidfVectorizer对象，并将文档转换为TF-IDF特征矩阵
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)# 查看特征词汇
print(tfidf_vectorizer.get_feature_names_out())# 查看TF-IDF矩阵
print(tfidf_matrix.toarray())