当前位置: 首页 > news >正文

sklearn 计算 tfidf 得到每个词分数

from sklearn.feature_extraction.text import TfidfVectorizer# 语料库 可以换为其它同样形式的单词
corpus = [list(range(-5, 5)),list(range(-6,4)),list(range(12)),list(range(13))]# corpus = [
#    ['Two', 'wrongs', 'don\'t', 'make', 'a', 'right', '.'],
#    ['The', 'pen', 'is', 'mightier', 'than', 'the', 'sword'],
#    ['Don\'t', 'put', 'all', 'your', 'eggs', 'in', 'one', 'basket', '.']]def dummy_fun(doc):return doctfidf_vec = TfidfVectorizer(analyzer='word',tokenizer=dummy_fun,preprocessor=dummy_fun,token_pattern=None)  # 使用 fit_transform() 得到 TF-IDF 矩阵。此为 scipy 稀疏矩阵
tfidf_matrix = tfidf_vec.fit_transform(corpus)
# print(tfidf_matrix)# 使用 get_feature_names() 得到不重复的单词
print(tfidf_vec.get_feature_names_out())# 得到每个单词对应的 ID
print(tfidf_vec.vocabulary_)

在这里插入图片描述

# 得到 corpus 中每个词得分
for i in range(len(corpus)):column_indexes = [tfidf_vec.vocabulary_[key] for key in corpus[i]]tf_idf = tfidf_matrix[i, column_indexes].toarray()[0]print(tf_idf)

在这里插入图片描述
参考:
Applying scikit-learn TfidfVectorizer on tokenized text
sklearn.feature_extraction.text.TfidfVectorizer

http://www.lryc.cn/news/293668.html

相关文章:

  • Qt拖拽事件,实现控件内项的相互拖拽
  • 基于MATLAB实现的OFDM仿真调制解调,BPSK、QPSK、4QAM、16QAM、32QAM,加性高斯白噪声信道、TDL瑞利衰落信道
  • Redis核心技术与实战【学习笔记】 - 21.Redis实现分布式锁
  • 17.Golang channel的基本定义及使用
  • Linux - iptables 防火墙
  • 如何在FBX剔除Lit.shader依赖
  • cesium-测量高度垂直距离
  • Adobe Illustrator CEP插件开发入门指南
  • 【Spring】自定义注解 + AOP 记录用户的使用日志
  • linux互斥锁:递归锁,非递归锁用法详解
  • MacOS安装dmg提示已文件已损坏的解决方法
  • 前端输入框简单实现检测@成员输入
  • 通过与chatGPT交流实现零样本事件抽取
  • 使用nodejs和html布局一个简单的视频播放网站,但是使用localhost:端口访问html无法加载视频
  • 【AG32VF407】国产MCU+FPGA Verilog双边沿检测输出方波
  • [晓理紫]每日论文分享(有中文摘要,源码或项目地址)--强化学习、模仿学习、机器人
  • 为什么说TiDB在线扩容对业务几乎没有影响
  • STM32--SPI通信协议(2)W25Q64简介
  • svn安装与搭建
  • 什么是缓存击穿、缓存穿透、缓存雪崩?
  • springboot153相亲网站
  • CMake生成osg的FFMPEG插件及Windows下不生成VS工程问题解决
  • 代码随想录算法训练营Day25 | 216.组合总和III、17.电话号码的字母组合
  • 故障诊断 | 一文解决,SVM支持向量机的故障诊断(Matlab)
  • 12.1 Web开发_DOMBOM:JS关联CSS(❤❤)
  • scoped样式隔离原理
  • 降价不是杀手锏,和府捞面打起“养生牌”
  • 在WORD中设置公式居中编号右对齐设置方式
  • 如何使用 Supabase Auth 在您的应用程序中设置身份验证
  • 带libc源码gdb动态调试(导入glibc库使得可执行文件动态调试时可看见调用库函数源码)