当前位置: 首页 > news >正文

TF-IDF演算法(Term Frequency - Inverse Document Frequency)最好懂筆記

前情提要

BoW (Bag of Words) 演算法

假设现在有M篇文章,一共使用了N个词汇(term),我们就可以将文章转换成以下类型的矩阵,其中column1和row1的“10”表示“文章1”中出现了10次“词汇1”,“文章1”也可以用向量 [10, 0, …, 2] 来表示,这就是 BoW (Bag of Words) 演算法。它的优点是非常简单,但存在两个明显问题。

表格1:

在这里插入图片描述

2个问题:

  1. 由于每篇文章总词汇数不同。如表格1所示:词汇2文章2中出现8次,在文章M中出现2次8 > 2,可能被认为词汇2对于文章2比较重要,对于文章M比较不重要;换个角度来看,文章2400个词汇,文章M只有50个词汇,2/50=0.04 > 8/400=0.02,这样看来,词汇2反而是对于文章M比较重要。
  2. 惯用词对文章分析影响很大。如:词汇N在每篇文章都出现好多次,可能是the之类的惯用词,文章M的向量可能被这个the所主导,但其实the这个字并没有什么特殊的意义。

为了解决以上两个问题,TF-IDF演算法应运而生。顾名思义,它包含两部分:词频(Term Frequency,TF)和逆向文件频率(Inverse Document Frequency,IDF)。

进入正题

TF-IDF(Term Frequency - Inverse Document Frequency)演算法

。。。

。。。

主要内容出处如下:

1. [文件探勘]TF-IDF 演算法:快速計算單字與文章的關聯
2.

http://www.lryc.cn/news/340532.html

相关文章:

  • 2024年4月最新版GPT
  • 机器学习——模型评价
  • ARP代理
  • 手写前端控制并发任务
  • 好用的Python开发工具合集
  • 近屿智能全新推出AI培训产品:AIGC大模型工程师与产品经理学习路径图
  • Vue 3中的反向代理 和如何在服务器配置反向代理
  • 【机器学习】贝叶斯算法在机器学习中的应用与实例分析
  • 回归预测 | Matlab实现SSA-GRNN麻雀算法优化广义回归神经网络多变量回归预测(含优化前后预测可视化)
  • SQL SERVER的安装
  • (十一)C++自制植物大战僵尸游戏客户端更新实现
  • 关于Qt主窗口的菜单部件
  • rabbitmq每小时自动重启
  • 【多线程】单例模式 | 饿汉模式 | 懒汉模式 | 指令重排序问题
  • 00_Qt概述以及如何创建一个QT新项目
  • git报错
  • 【R: mlr3:超参数调优】
  • 使用Pandas实现股票交易数据可视化
  • 蓝桥杯刷题-乌龟棋
  • 美国纽扣电池认证标准要求16 CFR 第 1700和ANSI C18.3M标准
  • 华硕ROG幻16笔记本电脑模式切换管理工具完美替代华硕奥创中心管理工具
  • 【ROS2笔记六】ROS2中自定义接口
  • 设计模式-代理模式(Proxy)
  • 中伟视界:智慧矿山智能化预警平台功能详解
  • 如何在PPT中获得网页般的互动效果
  • HTML段落标签、换行标签、文本格式化标签与水平线标签
  • NVIC简介
  • LeetCode-924. 尽量减少恶意软件的传播【深度优先搜索 广度优先搜索 并查集 图 哈希表】
  • 【linux】yum 和 vim
  • excel试题转word格式