当前位置: 首页 > news >正文

【自然语言处理】主题建模:Top2Vec(理论篇)

主题建模:Top2Vec(理论篇)

Top2Vec 是一种用于 主题建模语义搜索 的算法。它自动检测文本中出现的主题,并生成联合嵌入的主题、文档和词向量。

算法基于的假设:许多语义相似的文档都可以由一个潜在的主题表示。首先,创建文档和词向量的联合嵌入。一旦文档和单词被嵌入到向量空间中,算法的目标就是找到密集的文档簇,然后找到是哪些单词将这些文档聚集在一起。每个密集区域即为一个主题,将文档聚拢到密集区域的词就是主题词。

1.联合嵌入

使用 Doc2Vec 或 Universal Sentence Encoder 或 BERT Sentence Transformer 创建文档和词向量的联合嵌入。

文档将被放置在靠近其他类似文档和靠近最有区别的词的地方。

在这里插入图片描述

2.降维

使用 UMAP 为文档向量的降维。高维空间中的文档向量非常稀疏,降维有助于找到密集区域。每个点都代表了一个文档向量。
在这里插入图片描述

3.聚类

使用 HDBSCAN 查找文档的密集区域。彩色区域是文档的密集区域。红点是不属于特定集群的异常值。
在这里插入图片描述

4.计算质心

对于每个密集区域,计算文档向量在原始维度的质心,这就是主题向量。红点是异常文档,不用于计算主题向量。紫色点是属于密集区域的文档向量,从中计算主题向量。

在这里插入图片描述

5.词向量排序

找到与生成的主题向量最接近的词向量。最接近的词向量作为主题词。
在这里插入图片描述

http://www.lryc.cn/news/14687.html

相关文章:

  • 【ICLR 2022】重新思考点云中的网络设计和局部几何:一个简单的残差MLP框架
  • 《MySQL学习》 count(*) 原理
  • 时间序列数据预测的类型
  • sk_buff结构体成员变量说明
  • springbatch设置throttle-limit参数不生效
  • 用 tensorflow.js 做了一个动漫分类的功能(一)
  • 看完这篇Vue-element-admin,跟面试官聊骚没问题
  • 2022年全国职业院校技能大赛(中职组)网络安全竞赛试题A(5)
  • 基于Java+SpringBoot+Vue+Uniapp前后端分离商城系统设计与实现
  • 新建ES别名 添加别名 切换别名
  • MySQL —— 内外连接
  • EXCEL中文本和数字的相互转换方法
  • React源码分析6-hooks源码
  • Windows10神州网信政府版麦克风、摄像头的使用
  • 微机原理学习总结0:前言
  • LeetCode 1828. 统计一个圆中点的数目
  • Spring Boot + Vue3 前后端分离 实战 wiki 知识库系统<一>---Spring Boot项目搭建
  • leetcode 11~20 学习经历
  • LeetCode 双周赛 98,脑筋急转弯转不过来!
  • 函数的栈帧的创建和销毁
  • python filtermapreducezip
  • Centos7搭建hadoop3.3.4分布式集群
  • 骨传导耳机工作原理,骨传导耳机优缺点
  • IDEA高效插件和设置
  • Linux之网络流量监控工具ntopng YUM安装
  • 创建虚拟机,安装CentOS
  • ilasm 和 ildasm编译和反编译工具介绍使用教程
  • 代码随想录【Day20】| 654. 最大二叉树、617. 合并二叉树、700. 二叉搜索树中的搜索、98. 验证二叉搜索树
  • C++空指针和野指针
  • LinkedList正确的遍历方式-附源码分析