当前位置: 首页 > news >正文

Word2Vector介绍

Word2Vector 2013
word2vec也叫word embeddings,中文名“词向量”,google开源的一款用于词向量计算的工具,作用就是将自然语言中的字词转为计算机可以理解的稠密向量。在word2vec出现之前,自然语言处理经常把字词转为离散的单独的符号,也就是One-Hot Encoder,为高维稀疏向量。使用Vector Representations可以有效解决这个问题。Word2Vec可以将One-Hot Encoder转化为低维度的连续值的稠密向量,并且其中意思相近的词将被映射到向量空间中相近的位置。word2vec词向量可以较好地表达不同词之间的相似和类比关系

Word2Vec是一种将文本中的词进行嵌入(Embedding)的方法,而所谓嵌入,就是将各个词使用一个定长的向量来表示,Embedding其实就是一个映射,将单词从原先所属的空间映射到新的多维空间中,也就是把原先词所在空间嵌入到一个新的空间中去。

word2vec主要分为CBOW(Continuous Bag of Words,连续词袋)和Skip-Gram(跳字模型)两种模式。
(1)CBOW是从原始语句推测目标字词;通过上下文推测目标词:A person who never input:a, who,never output label:person
(2)Skip-Gram正好相反,是从目标字词推测出原始语句。通过目标词预测上下文 input:person output label:a, who,never
CBOW对小型数据库比较合适,而Skip-Gram在大型语料中表现更好。
可以推测,如果两个单词的上下文一样,那么意味着这两个单词也应该是相似的。通过这种方法,我们可以获得一个词的扩展词,即与其相似的词。

word2vec训练过程中的两个关键超参数是窗口大小和负样本的数量。

负例采样
较小的窗口大小(2-15),较大的窗口大小(15-50,甚至更多)
Gensim默认为5个负样本。

训练:
1.创建两个矩阵——Embedding矩阵和Context矩阵,这两个矩阵在我们的词汇表中嵌入了每个单词。随机值初始化这些矩阵。
2.计算输入嵌入与每个上下文嵌入的点积and sigmoid 。
3.停止训练过程,丢弃Context矩阵,并使用Embeddings矩阵作为下一项任务的已被训练好的嵌入。
4.增量训练:模型训练以后,会有新的语料,也就存在新词,这个时候新词用word2vec就得不到词向量,会报ovo(out vacbuary)的错误。需要重新训练模型,gensim就提供了一个很好的机制,就是增量训练,新词不用和旧词全部一起训练。

http://www.lryc.cn/news/274759.html

相关文章:

  • 书生·浦语大模型全链路开源体系----(1)
  • 第四篇 行为型设计模式 - 灵活定义对象间交互
  • 2023最新租号平台系统源码支持单独租用或合租使用
  • 数据库的连接
  • 第14课 利用openCV快速数豆豆
  • 在前端利用Broadcast Channel实现浏览器跨 Tab 窗口通信的方法
  • 【Apache Doris】自定义函数之 JAVA UDF 详解
  • BMS电池管理系统带充放电控制过流过压保护
  • 在Linux中以后台静默运行Java应用程序
  • k8s---Pod的生命周期
  • CSS animation动画和关键帧实现轮播图效果HTML
  • Unity之键盘鼠标的监控
  • C# windows服务程序开机自启动exe程序
  • 【SpringMVC】常用注解
  • 关于曲率、曲率半径和曲率圆,看这几篇文章就够啦
  • java面试题-Spring常见的异常类有哪些?
  • 数据库选择题 (期末复习)
  • WeNet语音识别+Qwen-72B-Chat Bot+Sambert-Hifigan语音合成
  • 是否需要跟上鸿蒙(OpenHarmony)开发岗位热潮?
  • 【Golang】Json 无法表示 float64 类型的 NaN 以及 Inf 导致的 panic
  • bootstrap5实现宠物商店网站 Cat-Master
  • 基于多反应堆的高并发服务器【C/C++/Reactor】(中)创建并初始化TcpServer实例 以及 启动
  • 边缘计算设备是什么意思。
  • 使用ChatGPT midjourney 等AI智能工具,能为视觉营销做些什么?
  • 图像分割实战-系列教程4:unet医学细胞分割实战2(医学数据集、图像分割、语义分割、unet网络、代码逐行解读)
  • 防火墙未开端口导致zookeeper集群异常,kafka起不来
  • React-hook-form-mui(二):表单数据处理
  • java网络文件地址url的转换为MultipartFile文件流
  • JS实现/封装节流函数
  • ENVI 各版本安装指南