当前位置: 首页 > news >正文

LLM - 词向量 Word2vec

1. 词向量是一个词的低维表示,词向量可以反应语言的一些规律,词意相近的词向量之间近乎于平行。

2. 词向量的实现:

    (1)首先使用滑动窗口来构造数据,一个滑动窗口是指在一段文本中连续出现的几个单词,这样的单词构成一个窗口。在这个窗口中最中间的词叫做目标词(Target), 其他的词称为上下文词(Context)。

    (2)根据上下文词(Context)预测目标词(Target)的神经网络模型叫做CBOW模型。

    (3)根据目标词(Target)预测上下文词(Context)的神经网络模型叫做Skip-Gram模型。

3. CBOW模型示意:用never和late预测中间词too的过程。

    (1)首先将never,late表示成onehot向量.

    (2)其次用这两个onehot向量在最终要训练的词向量矩阵中,找到never,late对应的词向量。然后把它们加起来做平均,这样可以得到一个临时的词向量,维度和前面两个相同。

    (3)用上面得到的临时词向量对词表中每个词做点乘,得到n个输出,n是词表大小。

    (4)对n个输出做softmax,得到每个词分类概率分布。

4. Skip-Gram模型示意:例子目标词是Never,要预测出too,late,to, learn。过程是先让模型去预测P(too/Never), 然后再预测P(late/Never)...

https://arxiv.org/abs/1301.3781

http://www.lryc.cn/news/395602.html

相关文章:

  • Tileserver GL中glyphs的使用
  • uniapp自动升级
  • java Pair怎么使用
  • 数据库doris中的tablet底层解析
  • 江苏高防服务器都有哪些优势?
  • Pytest单元测试系列[v1.0.0][Pytest基础]
  • C/C++服务器基础(网络、协议、数据库)
  • Mysql系列-Binlog主从同步
  • java设计模式(六)——原型模式
  • arm (exti中断)
  • 触摸屏虚拟键盘组件 jQuery Virtual Keyboard使用 自定义键盘
  • 面试题07-09
  • MySQL之binlog日志
  • 【大数据】什么是数据湖?一文揭示数据湖的本质
  • CSS【详解】文本相关样式(含 font 系列,文本排版,文本装饰,分散对齐,渐变色文本等)
  • 加油卡APP系统开发,优惠加油收益
  • el-scrollbar实现自动滚动到底部(AI聊天)
  • 开源去除背景的项目:rembg 安装和部署
  • Docker 使用基础(1)—镜像仓库
  • Git详细安装和使用教程
  • LeetCode题练习与总结:反转字符串中的单词--151
  • 2.pwn的linux基础(计算机内部数据结构存储形式)
  • 67.SAP FICO-凭证类型学习
  • 井字游戏00
  • GEE代码实例教程详解:地表温度与土地覆盖类型分析
  • RK3568------Openharmony 4.0-Release 浏览器部署安装
  • 【kafka】可视化工具cmak(原kafka-manager)安装问题解决
  • 【转载】目标检测mAP的含义
  • 智慧校园行政办公-红头文件功能概述
  • 汽车IVI中控开发入门及进阶(三十三):i.MX linux开发之开发板