当前位置: 首页 > news >正文

多模态基础--- word Embedding

1 word Embedding

原始的单词编码方式:
one-hot,维度太大,不同单词之间相互独立,没有远近关系区分。
wordclass,将同一类单词编码在一起,此时丢失了类别和类别间的相关信息,比如class1和class3都属于生物

word Embedding编码方式:
将每个word映射到高维向量上
在这里插入图片描述

1.1 word Embedding方式

word Embedding主要有两种方法:
count based:
通过阅读大量的文章,比较不同的词汇后面跟随的内容一致性判断该两个词汇的相关性。
例:乔丹在NBA打球《===》科比在NBA打球

prediction based:
如下图,输入为Wi-1这个单词,通过神经网络,输出为不同的词汇中下个单词为Wi的概率。
取第一个隐藏层 Z作为word的编码
在这里插入图片描述

由于只依靠前一个单词预测后面的单词,这很困难,因此可以选择前面的多个单词来预测后面的单词。
我们将输入的单词Xi-2和Xi-1
在这里插入图片描述

http://www.lryc.cn/news/301955.html

相关文章:

  • Mysql 日志
  • 【开源】SpringBoot框架开发服装店库存管理系统
  • 云原生之容器编排实践-在K8S集群中使用Registry2搭建私有镜像仓库
  • 标准IO 2月4日学习笔记
  • 如何在1Panel上偷渡HTTP/3
  • Qt实用技巧:QCustomPlot做北斗GPS显示绝对位置运动轨迹和相对位置运动轨迹图的时,使图按照输入点顺序连曲线
  • 116 C++ 可变参数函数,initializer_list (初始化列表), 省略号形参
  • 强国有我社会实践公益活动在合肥市庐阳区开展
  • Nginx 正向代理、反向代理
  • 软考学习--计算机组成原理与体系结构
  • fish终端下conda activate失败
  • FPGA之移位寄存器
  • Android Compose Material3 ModalNavigationDrawer 抽屉的使用(处理了一些坑)
  • golang select两个channel性能稳定,三个channel时性能会发生抖动,为什么?
  • VSCODE上使用python_Django
  • 探索IDE的世界:什么是IDE?以及适合新手的IDE推荐
  • DoRA(权重分解低秩适应):一种新颖的模型微调方法
  • centos7.9 搭建k8s
  • 使用vite创建项目
  • EXTI外部中断
  • 小肥柴慢慢手写数据结构(C篇)(5-4 中场小结)
  • flutter 功能
  • Sql Server 存储过程
  • 二.重新回炉Spring Framework:Spring Framework主要组件概览
  • Open CASCADE学习|曲线向曲面投影
  • 怎样连接局域网?
  • OpenAI 发布文生视频大模型 Sora,AI 视频要变天了,视频创作重新洗牌!AGI 还远吗?
  • java基础day01
  • 读十堂极简人工智能课笔记06_自然语言处理
  • Linux文件信息,drwxr-xr-x. 2 root root 6 Jan 30 17:42 Desktop