当前位置: 首页 > news >正文

文本嵌入层

目录

1、文本嵌入层的作用

2、代码演示

3、构建Embeddings类来实现文本嵌入层


1、文本嵌入层的作用

  • 无论是源文本嵌入层还是目标文本嵌入,都是为了将文本词汇中的数字表示转变为向量表示,希望在这样的高维空间中捕捉词汇之间的关系

2、代码演示

Embedding(10,3)中的第一个参数10代表的是词表的大小,即词表中不同单词的数量

词表中有10个不同的单词,每个单词都被映射成一个长度为3的向量

embedding = nn.Embedding(10,3)
print(embedding)
input = torch.LongTensor([[1,2,3,4],[4,3,2,9]])
embedding(input)

3、构建Embeddings类来实现文本嵌入层

# 构建Embedding类来实现文本嵌入层
class Embeddings(nn.Module):def __init__(self,vocab,d_model):""":param vocab: 词表的大小:param d_model: 词嵌入的维度"""super(Embeddings,self).__init__()self.lut = nn.Embedding(vocab,d_model)self.d_model = d_modeldef forward(self,x):""":param x: 因为Embedding层是首层,所以代表输入给模型的文本通过词汇映射后的张量:return:"""return self.lut(x) * math.sqrt(self.d_model)
x = Variable(torch.LongTensor([[100,2,42,508],[491,998,1,221]]))
emb = Embeddings(1000,512)
embr = emb(x)
print(embr.shape)
print(embr)
print(embr[0][0].shape)

在代码 emb = Embeddings(1000,512) 中,1000是词表的大小,即词表中不同单词的数量。在这个例子中,词表中有1000个不同的单词,每个单词都被映射成一个长度为512的向量。在实际应用中,词表的大小可能会更大或更小,具体大小取决于使用场景和任务需求

embr.shape为torch.Size([2, 4, 512]),代表有2个句子,每个句子有4个单词,每个单词的embedding维度为512

http://www.lryc.cn/news/185917.html

相关文章:

  • 如何搭建自动化测试框架
  • 抄写Linux源码(Day17:你的键盘是什么时候生效的?)
  • 在原生html中使用less
  • 【Qt】顶层窗口和普通窗口区别以及用法
  • qt开发从入门到实战2
  • Android---字节码层面分析Class类文件
  • 【2023研电赛】东北赛区一等奖作品:基于FPGA的小型水下无线光通信端机设计
  • JWT授权为啥要在 Authorization标头里加个Bearer 呢
  • 一篇理解TCP协议
  • rk平台android12系统设置里面互联网选项中的以太网选项点击不了问题
  • ctrl+d和ctrl+c的区别
  • ChatGLM2-6B微调实践
  • YOLOv7独家改进FPN系列:结合新颖的 GhostSlimPAN 范式网络结构,进一步提升检测器性能
  • 12. Java异常及异常处理处理
  • 自定义hooks函数
  • Linux系统及Docker安装RabbitMq
  • 山东省赛二阶段第一部分解题思路
  • WebGoat 靶场 JWT tokens 四 五 七关通关教程
  • 【单元测试】如何使用 JUnit5 框架?
  • C#封装、继承和多态的用法详解
  • 数据结构与算法(持续更新)
  • HDLbits: ece241 2014 q4
  • LuatOS-SOC接口文档(air780E)-- gmssl - 国密算法
  • 【线性代数及其应用 —— 第一章 线性代数中的线性方程组】-1.线性方程组
  • vue实现拖拽排序
  • IS-IS
  • 【MySQL】为什么使用B+树做索引
  • php 安装mongodb扩展模块,rdkafka模块
  • 【数据结构】初探时间与空间复杂度:算法评估与优化的基础
  • SpringCloud Alibaba - Sentinel 限流规则(案例 + JMeter 测试分析)