当前位置: 首页 > news >正文

AI学习记录 - transformer的Embedding层

创作不易,免费的赞

前面有介绍了GPT2如何进行token化的过程,现在讲下transformer的Embedding层

Embedding层就是一个巨大的矩阵,边长分别是词汇表长度和词向量维度,矩阵里面的每一个数字都是一个随机初始化的,或者是其他地方经过训练之后拿过来的。在transformer训练过程中,这些每个token的维度浮点数会发生改变。
在这里插入图片描述

在训练的过程中,假设我们窗口为50个token,意思就是我们生成下一个词的时候,只使用前面50个词去预测下个词,就算前面继续有词,我也不会应用,那么就变成下图。但是当本来就没有50个词的时候怎么办,那么需要填充字符,可以是任意字符,反正你就当成是个填充码,这里使用的是PAD,PAD在token当中也是存在的,你甚至自己定义一个token,如<<notoken!>>都可以。

为什么需要填充满50个字符,不满就不满,感觉也什么问题啊?

这是因为如果限定成50个,那么在使用显卡的训练的时候速度就可以快很多,没有的话也可以。

在这里插入图片描述

上图这个矩阵就是输入到下一个层级的矩阵,下一层就是添加位置编码,本系列中也已经有章节介绍。

http://www.lryc.cn/news/420826.html

相关文章:

  • 23-PCB封装名称的统一添加与管理
  • 【Python从入门到进阶】62、Pandas中DataFrame对象案例实践
  • 使用Python实现深度学习模型:智能环境监测与预警
  • ThreadLocal的使用场景是什么
  • 【网络爬虫篇】逆向实战—某东:滑块验证码(逆向登录)2024.8.7最新发布,包干货,包详细
  • 为什么优质的酱香白酒都会带点苦味?
  • 软件测试常见面试题
  • 面试经典算法150题系列-接雨水
  • 【C++】 类型转换深度探索:揭开类型转换的奥秘
  • 深入探索Webkit的Web Authentication API:安全与便捷的融合
  • Vue - 关于v-wave 波浪动画组件
  • 计算机网络408考研 2019
  • 实时捕捉与追溯:得物基于 eBPF 打造云上网络连接异常摄像头
  • ubuntu14.04图形界面配置
  • 51单片机-第八节-蜂鸣器
  • Windows命令查看WiFi密码
  • 不同环境下RabbitMQ的安装-2 ARM架构、X86架构、Window系统环境下安装RabbitMQ
  • C++(week16): C++提高:(六) Qt提高
  • go 时间转时间戳的时区设置问题
  • MySQL 常见日志清理策略
  • 3大管人绝招让你的手下心服口服
  • useImperativeHandle 是什么?你可以理解为 vue3 的 expose
  • 《Techporters架构搭建》-Day05 属性校验
  • HTTP的场景实践
  • MySQL:表的设计原则和聚合函数
  • 介绍springmvc-水文
  • uni-app学习笔记
  • Windows Server修改远程桌面端口
  • 界面组件Kendo UI for Vue 2024 Q2亮点 - 发布一系列新组件
  • 达梦数据库 逻辑备份还原