当前位置: 首页 > news >正文

transformer面试常考题

1.位置编码有哪些?有什么区别?

nn.embedding和正余弦编码两种用的多。nn.embedding是一种基于学习的嵌入方法,

通过神经网络的训练过程, 会自动学习数据中每个符号的嵌入向量表示。

而正余弦编码是一种手工设计的嵌入方式,是一种固定的编码方式,不依赖于具体的数据和训练模型。

2.transformer的结构

encoder部分主要是为了提取特征,decoder常用于生成式任务。FFN前馈网络进行特征交融。

3.为什么在QK相乘后要归一化

为了防止内积过大,导致梯度爆炸,这样更容易训练,有点类似BN的作用。

4.为什么要使用multi head attention

CNN里面有多个卷积核来提取不同维度的特征信息,那么transformer里也想着把channel分为几份,然后分别做注意力机制,这样即可以降低计算量,也可以学习不同维度的特征。具体操作,把QKV分成几份,然后分别注意力得到特征再concat。

5.后续继续更新 

http://www.lryc.cn/news/105543.html

相关文章:

  • aws的EC2云服务器
  • hive函数大全
  • k8s概念-StatefulSet
  • HTMLCollection 和 NodeList 的详解,以及两者在开发情况下差异。
  • 基于FPGA的超声波测距——UART串口输出
  • Python web实战之 Django 的 MVC 设计模式详解
  • Stable Diffusion VAE:改善图像质量的原理、选型与使用指南
  • maven里面没有plugins dependence问题解决
  • Wi-Fi 6技术详解
  • 【LeetCode】446. 等差数列划分II -- 子序列
  • 几个似非而是的注释问题
  • 【设计模式|上】创建型模式
  • 【JS】类 class
  • Ubuntu安装harbor(http模式)并随便上传一个
  • 《向量数据库指南》——腾讯云向量数据库Tencent Cloud Vector DB正式上线公测!提供10亿级向量检索能力
  • 1分钟解决github push/pull报错443
  • vue3学习-ref引用
  • Docker 容器转为镜像
  • 阿里云服务器免费试用及搭建WordPress网站
  • 整流二极管型号汇总,超齐全
  • MongoDB 操作命令
  • markdown高级写作技巧汇总
  • SpringBoot自动配置原理入门级理解
  • 2023 08.02 小记与展望
  • MaxPatrol SIEM 增加了一套检测供应链攻击的专业技术
  • 蓝桥杯上岸每日N题 第六期(求阶乘)!!!
  • Codeforces Round 889 (Div. 2)(视频讲解A——D)
  • K8s安全配置:CIS基准与kube-bench工具
  • linux安装python和部署Django项目
  • 00-Hadoop入门