当前位置: 首页 > news >正文

大模型LLM面试常见算法题-包括Attention和Transformer常见面试题

大模型:

  1. 位置编码有哪些?

  2. 介绍LoRA与QLoRA

  3. RAG和微调的区别是什么?

  4. 哪些因素会导致LLM的偏见?

  5. 什么是思维链(CoT)提示?

  6. Tokenizer的实现方法及原理

  7. 解释一下大模型的涌现能力?

  8. 解释langchainAgent的概念

  9. langchain有哪些替代方案?

  10. RLHF完整训练过程是什么?为什么RLHF的效果这么好?RLHF使用的训练数据是什么样的?

  11. RAG和微调的区别是什么?

  12. 有了解过什么是稀疏微调吗?

  13. 简述一下FlashAttention的原理

  14. 画图说明 Transformer 基本流程

  15. LLM预训练阶段有哪几个关键步骤?

  16. RLHF模型为什么会表现比SFT更好?

  17. LLaMA 模型为什么要用旋转位置编码?

  18. DeepSpeed推理对算子融合做了哪些优化?

  19. MHA,GQA,MQA三种注意力机制的区别是什么?

  20. 为什么现在的大模型大多是 decoder-only 的架构?

  21. 训练后量化(PTQ)和量化感知训练(QAT)与什么区别?

Attention:

1.什么是Attention? 为什么要用Attention?它有什么作用?
2.Attention的流程是什么样的?
3.普通的Attention和Transformer的Self-attention之间有什么关系:
4.什么是Self-attention?

Transformer:

  1. transformer是什么,它的基本原理是什么?
  2. 自注意力(Self-Attention)的作用是什么?它有什么优势?
  3. Multi-Head Attention是什么?它的作用是什么?
  4. 介绍Transformer的Encoder模块
  5. 介绍Transformer的Decoder模块
  6. Transformer中的Positional Encoding是做什么的?
  7. Transformer与传统的RNN和CNN模型有何区别?
  8. 解释Transformer的注意力权重?
  9. 介绍Transformer和ViT
  10. 介绍Transformer的QKV
  11. 介绍Layer Normalization
  12. Transformer训练和部署技巧
  13. 介绍Transformer的位置编码
  14. 介绍自注意力机制和数学公式
  15. Transformer和Mamba(SSM)的区别
  16. Transformer中的残差结构以及意义
  17. 为什么Transformer适合多模态任务?
  18. Transformer的并行化体现在哪个地方?
  19. 为什么Transformer一般使用LayerNorm?
  20. Transformer为什么使用多头注意力机制?
  21. Transformer训练的Dropout是如何设定的?

BERT:

1.BERT是什么?全称是什么?
2.BERT是如何进行预训练的?
3.BERT的优点是什么?
4.BERT的输入是什么?
5.BERT的预训练过程中是否使用了位置编码和注意力机制?
6.BERT的预训练模型有多大?
7.BERT和传统的Word2Vec、GloVe有什么区别?
8.BERT的训练策略有哪些?
9.如何微调BERT?
10.BERT的应用场景有哪些?
11.BERT的改进和扩展有哪些?

Stable Diffusion:

1.你了解Stable Diffusion吗?它是怎么训练出来的?
2.Stable Diffusion的预测过程是什么样的?
3. Stable Diffusion的diffusion是什么原理?
4.Stable Diffusion的各个模块的作用是?
你了解stable Diffusion吗?它是怎么训练出来的?

http://www.lryc.cn/news/394063.html

相关文章:

  • 90元搭建渗透/攻防利器盒子!【硬件篇】
  • 用vue2+elementUI封装手机端选择器picker组件,支持单选、多选、远程搜索多选
  • 『古籍自有答案』古风H5案例赏析
  • Laravel模型事件完全指南:触发应用程序的动态行为
  • hot100 |八、二叉树
  • Matlab协方差矩阵分解法生成随机场
  • android 在清单文件中配置receiver,系统是何时会注册此广播接收者的?
  • 嵌入式硬件电路常用设计软件
  • c#的List<T>的SelectMany 和Select
  • 69.WEB渗透测试-信息收集- WAF、框架组件识别(9)
  • ASCII码对照表(Matplotlib颜色对照表)
  • Mysql-常用函数及其用法总结
  • 【c++刷题笔记-数组】day29:452. 用最少数量的箭引爆气球、 435. 无重叠区间 、 763.划分字母区间
  • 【数据结构】链表带环问题分析及顺序表链表对比分析
  • 快速解决找不到krpt.dll,无法继续执行代码问题
  • C# List、LinkedList、Dictionary性能对比
  • 【Spring Cloud】微服务的简单搭建
  • 全球首款商用,AI为视频自动配音配乐产品上线
  • Git管理源代码、git简介,工作区、暂存区和仓库区,git远程仓库github,创建远程仓库、配置SSH,克隆项目
  • 【机器学习】机器学习与时间序列分析的融合应用与性能优化新探索
  • 执行力不足是因为选择模糊
  • 力扣 225题 用队列实现栈 记录
  • 中英双语介绍意大利(Italy):有哪些著名景点、出名品牌?
  • Python【打包exe文件两步到位】
  • 基于模型预测控制的PMSM系统速度环控制理论推导及仿真搭建
  • 【PYG】GNN和全连接层(FC)分别在不同的类中,使用反向传播联合训练,实现端到端的训练过程
  • vue3使用方式汇总
  • Turborepo简易教程
  • 初中物理知识点总结(人教版)
  • ChatGPT-4o大语言模型优化、本地私有化部署、从0-1搭建、智能体构建等高级进阶