当前位置: 首页 > news >正文

大语言模型数据流程源码解读(基于llama3模型)

文章目录

  • 前言
  • 一、数据进入LlamaForCausalLM(LlamaPreTrainedModel)类
  • 二、数据进入LlamaModel(LlamaPreTrainedModel)类
    • 1、input_ids的embedding编码
    • 2、position_ids位置获取
    • 3、causal_mask因果mask构建
      • 1、causal_mask调用
      • 2、因果mask代码解读(_update_causal_mask)
    • 4、hidden_states获取
    • 5、decoder_layers解码
  • 三、数据进入LlamaDecoderLayer(nn.Module)类
    • 1、LlamaDecoderLayer类源码解读
    • 2、input_layernorm结构处理hidden_states输入
  • 四、数据进入LlamaSdpaAttention(LlamaAttention)类
    • 1、LlamaSdpaAttention类源码解读
    • 2、qkv获取
    • 3、位置rotary_emb编码
      • 1、位置编码调用
      • 2、位置编码源码
    • 4、位置编码应用
      • 1、位置编码应用调用方法
      • 2、位置编码apply_rotary_pos_emb应用
    • 5、past_key_value更新
    • 6、key与value重复
    • 7、因果关系处理
    • 8、attention实现方法torch.nn.functional.scaled_dot_product_attention
    • 9、attn_output进行线性
    • 10、返回值
  • 五、数据再次进入LlamaDecoderLayer(nn.Module)类
    • 1、hidden_states返回值处理
    • 2、FFN操作
    • 3、输出内容outputs
  • 六、数据再次进入LlamaModel类
    • 1、获取hidden_states内容
    • 2、hidden_states的norm方法
    • 3、后续源码
  • 七、数据再次进入LlamaForCausalLM类
    • 1、lm_head加工
    • 2、loss计算?和返回内容


前言

如果只是简单构建训练与推理的大语言模型,还是比较简单,直接使用huggignface调用即可。然而,理解其源码或内部原理是比较麻烦的,尽管我在之前文章给出了很多解释,但我还是想通过数据流走向来解读模型整个流程与源码内部机理。这样,我们可方便更深入的理解大语言模型!


一、数据进入LlamaForCausalLM(LlamaPreTrainedModel)类

数据转成input_ids与attention_mask后该如何转换,我们首先看到原始数据会进入到下面调用方法self.model,其如下图:

在这里插入图片描述

我们知道input_ids与attention_mask是[1,96],是未进行embedding!

二、数据进入LlamaModel(LlamaPreTrainedModel)类

1、input_ids的embedding

http://www.lryc.cn/news/472123.html

相关文章:

  • [蓝桥杯 2015 省 A] 饮料换购
  • K8S测试pod内存和CPU资源不足
  • rabbitmq 使用注意事项
  • <项目代码>YOLOv8 夜间车辆识别<目标检测>
  • xterm.js 库作用
  • 在Excel中如何快速筛选非特定颜色
  • kotlin定时器和主线程定时器
  • vscode不能执行vue命令/ vue : 无法加载文件
  • 1.4 STL C++面试问题
  • Bash、sh 和 Shell都弄混了?
  • 架构师备考专栏-导航页
  • STM32-Cube定时器TIM
  • Webpack 是什么? 解决了什么问题? 核心流程是什么?
  • Jenkins面试整理-Jenkins 的主要用途是什么?
  • Linux下使用C/C++进行UDP网络编程
  • 【JavaEE初阶】网络原理—关于TCP协议值滑动窗口与流量控制,进来看看吧!!!
  • 无人机避障——使用三维PCD点云生成的2D栅格地图PGM做路径规划
  • supermall项目上拉加载bug分析
  • 【linux网络编程】| socket套接字 | 实现UDP协议聊天室
  • 第二届开放原子大赛-开源工业软件算法集成大赛即将启动!
  • PXC集群(Percona XtraDB Cluster )
  • 分布式光伏是什么意思?如何高效管理?
  • 提问GPT
  • 李飞飞团队新突破:低成本高泛化机器人训练法,零样本迁移成功率90%!
  • PHP内存马:不死马
  • 【python】OpenCV—Connected Components
  • 【优选算法篇】前缀之序,后缀之章:于数列深处邂逅算法的光与影
  • win10 更新npm 和 node
  • 搜索引擎算法更新对网站优化的影响与应对策略
  • 使用 Q3D 计算芯片引线的 AC 和 DC R 和 L