当前位置: 首页 > news >正文

LLM的训练与推断

LLM的训练与推断

请添加图片描述

目前比较流行的大模型一般都是自回归模型。在推理时,它类似于RNN,每次计算下一个token的概率。也就是说,如果除去最开始的输入情况下,最终推理长度为n的话,就需要计算n次。但是训练却是并行化的。

在使用transformer库情况下,使用以下函数进行推理:

model.generate()

某些基础知识可参照轻松上手微调大语言模型——QLORA篇。

虽然推理类似串行模式,但是我们仍然可以优化它LLM推理优化——KV Cache篇(百倍提速),这种后续更新的Blog中会详细解释。

为什么基于Transformer的大模型可以并行训练

在注意力层重使用了因果掩码操作。因果掩码(Causal Masking)是一个在序列生成任务中非常重要的概念,特别是在语言模型的训练和推理过程中。它的主要目的是确保模型在预测下一个词时只能使用之前的词,而不能看到后面的词,以防止信息泄露或不合理的预测。例如,对于输入序列 x = [ x 1 , x 2 , x 3 , . . . , x n ] x = [x_1, x_2, x_3, ..., x_n] x=[x1,x2,x3,...,xn],当模型在预测 x t x_t xt 时,因果掩码会遮挡 x t + 1 x_{t+1} xt+1 x n x_n xn,确保模型只能看到 x 1 , x 2 , . . . , x t x_1, x_2, ..., x_t x1,x2,...,xt。这样,模型的输出不会依赖于未来的输入,保证了生成过程的一致性。

这也是为什么模型推断时是串行的,每次推断 x i + 1 x_{i+1} xi+1都是基于 x 1 : i x_{1:i} x1:i
用数学公式形式化来讲:

x 2 , x 3 , . . . , x t + 1 = f θ ( x 1 , x 2 , x 3 , . . . , x t ) x_2, x_3, ..., x_{t+1}=f_\theta(x_1, x_2, x_3, ..., x_t) x2,x3,...,xt+1=fθ(x1,x2,x3,...,xt)

其中 f θ f_\theta fθ是以 θ \theta θ为参数的LLM。

http://www.lryc.cn/news/410939.html

相关文章:

  • uniapp使用WebSocket uniapp使用WebSocket Uniapp整合WebSocket uniapp使用 websocket
  • SSH Exporter:基于Prometheus的远程系统性能监控神器
  • Docker基础概念
  • 小白进阶为大神
  • 2024最新Python和PyCharm的安装教程
  • 数据库死锁:深入解析与应对策略
  • Python入门宝藏《看漫画学Python》,495页漫画带你弄清python知识点!简单易懂 | 附PDF全彩版
  • Webshell管理工具:AntSword(中国蚁剑)
  • Java 中的File类
  • java将map转json字符串或者再将json字符串转回map,java将对象转json字符串或者互想转换,对象集合和json字符串互转
  • 数据库管理-第225期 Oracle DB 23.5新特性一览(20240730)
  • 提高生产效率:最佳7大Bug记录工具
  • DDOS攻击学习 - kali初学
  • 【C++】类和对象——流插入和流提取运算符重载
  • Vmware ubuntu20.04 虚拟文件夹
  • 人工智能学习笔记 - 初级篇Ⅱ - 图形可视化 - 第11节: 绘制带填充区域的图表
  • 使用STM32实现一个线性代数计算器
  • 我在高职教STM32——串口通信(4)
  • Redis 缓存中间件 缓存数据库
  • 51、PHP 实现简单的快速排序
  • 如何应对机器视觉软件中时间篡改与许可绕过的挑战?
  • python文件的读写
  • 2024下《网络工程师》案例简答题,刷这些就够了!
  • Astro 实现TodoList网页应用案例
  • 计算机毕业设计Hadoop+Spark旅游景点可视化 旅游景点推荐系统 景区游客满意度预测与优化 Apriori算法 景区客流量预测 旅游大数据 景点规划
  • MySQL存储
  • 手势传感器 - 从零开始认识各种传感器【第十八期】
  • 【未来餐饮】 配送设置
  • 移动式气象设备:灵活应对,精准监测的气象先锋
  • 【AI落地应用实战】DAMODEL深度学习平台部署+本地调用ChatGLM-6B解决方案