当前位置: 首页 > news >正文

003大模型基础知识

大模型分类:
技术架构: Encoder Only Bert
Decoder Only 著名的大模型都是
Encoder - Decoder T5
是否开源: 开源阵营: Llama DeepSeek Qwen
闭源阵营: ChatGpt Gemini Claude

语言模型发展阶段: 基于规则统计 n-gram:上下文比较短,数据稀疏,泛化能力差
神经网络语言模型:泛化能力差(解决) 数据稀疏(解决) RNN,LSTM
Transformer: Bert,GPT
LLM:参数以 10 亿计
评估指标: BLEU 精准率,需要有参考答案
ROUGE 召回率 需要有参考答案
PPL
大模型演进路线: Encoder-only 双向注意力机制,完形填空,阅读理解,Pre-train+下游任务fine-tuning
Decoder-only gpt:
gpt2:
gpt3:
Encoder-Decoder : T5


在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
RLHF解决的是什么问题? 对齐问题,训练一个奖励模型

在这里插入图片描述
位置编码:
在这里插入图片描述

总结:

强化学习:
ChatGPT SFT :人类价值观对齐,
RLHF: 训练奖励模型, 人的参与是为了准备训练奖励模型的语料
强化学习:Agent,Environment,state,Policy,Reward
PPO:

不同大模型的差异:
位置编码: 传统Transformer,相对位置编码,旋转位置编码(用的最多),ALiBi
注意力机制:
LN:层归一化:
前馈神经网络:MOE

http://www.lryc.cn/news/589036.html

相关文章:

  • QT——文件选择对话框 QFileDialog
  • Perfectly Clear WorkBench V4.6.1.2731图像后期处理调色工具安装部署
  • 3.2数据库-关系代数-函数依赖-范式
  • 深度强化学习 | 图文详细推导深度确定性策略梯度DDPG算法
  • linux网络编程之单reactor模型(二)
  • Web攻防-PHP反序列化字符逃逸增多减少成员变量属性解析不敏感Wakeup绕过
  • 第二章 数据的表示和运算
  • 【每天一个知识点】多模态信息(Multimodal Information)
  • 为何说分布式 AI 推理已成为下一代计算方式
  • AI-Compass LLM训练框架生态:整合ms-swift、Unsloth、Megatron-LM等核心框架,涵盖全参数/PEFT训练与分布式优化
  • 分布式通信框架 - JGroups
  • 第二阶段-第二章—8天Python从入门到精通【itheima】-129节(MySQL的安装)
  • JVM——编译执行于解释执行的区别是什么?JVM使用哪种方式?
  • 从 0 到 1 掌握 自研企业级分布式 ID 发号器
  • 【PTA数据结构 | C语言版】创建哈夫曼树
  • 【c++】c++11新特性(右值引用和移动语义)
  • 安全参綉25暑假第一次作业
  • 如何科学做好企业软件许可优化?
  • 构建 Go 可执行文件镜像 | 探索轻量级 Docker 基础镜像(我应该选择哪个 Docker 镜像?)
  • 波动回升正当时!期权合成多头:震荡市攻守兼备利器
  • 职业院校网络安全攻防对抗实训室解决方案
  • Axios 和Express 区别对比
  • 大模型在1型糖尿病肾病V期预测及治疗方案制定中的应用研究
  • 编写一个简单的riscv模拟器(三)
  • MySQL 备份与恢复指南
  • etcd压缩历史版本
  • Web3 学习路线与面试经验
  • Springboot集成SpringSecurity的介绍及使用
  • AR眼镜颠覆医疗:精准手术零误差
  • 1.1 前端-vue3项目的创建