当前位置: 首页 > news >正文

【大模型微调】一些观点的总结和记录

  • 垂直领域大部分不用保持通用能力的,没必要跟淘宝客服聊天气预报,但是主要还是领导让你保持

  • 微调方法没有大变数了,只能在数据上下功夫,我能想到的只有提高微调数据质量。

  • sft微调的越多,遗忘的越多. 不过对于小任务,rank比较低(例如8,16)的任务,影响还是有有限的。一般很少掉点明显。

  • sft能够改变回复风格。原来的风格是列表回复,如果sft数据集很短,则sft后的数据集也会很短,理论上二者的风格应该一致才行

  • 在LLM时代,需要牢记 数据质量 > 数量 这个真理,如:[Less is More! 上交清源 && 里海 | 利用200条数据微调模型,怒超MiniGPT-4!],超大规模的SFT数据会让下游任务LLM减弱或者失去ICL、CoT等能力

  • 全流程的LLM训练包括:预训练、监督微调、奖励模型、强化学习,多数情况下监督微调即可满足自身需求。

  • 对于垂类模型,更应该关注PT的过程,而不是采集千万百万的SFT数据做训练,一般建议是 大规模预训练+小规模监督微调=超强的LLM模型

  • 指令微调阶段不能够进行过多轮次训练:

http://www.lryc.cn/news/494942.html

相关文章:

  • Vue 3 Hooks 教程
  • pandas数据处理及其数据可视化的全流程
  • docker 在ubuntu系统安装,以及常用命令,配置阿里云镜像仓库,搭建本地仓库等
  • torch.maximum函数介绍
  • Java面试之多线程并发篇(9)
  • Java全栈:超市购物系统实现
  • 1.1 数据结构的基本概念
  • 深度学习:GPT-2的MindSpore实践
  • 【Oracle11g SQL详解】ORDER BY 子句的排序规则与应用
  • YOLO系列论文综述(从YOLOv1到YOLOv11)【第15篇(完结):讨论和未来展望】
  • Java设计模式 —— 【创建型模式】原型模式(浅拷贝、深拷贝)详解
  • SciAssess——评估大语言模型在科学文献处理中关于模型的记忆、理解和分析能力的基准
  • SQLModel与FastAPI结合:构建用户增删改查接口
  • 【RISC-V CPU debug 专栏 2.3 -- Run Control】
  • 探索 IntelliJ IDEA 中 Spring Boot 运行配置
  • 三除数枚举
  • 【051】基于51单片机温度计【Proteus仿真+Keil程序+报告+原理图】
  • [Java]微服务之服务保护
  • 自动驾驶目标检测融合全貌
  • 消息框(Message Box)的测试方法和测试用例
  • Ubuntu 包管理
  • [Ubuntu] linux之Ubuntu18.04的下载及在虚拟机中详细安装过程(附有下载链接)
  • ffmpeg安装(windows)
  • 服务器数据恢复—raid6阵列硬盘被误重组为raid5阵列的数据恢复案例
  • linux内核编译启动总结
  • Android Studio的AI工具插件使用介绍
  • 本地部署 WireGuard 无需公网 IP 实现异地组网
  • asyncio.ensure_future 与 asyncio.create_task:Python异步编程中的选择
  • CTF之密码学(密码特征分析)
  • JVM调优篇之JVM基础入门AND字节码文件解读