当前位置：首页 > news >正文

【大模型微调】一些观点的总结和记录

news 2025/7/15 15:27:05

垂直领域大部分不用保持通用能力的，没必要跟淘宝客服聊天气预报，但是主要还是领导让你保持
微调方法没有大变数了，只能在数据上下功夫，我能想到的只有提高微调数据质量。
sft微调的越多，遗忘的越多. 不过对于小任务，rank比较低（例如8，16）的任务，影响还是有有限的。一般很少掉点明显。
sft能够改变回复风格。原来的风格是列表回复，如果sft数据集很短，则sft后的数据集也会很短，理论上二者的风格应该一致才行
在LLM时代，需要牢记数据质量 > 数量这个真理，如：[Less is More! 上交清源 && 里海 | 利用200条数据微调模型，怒超MiniGPT-4！]，超大规模的SFT数据会让下游任务LLM减弱或者失去ICL、CoT等能力
全流程的LLM训练包括：预训练、监督微调、奖励模型、强化学习，多数情况下监督微调即可满足自身需求。
对于垂类模型，更应该关注PT的过程，而不是采集千万百万的SFT数据做训练，一般建议是大规模预训练+小规模监督微调=超强的LLM模型
指令微调阶段不能够进行过多轮次训练：

http://www.lryc.cn/news/494942.html

相关文章：

Vue 3 Hooks 教程

pandas数据处理及其数据可视化的全流程

docker 在ubuntu系统安装，以及常用命令，配置阿里云镜像仓库，搭建本地仓库等

torch.maximum函数介绍

Java面试之多线程并发篇（9）

Java全栈：超市购物系统实现

1.1 数据结构的基本概念

深度学习：GPT-2的MindSpore实践

【Oracle11g SQL详解】ORDER BY 子句的排序规则与应用

YOLO系列论文综述（从YOLOv1到YOLOv11）【第15篇（完结）：讨论和未来展望】

Java设计模式 —— 【创建型模式】原型模式（浅拷贝、深拷贝）详解

SciAssess——评估大语言模型在科学文献处理中关于模型的记忆、理解和分析能力的基准

SQLModel与FastAPI结合：构建用户增删改查接口

【RISC-V CPU debug 专栏 2.3 -- Run Control】

探索 IntelliJ IDEA 中 Spring Boot 运行配置

三除数枚举

【051】基于51单片机温度计【Proteus仿真+Keil程序+报告+原理图】

[Java]微服务之服务保护

自动驾驶目标检测融合全貌

消息框(Message Box)的测试方法和测试用例

Ubuntu 包管理

[Ubuntu] linux之Ubuntu18.04的下载及在虚拟机中详细安装过程（附有下载链接）

ffmpeg安装(windows)

服务器数据恢复—raid6阵列硬盘被误重组为raid5阵列的数据恢复案例

linux内核编译启动总结

Android Studio的AI工具插件使用介绍

本地部署 WireGuard 无需公网 IP 实现异地组网

asyncio.ensure_future 与 asyncio.create_task：Python异步编程中的选择

CTF之密码学（密码特征分析）

JVM调优篇之JVM基础入门AND字节码文件解读