当前位置：首页 > news >正文

大语言模型的三阶段训练

news 2025/8/25 14:36:05

为了训练专有领域模型，选择LLaMA2-7B作为基座模型，由于LLaMA模型中文词表有限，因此首先进行中文词表的扩展，然后进行三阶段训练（增量预训练，有监督微调，强化学习）。

代码将全部上传到github：

https://github.com/hjandlm/LLM_Train

1. 中文词表扩展

原生词表大小是32K，在词表扩展后，词表大小是63608。

2. 增量预训练

为了防止模型的通用能力减弱或消失，将通用数据和领域数据混合，经过调研决定设置5:1的数据配比进行增量预训练。由于资源有限，显卡是一块A100，40G，因此训练较慢。

目前还处于预训练阶段，情况如下：

训练集损失曲线：

测试集损失曲线：

后续将继续研究如何“炼丹“，敬请期待！

3. 有监督微调

…

4. 强化学习

…

查看全文

http://www.lryc.cn/news/237377.html

面试题c/c++ --STL 算法与数据结构

云原生微服务-理论篇

Unity模拟薄膜干涉效果

AIGC ChatGPT4对Gbase数据库进行总结

OSI网络模型与TCP/IP协议

C语言的5个内存段你了解吗？( 代码段/数据段/栈/堆)

智能合约检测：新一代区块链技术的安全守护

Flutter笔记：缩放手势

JAXB：用XmlElement注解复杂类型的Java属性，来产生多层嵌套的xml元素

万字长文 - Python 日志记录器logging 百科全书 - 高级配置之日志分层

工作记录---为什么双11当天不能申请退款？（有趣~）

ElasticSearch在Windows上的下载与安装

软件测试/测试开发/人工智能丨基于Spark的分布式造数工具：加速大规模测试数据构建

ClickHouse的 MaterializeMySQL引擎

Ubuntu 22.04安装Rust编译环境并且测试

制作Go程序的Docker容器（以及容器和主机的网络问题）

mysql清除数据痕迹_MySQL使用痕迹清理~/.mysql_history - milantgh

PDF控件Spire.PDF for .NET【转换】演示：自定义宽度、高度将 PDF 转 SVG

01背包 P1507 NASA的食物计划

平衡二叉树c语言版

初始环境配置

记GitLab服务器迁移后SSH访问无法生效的问题解决过程

【NGINX--2】高性能负载均衡

Android studio run 手机或者模拟器安装失败，但是生成了debug.apk

【面试经典150 | 数学】加一

Rust unix domain socket

初识分布式键值对存储etcd

docker swarm集群部署

MySQL进阶_9.事务基础知识

IDEA调用接口超时，但Postman可成功调用接口

1. 中文词表扩展

2. 增量预训练

3. 有监督微调

4. 强化学习

相关文章：