当前位置：首页 > news >正文

【论文笔记】基于指令回译的语言模型自对齐-MetaAI

news 2025/7/9 3:19:41

MetaAI最近发布的Humpback，论文链接：https://arxiv.org/abs/2308.06259

解决什么问题？

大量高质量的指令微调数据集的生成。

思路

在这项工作中，我们通过开发迭代自训练算法来利用大量未标记的数据来创建高质量的指令调优数据集。该方法使用模型本身来增强和管理高质量的训练样例，以提高其自身的性能。我们的方法名为指令反翻译(instruction backtranslation)，其灵感来自机器翻译的经典反翻译方法，即用模型生成的另一种语言的源句子自动注释人类编写的目标句子。

就是最初我们有大语言模型 $M_0$ 、无标注的数据和人工生成的少量初始问答对（seed data)，用seed data对 $M_0$ 进行微调，微调后的 $M_0$ predict出一些能在seed data中找到合适答案的问题（QA对），通过prompt让 $M_0$ 自己筛选出其中较高质量的QA对，并入seed data中，迭代。
最终是可以得到一个能产生高质量问答数据的大模型 $M_k$ ,从而可以得到一系列高质量问答对。
迭代过程
每个迭代的大模型会执行两个步骤：

自增强(self-augment):为未标记数据(即web语料库)生成指令，以生成(指令，输出)对的候选训练数据，用于指令调优。
自我管理 (self-curate):自我选择高质量的演示示例作为训练数据，以微调基本模型。这种方法是迭代完成的…

过程

初始数据生成：从一组人工注释的(指令，输出)示例开始，这些示例将用于微调语言模型，以在两个方向上给出初始预测:预测给定指令的输出，以及给定输出的指令。
无标签数据收集，同时清洗(重复消除，长度过滤，启发式方法删除潜在低质量)：使用web语料库作为未标记数据的来源
微调以得到能生成高质量问题的模型
让模型对自己生成的问题进行评分
掐尖，加入seed data中（通过后缀进行区分），迭代

http://www.lryc.cn/news/129515.html

相关文章：

MySQL和MariaDB的版本对应关系

Python数据的输入与输出

生成国密密钥对

ASR（自动语音识别）任务中的LLM（大语言模型）

简单介绍一下centos上有什么工具可以优雅的管理开机启动项

万宾燃气管网监测解决方案，守护城市生命线安全

Django框架靓号管理（增删改查）

责任链模式简单实现

Excel自动化办公——Openpyxl的基本使用

解决Fastjson2 oom(Out Of Memory),支持大对象(LargeObject 1G)json操作

SpringBoot + redis处理购物车逻辑

open cv学习（五）图像的阈值处理

NVIDIA vGPU License许可服务器高可用全套部署秘籍

基于CNN卷积神经网络的口罩检测识别系统matlab仿真

《HeadFirst设计模式(第二版)》第九章代码——迭代器模式

Electron入门，项目启动。

深入理解索引B+树的基本原理

vue3 简易用对话框实现点击头像放大查看

opencv 矩阵运算

第四章字符串part01

Python3内置函数大全

什么是“新型基础设施”？建设重点是什么？

混杂接口模式---vlan

Greenplum多级分区表添加分区报错ERROR: no partitions specified at depth 2

EV PV AC SPI CPI TCPI

【电商领域】Axure在线购物商城小程序原型图，品牌自营垂直电商APP原型

Cpp基础Ⅰ之编译、链接

用户新增预测（Datawhale机器学习AI夏令营第三期）

RGOS日常管理操作

阿里云使用WordPress搭建个人博客