智源:LLM指令数据建设框架
📖标题:Scaling Towards the Information Boundary of Instruction Set: InfinityInstruct-Subject Technical Report
🌐来源:arXiv, 2507.06968
🌟摘要
指令调优已成为释放大规模预训练模型的能力并提高其在复杂任务上的性能的基础。因此,构建高质量的教学数据集对于提高模型性能和泛化能力至关重要。尽管当前的指令数据集已经达到了数千万个样本,但对其进行微调的模型可能仍然难以应对罕见领域的复杂指令跟踪和任务。这主要是由于指令集的“覆盖范围”(任务类型和知识领域的覆盖范围)和“深度”(指令复杂性)的扩展有限。为了解决这个问题,我们提出了一种系统的指令数据构建框架,该框架集成了分层标记系统、信息种子选择算法、进化数据合成过程和具有目标数据生成的模型缺陷诊断。这些组件形成了一个迭代闭环,以不断提高指令数据的覆盖率和深度。基于这一框架,我们构建了InfinityNInstruct Subject,这是一个包含约150万条指令的高质量数据集。在多个基础模型和基准任务上的实验证明了它在提高教学跟随能力方面的有效性。进一步的分析表明,与可比的合成指令数据集相比,InfinityNInstruct Subject显示出更大的覆盖范围和深度。我们的工作为教学数据集的高效、持续进化奠定了理论和实践基础,从数据量扩展到定性改进。
🛎️文章简介
🔸研究问题:如何构建高质量的指令数据集以提高大规模预训练模型的指令遵循能力?
🔸主要贡献:论文提出了一种全面的指令数据建设框架,并通过构建InfinityInstruct-Subject数据集,显著提升了基础模型的指令遵循性能。
📝重点思路
🔸设计了一个分层的多语言标签系统,以理解现有指令内容的分布。
🔸选择具有信息量的种子指令,以识别覆盖率低或难度高的指令。
🔸通过进化算法从种子指令生成更复杂的指令,确保数据集的覆盖和深度。
🔸实施模型缺陷诊断系统,针对模型知识或能力的缺口进行数据合成。
🔸使用严格的数据泄露防止机制,确保训练与评估数据的可靠性。
🔎分析总结
🔸实验结果显示,利用InfInstruct-Sub数据集微调的模型在复杂任务上表现出显著的性能提升。
🔸与其他大型指令数据集相比,InfInstruct-Sub在语义覆盖上更具广度,展示了更均匀的分布特性。
🔸数据分布分析表明,指令标签的共现频率呈现负对数关系,揭示了数据内部知识结构的规模无关特性。
🔸深度和覆盖性的增加与模型性能间的相关性被验证,强调了在指令合成中同时增强这两个维度的重要性。
💡个人观点
论文的创新点在于提出了一个系统且结构化的指令数据构建框架,能够动态适应模型的性能需求并有效填补指令集中的盲点,推动了指令集的复杂性和覆盖面的进一步发展。
🧩附录