当前位置：首页 > news >正文

【AI论文】MegaScience：推动科学推理后训练数据集的前沿发展

news 2025/7/29 15:34:22

摘要：科学推理对于培养人工智能科学家以及助力人类科研人员推进自然科学发现的前沿领域而言至关重要。然而，开源社区主要聚焦于数学和编程领域，却忽视了科学领域，这在很大程度上是由于缺乏开放、大规模、高质量且可验证的科学推理数据集。为填补这一空白，我们首先推出了TextbookReasoning，这是一个开放数据集，其中的真实参考答案提取自1.2万本大学水平科学教材，包含65万个涵盖7个科学学科的推理问题。我们还进一步介绍了MegaScience，这是一个大规模的高质量开源数据集混合体，总计125万个样本。该数据集是通过系统的消融研究开发的，这些研究评估了各种数据选择方法，以确定每个公开可用科学数据集的最优子集。与此同时，我们构建了一个全面的评估系统，该系统涵盖15个基准测试中的多样化学科和问题类型，并融入全面的答案提取策略，以确保评估指标的准确性。我们的实验表明，与现有的开源科学数据集相比，我们的数据集在响应长度更简洁的情况下，实现了更优的性能和训练效率。此外，我们在MegaScience上对Llama3.1、Qwen2.5和Qwen3系列基础模型进行了训练，这些模型在平均性能上显著优于相应的官方指令微调模型。此外，MegaScience对规模更大、性能更强的模型效果更佳，这表明其在科学微调方面具有规模效益。我们将数据整理流程、评估系统、数据集以及七个训练好的模型向社区开源发布，以推动科学推理研究的发展。Huggingface链接：Paper page，论文链接：2507.16812

研究背景和目的

研究背景

随着大型语言模型（LLMs）的发展，它们已经从单纯的知识检索系统演变为具备认知推理能力的系统，这标志着向人工通用智能（AGI）迈出的重要一步。尽管数学和编程领域的推理模型已经取得了显著进展，但科学推理作为另一项关键能力，在开源社区中仍然相对滞后。这主要是因为缺乏开放、大规模、高质量且可验证的科学推理数据集。现有的科学推理数据集存在诸多问题，如不可靠的基准评估、不严格的数据去重、低质量的参考答案以及浅层次的知识提炼等，这些问题严重制约了科学推理模型的发展。

研究目的

本研究旨在填补科学推理数据集领域的空白，推动科学推理模型的发展。具体目标包括：

构建高质量的科学推理数据集：通过提取大学水平科学教材中的真实参考答案，构建一个开放的高质量科学推理数据集TextbookReasoning。
开发大规模混合数据集：通过系统研究不同数据选择方法，开发一个包含多个公共数据集最优子集的大规模混合数据集MegaScience。
设计全面的评估系统：构建一个涵盖多学科和问题类型的全面评估系统，以确保评估指标的准确性。
推动科学推理研究：通过开源数据集、评估系统和训练好的模型，促进科学推理领域的研究和发展。

研究方法

数据集构建

TextbookReasoning数据集构建：

教材收集与数字化：从网络上爬取PDF格式的教材，并通过Llama3.3-70B-Instruct模型自动分类教材的主题和学术水平，确保教材为大学水平。最终收集了12,800本学术书籍，涵盖七个学科。
问答对提取：将教材分割成4096个token的块，通过Llama3.3-70B-Instruct模型使用高标准和低标准两种标准提取问答对。高标准要求问题需要多步推理，且源文档包含完整的解决方案；低标准仅要求完整的问题和答案。
问答对精炼与过滤：使用DeepSeek-V3模型对提取的问答对进行精炼，确保问题包含所有必要的上下文信息，答案提供全面的解释。同时，使用Llama3.3-70B-Instruct模型过滤掉有缺陷的问答对。
去重与去污染：使用LLM-based方法进行严格的去重和去污染，确保数据集的完整性和可靠性。