当前位置：首页 > news >正文

Toxicity of the Commons: Curating Open-Source Pre-Training Data

news 2025/7/7 20:56:25

论文封面

基本信息

📝 原文链接: https://arxiv.org/abs/2410.22587
👥 作者: Catherine Arnett, Eliot Jones, Ivan P. Yamshchikov, Pierre-Carl Langlais
🏷️ 关键词: toxicity filtering, language models, data curation
📚 分类: 机器学习

摘要

中文摘要

开源大型语言模型在研究人员和实践者中越来越普及。虽然开放权重模型取得了显著进展，但开放训练数据这一做法尚未被领先的开放权重模型创作者所采纳。与此同时，研究人员正在努力使语言模型更安全。我们提出了一种数据整理流程，旨在通过训练在公共领域数据上训练的模型来减少有害输出的产生。处理公共领域数据存在独特的挑战，因为这些来源在形式和内容上都与网络文本不同。许多来源是历史文件，是光学字符识别（OCR）的结果。因此，目前最先进的毒性过滤方法往往对开放数据模型不可行或不恰当。在本文中，我们介绍了一种全新的开源流程，用于开放数据毒性过滤。我们的贡献有三方面。我们创建了一个定制的训练数据集，名为ToxicCommons，它由被归类为五个不同维度（基于种族/起源的、基于性别/性别的、宗教的、基于能力的歧视和暴力）的文本组成。我们使用这个数据集来训练一个定制的分类器，Celadon，它可以更有效地在大规模上检测开放数据中的有毒内容。最后，我们描述了平衡的内容过滤方法，该方法在可用作训练的过滤数据方面优化了安全性过滤。

原文摘要

Open-source large language models are becoming increasingly available and popular among researchers and practitioners. While significant progress has been made on open-weight models, open training data is a practice yet to be adopted by the leading open-weight models creators. At the same time, there researchers are working to make language models safer. We propose a data curation pipeline to reduce harmful outputs by models trained on public domain data. There are unique challenges to working with public domain data, as these sources differ from web text in both form and content. Many sources are historical documents and are the result of Optical Character Recognition (OCR). Consequently, current state-of-the-art approaches to toxicity filtering are often infeasible or inappropriate for open data models. In this paper, we introduce a new fully open-source pipeline for open-data toxicity filtering. Our contributions are threefold. We create a custom training dataset, ToxicCommons, which is composed of texts which have been classified across five different dimensions (racial/origin-based, gender/sex-based, religious, ability-based discrimination, and violence). We use this dataset to train a custom classifier, Celadon, that can be used to detect toxic content in open data more efficiently at a larger scale. Finally, we describe the balanced approach to content filtration that optimizes safety filtering with respect to the filtered data available for training.

论文解读

一句话总结

该论文提出了一个开源的数据过滤流程，用于减少在公共领域数据上训练的模型的有害输出，通过创建一个自定义的训练数据集和分类器来检测和过滤有害内容。

问题1：这篇论文想要解决什么具体问题？

• 问题背景：随着开源大型语言模型的流行，公共领域数据的开放训练数据成为一个尚未被广泛采用的问题。同时，研究人员正在努力使语言模型更安全。
• 现有方案不足：现有的毒性过滤方法通常不适用于开放数据模型，特别是对于公共领域数据，这些数据与网络文本在形式和内容上都有所不同。
• 研究目标：开发一个新方法，通过创建自定义训练数据集和分类器，有效地过滤公共领域数据中的有害内容，从而减少模型的有害输出。

问题2：论文的核心创新点是什么？

• 技术创新：创建了一个名为ToxicCommons的自定义训练数据集，用于检测五个不同维度的毒性内容（种族/起源、性别/性别、宗教、能力歧视和暴力）。
• 方法改进：开发了一个名为Celadon的自定义分类器，可以更有效地检测开放数据中的毒性内容。
• 优势：与现有方法相比，该方法能够更准确地识别和过滤有害内容，同时保持数据的完整性。

问题3：实验结果如何验证了方法的有效性？

• 关键实验：使用ToxicCommons数据集训练Celadon分类器，并在一个独立的测试集上评估其性能。
• 性能提升：Celadon分类器在毒性检测任务上表现出很高的性能，特别是在暴力类别上。
• 对比结果：与现有的毒性分类器相比，Celadon分类器在处理公共领域数据时表现出更高的准确性和效率。

问题4：这个研究的实际应用价值是什么？

• 应用场景：该研究有助于开发更安全、更可靠的开源大型语言模型，这些模型可以用于各种应用，如自然语言处理、文本生成和机器翻译。
• 实施建议：建议在训练大型语言模型之前，使用类似的方法对公共领域数据进行过滤和预处理。
• 局限与展望：该研究在处理多语言数据和不同文化背景的数据方面存在局限性。未来的研究可以探索更先进的过滤方法和跨语言的毒性检测。

查看全文

http://www.lryc.cn/news/502058.html