当前位置: 首页 > news >正文

Toxicity of the Commons: Curating Open-Source Pre-Training Data

论文封面

基本信息

  • 📝 原文链接: https://arxiv.org/abs/2410.22587
  • 👥 作者: Catherine Arnett, Eliot Jones, Ivan P. Yamshchikov, Pierre-Carl Langlais
  • 🏷️ 关键词: toxicity filtering, language models, data curation
  • 📚 分类: 机器学习

摘要

中文摘要

开源大型语言模型在研究人员和实践者中越来越普及。虽然开放权重模型取得了显著进展,但开放训练数据这一做法尚未被领先的开放权重模型创作者所采纳。与此同时,研究人员正在努力使语言模型更安全。我们提出了一种数据整理流程,旨在通过训练在公共领域数据上训练的模型来减少有害输出的产生。处理公共领域数据存在独特的挑战,因为这些来源在形式和内容上都与网络文本不同。许多来源是历史文件,是光学字符识别(OCR)的结果。因此,目前最先进的毒性过滤方法往往对开放数据模型不可行或不恰当。在本文中,我们介绍了一种全新的开源流程,用于开放数据毒性过滤。我们的贡献有三方面。我们创建了一个定制的训练数据集,名为ToxicCommons,它由被归类为五个不同维度(基于种族/起源的、基于性别/性别的、宗教的、基于能力的歧视和暴力)的文本组成。我们使用这个数据集来训练一个定制的分类器,Celadon,它可以更有效地在大规模上检测开放数据中的有毒内容。最后,我们描述了平衡的内容过滤方法,该方法在可用作训练的过滤数据方面优化了安全性过滤。

原文摘要

Open-source large language models are becoming increasingly available and popular among researchers and practitioners. While significant progress has been made on open-weight models, open training data is a practice yet to be adopted by the leading open-weight models creators. At the same time, there researchers are working to make language models safer. We propose a data curation pipeline to reduce harmful outputs by models trained on public domain data. There are unique challenges to working with public domain data, as these sources differ from web text in both form and content. Many sources are historical documents and are the result of Optical Character Recognition (OCR). Consequently, current state-of-the-art approaches to toxicity filtering are often infeasible or inappropriate for open data models. In this paper, we introduce a new fully open-source pipeline for open-data toxicity filtering. Our contributions are threefold. We create a custom training dataset, ToxicCommons, which is composed of texts which have been classified across five different dimensions (racial/origin-based, gender/sex-based, religious, ability-based discrimination, and violence). We use this dataset to train a custom classifier, Celadon, that can be used to detect toxic content in open data more efficiently at a larger scale. Finally, we describe the balanced approach to content filtration that optimizes safety filtering with respect to the filtered data available for training.

论文解读

一句话总结

该论文提出了一个开源的数据过滤流程,用于减少在公共领域数据上训练的模型的有害输出,通过创建一个自定义的训练数据集和分类器来检测和过滤有害内容。

问题1:这篇论文想要解决什么具体问题?

• 问题背景:随着开源大型语言模型的流行,公共领域数据的开放训练数据成为一个尚未被广泛采用的问题。同时,研究人员正在努力使语言模型更安全。
• 现有方案不足:现有的毒性过滤方法通常不适用于开放数据模型,特别是对于公共领域数据,这些数据与网络文本在形式和内容上都有所不同。
• 研究目标:开发一个新方法,通过创建自定义训练数据集和分类器,有效地过滤公共领域数据中的有害内容,从而减少模型的有害输出。

问题2:论文的核心创新点是什么?

• 技术创新:创建了一个名为ToxicCommons的自定义训练数据集,用于检测五个不同维度的毒性内容(种族/起源、性别/性别、宗教、能力歧视和暴力)。
• 方法改进:开发了一个名为Celadon的自定义分类器,可以更有效地检测开放数据中的毒性内容。
• 优势:与现有方法相比,该方法能够更准确地识别和过滤有害内容,同时保持数据的完整性。

问题3:实验结果如何验证了方法的有效性?

• 关键实验:使用ToxicCommons数据集训练Celadon分类器,并在一个独立的测试集上评估其性能。
• 性能提升:Celadon分类器在毒性检测任务上表现出很高的性能,特别是在暴力类别上。
• 对比结果:与现有的毒性分类器相比,Celadon分类器在处理公共领域数据时表现出更高的准确性和效率。

问题4:这个研究的实际应用价值是什么?

• 应用场景:该研究有助于开发更安全、更可靠的开源大型语言模型,这些模型可以用于各种应用,如自然语言处理、文本生成和机器翻译。
• 实施建议:建议在训练大型语言模型之前,使用类似的方法对公共领域数据进行过滤和预处理。
• 局限与展望:该研究在处理多语言数据和不同文化背景的数据方面存在局限性。未来的研究可以探索更先进的过滤方法和跨语言的毒性检测。

http://www.lryc.cn/news/502058.html

相关文章:

  • Python 单例模式工厂模式和classmethod装饰器
  • 计算机键盘简史 | 键盘按键功能和指法
  • 【数字信号处理】期末综合实验,离散时间信号与系统的时域分析,离散信号 Z 变换,IIR 滤波器的设计与信号滤波,用窗函数法设计 FIR 数字滤波器
  • 面试技术点之安卓篇
  • Windows Terminal ssh到linux
  • 自适应卡尔曼滤波(包括EKF、UKF、CKF等)的创新思路——该调什么、不该调什么
  • SpringBoot项目监听端口接受数据(NIO版)
  • QT实战--带行号的支持高亮的编辑器实现(2)
  • (翻译)网络安全书籍推荐列表
  • TcpServer 服务器优化之后,加了多线程,对心跳包进行优化
  • 黑马程序员Java项目实战《苍穹外卖》Day12
  • 经纬度解析到省市区【开源】
  • bug:uniapp运行到微信开发者工具 白屏 页面空白
  • 旧版本 MySQL 处理字符表情写入问题
  • vue使用v-if和:class完成条件渲染
  • Docker:WARNING: Published ports are discarded when using host network mode 解决方法
  • 音视频入门基础:MPEG2-TS专题(12)—— FFmpeg源码中,把各个transport packet组合成一个Section的实现
  • 【数据结构】二叉树的性质和存储结构
  • gbase8s之查看锁表的sql
  • URI 未注册(设置 语言和框架 架构和 DTD)
  • Ubuntu上使用system()函数运行不需要输入密码
  • 【MySQL】数据库必备知识:全面整合表的约束与深度解析
  • Windows下Docker快速安装使用教程
  • PTA DS 6-2 另类堆栈 (C补全函数)
  • rk3568之mpp开发笔记mpp移植到开发板
  • Vue解决跨域问题
  • Kubernetes Nginx-Ingress | 禁用HSTS/禁止重定向到https
  • TortoiseGit的下载、安装和配置
  • 如何绕过IP禁令
  • Vue3的provide和inject实现多级传递的原理