当前位置: 首页 > news >正文

速递FineWeb:一个拥有无限潜力的15T Tokens的开源数据集

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。

FineWeb

FineWeb是一个新发布的开源数据集,它希望通过其广泛收集的英语网络数据来推动语言模型研究发展。FineWeb 由 huggingface 领导的团体研发,提供超过15万亿个Token,这些Token来自2013年至2024年的 CommonCrawl转储。

FineWeb在设计时一丝不苟,使用datatrove进行流水线处理。这个过程针对数据集进行清理和重复数据删除的操作,从而提高其质量和适用性以便利于大语言模型的训练和评估。

FineWeb的主要优势之一在于其性能。通过精心策划和创新的过滤技术,FineWeb在各种基准测试任务中优于C4、Dolma v1.6、The Pile和 SlimPajama 等已建立的数据集。在FineWeb上训练的模型表现出卓越的性能,它已经成为自然语言处理的宝贵资源。

透明度和可重建是FineWeb发展的核心原则。该数据集及其处理管道代码在ODC-By 1.0许可下发布,使研究人员能够轻松复制和构建其发现。FineWeb还进行了广泛的消融和基准测试,以验证其对已建立数据集的有效性,确保其在语言模型研究中的可靠性和有用性。

FineWeb利用了URL 过滤、语言检测和质量评估等过滤步骤提高数据集的完整性和丰富性。每个CommonCrawl转储都使用高级MinHash技术单独删除重复数据,进一步提高了数据集的质量和实用性。<小编认为Minio其实也是可以的!>

关联阅读

2024年似乎已经打破了数据集方面的“4 分钟英里”。尽管Redpajama 2提供了高达30T 的Tokens,但大多数在2023年的LLMs都使用高达2.5T 的Tokens进行训练。随后DBRX推出12T的Tokens,Reka Core/Flash/Edge 推出5T的Tokens,Llama 3推出15T的Tokens。现在Huggingface 发布了一个开放数据集,其中包含12年过滤和重复数据删除的CommonCrawl的数据,总共有15T个Tokens。

http://www.lryc.cn/news/361872.html

相关文章:

  • HDLBits答案汇总
  • 云端数据提取:安全、高效地利用无限资源
  • Java开发:Spring Boot 实战教程
  • 【Python3.11版本利用whl文件安装对应的dlib-19.24.1-cp311-cp311-win_amd64.whl库】
  • HW面试常见知识点2——研判分析(蓝队中级版)
  • 鲁教版七年级数学下册-笔记
  • 带你走进在线直线度测量仪 解析测量方法!
  • 力扣1 两数之和
  • AndroidFlutter混合开发
  • Halcon 光度立体 缺陷检测
  • 关于找暑期实习后的一些反思
  • Rust struct
  • 【UE5:CesiumForUnreal】——加载无高度地形数据
  • 证件/文书类日期中文大写js/ts插件
  • 03JAVA基础(方法/类/封装(构造方法))
  • 数据容器的通用操作、字符串大小比较 总结完毕!
  • KAN(Kolmogorov-Arnold Network)的理解 3
  • lux和ffmpeg进行下载各大主流自媒体平台视频
  • day25-XML
  • Mixly 开启WIFI AP UDP收发数据
  • OCR图片转Excel表格:没结构化的弊端
  • 查看所用数据库的版本
  • U盘感染病毒,不必急于扔掉!教你如何有效清除U盘中的病毒
  • 新手小白也能玩转跨境电商:从零到精通的操作流程
  • 川北医学院与爱尔眼科医院集团签署战略合作协议共谋医学发展新篇章
  • 利用映射算子打印菱形
  • 亚信安全正式推出5G专网安全测试服务 圆满完成核电客户5G项目落地
  • 第二十五章CSS中的技巧(导航栏、下拉列表)
  • 大话设计模式解读01-简单工厂模式
  • 35python数据分析numpy基础之setdiff1d求两个数组的差集