当前位置: 首页 > news >正文

OLMo 以促进语言模型科学之名 —— OLMo Accelerating the Science of Language Models —— 全文翻译

OLMo: Accelerating the Science of Language Models
OLMo 以促进语言模型科学之名


摘要

语言模型在自然语言处理的研究中和商业产品中已经变得无所不在。因为其商业上的重要性激增,所以,其中最强大的模型已经闭源,控制在专有接口之中,保持特别是训练数据、架构和开发的重要的细节秘而不宣。  考虑到科学地研究这些模型的细节的重要性,包括他们的偏见和潜在风险,我们坚信能够把玩强大的、真正开源的语言模型,对于科学研究社区是非常重要的。为了这个目的,这份技术报告详述了 OLMo 的第一个发行版,这包括一个达到高水准的、真正开源的语言模型,和它构建和研究语言模型科学的的整个框架流程。不同于许多之前那些尝试,他们仅仅发布了模型的权重和推理代码,我们发布了OLMo,以及它的整个框架,这包括训练数据和训练与评估代码。我们希望这些发布将赋能开源研究社区并且激励一个新的创新浪潮。
 

Weights        https://huggingface.co/allenai/OLMo-7B
Code             https://github.com/allenai/OLMo
Data              https://huggingface.co/datasets/allenai/dolma
Evaluation    https://github.com/allenai/OLMo-Eval
Adaptation   https://github.com/allenai/open-instruct
W&B Logs    https://wandb.ai/ai2-llm/OLMo-7B/reports/OLMo-7B--Vmlldzo2NzQyMzk5

1. 引言


语言模型成为NLP技术的中心已经很多年了(Rosenfeld, 2000; Bengio et al., 2003; Mikolov et al., 2013; Peters et al., 2018; Brown et al., 2020)。最近,因为大规模的预训练和人类的对齐标注,它们已经成为了商业上的贵重物品 (OpenAI, 2023)。然而,随着它们的商业价值的已然增加,大模型已经控制在专有接口之中,而且大量重要细节也被秘而不宣。我们相信能够充分把玩开源语言模型,对于科学研究社区能够对这些模型做科学的研究、对它们的优点和弱点的研究、对它们的偏差和风险的研究,是非常重要的。据此,我们介绍了OLMo,一个达到高水准的、真正开源的语言模型和框架,用来构建、研究和促进语言模型,并且给出了训练数据、训练和评估的源代码,中间模型检查点、和训练日志。

未完待续 ... ...

http://www.lryc.cn/news/302700.html

相关文章:

  • 单例模式双端检测详解
  • 秦PLUS荣耀版7.98万元起震撼上市,拉开“电比油低”大幕
  • 学习总结19
  • rancher v2.8.1 如何成功注册已有 k8s 集群
  • Vue中$root的使用方法
  • redis 异步队列
  • SpringBoot + Nacos 实现动态化线程池
  • 《Docker极简教程》--Dockerfile--Dockerfile的基本语法
  • css中, grid-auto-rows: 怎样简写在grid:中
  • @ 代码随想录算法训练营第8周(C语言)|Day53(动态规划)
  • 算法-矩阵置零
  • xilinx除法器的使用
  • 算法沉淀——递归(leetcode真题剖析)
  • BERT模型中的input_ids和attention_mask参数
  • java+vue_springboot企业设备安全信息系统14jbc
  • vulhub中Apache Log4j Server 反序列化命令执行漏洞复现(CVE-2017-5645)
  • 基于python+django+vue.js开发的医院门诊管理系统/医疗管理系统
  • Linux文件系统笔记
  • vue封装el-table表格组件
  • 「Python系列」Python数据结构
  • MySQL多实例部署:从概念到实操的全面指南
  • C++学习Day07之虚函数和纯虚函数
  • GZ036 区块链技术应用赛项赛题第9套
  • 微服务—RabbitMQ高级(延迟消息)
  • 香港服务器如何取消windows的自动更新
  • kali虚拟机桥接模式快速设置
  • 「连载」边缘计算(十五)02-18:边缘部分源码(源码分析篇)
  • MySQL性能调优篇(8)-NoSQL与MySQL的比较
  • 【Linux学习】线程池
  • 利用Docker部署一个简单的springboot项目