当前位置: 首页 > news >正文

全新AI模型家族登场:完全可复现的开源语言模型OLMo 2

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

本周二,由已故微软联合创始人保罗·艾伦创立的非营利AI研究机构AI2发布了OLMo 2系列模型 (https://allenai.org/olmo),这是其OLMo(Open Language Model,开源语言模型)系列的第二代模型。这一发布引起关注,因为OLMo 2是少数可以完全从头复现的AI模型之一。虽然“开源”语言模型市场已不乏选择(如Meta的Llama),但OLMo 2符合开放源码倡议组织(OSI)对开源AI的定义,即开发所用的工具和数据均为公开可用。

开放源码倡议组织(OSI)是一个长期致力于定义和推广开源标准的机构,其AI开源定义在今年10月最终定稿。而AI2早在今年2月发布的首个OLMo模型便已符合该标准。

“OLMo 2的开发从头到尾采用公开且可访问的训练数据、开源训练代码、可复现的训练方案、透明的评估方法和中间检查点等,”AI2在博客中写道。“通过公开分享数据、方案和研究成果,我们希望为开源社区提供资源,帮助其探索新的创新方法。”

OLMo 2 模型家族亮点

OLMo 2系列包括两个模型:一个具有70亿参数(OLMo 7B),另一个具有130亿参数(OLMo 13B)。参数数量大致反映了模型解决问题的能力,通常参数越多,模型的性能越好。

与大多数语言模型一样,OLMo 2 7B和13B可以执行一系列基于文本的任务,如回答问题、总结文档和编写代码。

为了训练这些模型,AI2使用了包含5万亿个标记的数据集。标记代表原始数据的最小单元;100万个标记大约相当于75万字。训练数据集包括经过质量筛选的网站、学术论文、问答论坛以及“人类生成与合成生成”的数学练习题。

AI2表示,这些训练数据使得OLMo 2模型在性能上与Meta最新的Llama 3.1等开源模型具有竞争力。“与早期的OLMo模型相比,OLMo 2的所有任务性能都有显著提升。值得注意的是,OLMo 2 7B的表现优于Llama 3.1的8B模型,”AI2在声明中写道。“OLMo 2可以说是迄今为止最好的完全开源语言模型。”

完全开源,商用友好

OLMo 2模型及其所有组件可以从AI2官方网站下载,并使用Apache 2.0许可证发布,这意味着它们可以用于商业用途。

不过,最近围绕开源模型的安全性也引发了广泛讨论。例如,Llama模型据称被中国研究人员用于开发军事防御工具。当我在今年2月采访AI2工程师Dirk Groeneveld时,他承认存在滥用的可能性,但他认为开源模型的好处最终大于潜在的风险。

“是的,开源模型可能会被不当使用或用于意料之外的用途,”他表示。“然而,这种方法也促进了技术进步,有助于开发更具伦理性的模型;开源是验证和复现的前提条件,因为只有完全开放才能实现这些目标;同时它还减少了日益集中的权力分配,创造了更公平的访问机会。”

总结

OLMo 2的发布标志着开源AI领域又迈出了一大步。它不仅为开发者提供了一个性能强大的工具,还以其完全可复现的特性和透明化的开发方式树立了开源AI的新标杆。在技术快速发展的今天,这种开放与创新的理念无疑为AI社区注入了更多可能性。

http://www.lryc.cn/news/493769.html

相关文章:

  • 用Matlab和SIMULINK实现DPCM仿真和双边带调幅系统仿真
  • RabbitMQ的交换机总结
  • Android so库的编译
  • 2024年底-Arch linux或转为0BSD许可证!
  • 深入解析音视频流媒体SIP协议交互过程
  • linux安装mysql8.0.40
  • Java基础之控制语句:开启编程逻辑之门
  • 如何还原 HTTP 请求日志中的 URL 编码参数?详解 %40 到 @
  • usb_cam ros包话题说明,image transport包使用
  • 微前端-MicroApp
  • Unity UGUI 垂直循环复用滚动
  • Spring MVC 深度剖析:优势与劣势全面解读
  • 力扣hot100-->前缀和/前缀书/LRU缓存
  • Three.js CSS2D/CSS3D渲染器
  • mongodb文档字符串批量替换
  • 前端安全和解决方案
  • Tlias智能辅助学习系统-部门管理
  • React第十节组件之间传值之context
  • flink中barrier不对齐的原因和影响
  • 软银集团孙正义再度加码OpenAI,近屿智能专注AI人才培养
  • 麒麟系统x86安装达梦数据库
  • Java中的“多态“详解
  • buuctf-[SUCTF 2019]EasySQL 1解题记录
  • ASP.NET Core 入门
  • php反序列化1_常见php序列化的CTF考题
  • 题目 1013: [编程入门]Sn的公式求和
  • 算法——赎金信(leetcode383)
  • transformers训练(NLP)阅读理解(多项选择)
  • 微软企业邮箱:安全可靠的企业级邮件服务!
  • 什么是分布式锁