当前位置: 首页 > news >正文

Molmo和PixMo:为最先进的多模态模型提供开放权重和开放数据

摘要

https://arxiv.org/pdf/2409.17146
当今最先进的多模态模型仍然是专有的。性能最强的开源模型严重依赖专有视觉语言模型(Vision-Language Model,简称VLM)的合成数据来获得良好性能,有效地将这些封闭模型提炼为开放模型。因此,业界仍然缺少关于如何从零开始构建高性能VLM的基础知识。我们提出了Molmo,这是一个在其开放性类别中处于最前沿的新VLM系列。我们的关键创新在于一个全新且高度详细的图像字幕数据集,该数据集完全基于人类注释者使用语音描述收集而成。为了实现广泛的用户交互,我们还引入了一个用于微调的多样化数据集组合,其中包括野外问答(Q&A)和创新性的二维指向数据。我们方法的成功取决于模型架构细节的精心选择、经过良好调整的训练管道,以及最关键的是我们新收集的数据集的质量,所有这些都将被公开。Molmo系列中性能最佳的720亿参数模型不仅在开源权重和数据模型类别中优于其他模型,而且在学术基准测试和人工评估方面与GPT-4o、Claude 3.5和Gemini 1.5等专有系统相比也毫不逊色。

我们将在不久的将来发布我们的所有模型权重、字幕和微调数据以及源代码。部分模型权重、推理代码和演示可在https://molmo.allenai.org上获取。

1. 引言

除了处理文本外,还能处理图像的大型语言模型(Large Language Model&

http://www.lryc.cn/news/466958.html

相关文章:

  • day02_计算机常识丶第一个程序丶注释丶关键字丶标识符
  • 【Trick】IOS系统解决“未受信任的企业级开发者”问题
  • 理解 React 中的 ReactElement、children 和 ReactNode
  • 纯血鸿蒙正式登场,华为这新机给我看傻了
  • c语言中的%运算和/运算
  • 【MySQL】多表查询——内连接,左/右连接
  • Naicat连接本地CentOS 7虚拟机上的MySQL数据库失败解决办法
  • transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)的计算过程
  • Excel表格如何修改“打开密码”,简单几步,轻松搞定
  • pandas 数据分析实战
  • antd vue 输入框高亮设置关键字
  • python——扑克牌案列
  • Java最全面试题->Java基础面试题->JavaWeb面试题->Git/SVN面试题
  • 引进Menu菜单与新增验证上传图片功能--系统篇
  • 安装Python及pip使用方法详解
  • 利用Arcgis进行沟道形态分析
  • Excel:vba实现筛选出有批注的单元格
  • RabbitMQ 发布确认模式
  • 【面试题】什么是SpringBoot以及SpringBoot的优缺点
  • git区分大小写吗?如果不区分,那要如何设置?
  • Docker 安装使用
  • Linux Docker配置镜像加速
  • 了解CSS Typed OM
  • [ 钓鱼实战系列-基础篇-6 ] 一篇文章让你了解邮件服务器机制(SMTP/POP/IMAP)-2
  • 在 Docker 中搭建 PostgreSQL16 主从同步环境
  • SpringCloud无介绍快使用,sentinel服务熔断功能与持久化(二十四)
  • 判断浏览器环境,前端打开微信浏览器
  • 【算法笔记】前缀和算法原理深度剖析(超全详细版)
  • linux之网络子系统- 地址解析协议arp 源码分析和邻居通用框架
  • 经典动态规划问题:含手续费的股票买卖【从 O(n) 到 O(1) 的优化解析】