当前位置: 首页 > news >正文

参数小,性能强!开源多模态模型—TinyGPT-V

安徽工程大学、南洋理工大学和理海大学的研究人员开源了多模态大模型——TinyGPT-V。

TinyGPT-V以微软开源的Phi-2作为基础大语言模型,同时使用了视觉模型EVA实现多模态能力。尽管TinyGPT-V只有28亿参数,但其性能可以媲美上百亿参数的模型

此外,TinyGPT-V训练只需要24G GPU就能完成,不需要A100、H100那些高端显卡来训练。

所以,非常适用于中小型企业和个人开发者,同时可以部署在手机、笔记本等移动设备上。

开源地址:https://github.com/DLYuanGod/TinyGPT-V

论文地址:https://arxiv.org/abs/2312.16862

图片

TinyGPT-V主要架构

TinyGPT-V主要由大语言模型Phi-2、视觉编码器和线性投影层三大块组成。

开发人员选择了微软最新开源的Phi-2,作为TinyGPT-V的基础大语言模型。Phi-2只有27亿参数,但理解和推理能力非常强,在多项复杂基准测试中体现出与大130亿参数模型接近或者超过的效果。

视觉编码器采用了与MiniGPT-v2相同的架构,基于ViT的EVA模型。这是一个预训练好的视觉基础模型,在整个TinyGPT-V的训练过程中保持冻结状态。

图片

线性投影层的作用则是,将视觉编码器提取的图像特征嵌入到大语言模型中,使大语言模型能够理解图像信息

TinyGPT-V中的第一层线性投影层采用了来自BLIP-2的Q-Former结构,这样可以最大程度复用BLIP-2的预训练成果。

第二层线性投影层用新的高斯分布初始化,目的是弥补前一层输出和语言模型嵌入层之间的维度差距。

TinyGPT-V训练流程

TinyGPT-V的训练经过了四个阶段,每个阶段所使用的数据集及实验流程各不相同。

第一阶段是热身训练,目的是使Phi-2模型适应图像模式的输入。这个阶段使用的训练数据包含Conceptual Caption、SBU和LAION三个数据集,总计约500万幅图像和对应的描述文本。

第二阶段进行预训练,目的是进一步减少图像文本对上的损失。这个阶段同样使用第一阶段的Conceptual Caption、SBU和LAION数据集。实验设置了4个阶段,每个阶段有5000个迭代。

图片

第三阶段进行指令调优,使用MiniGPT-4和LLaVA的一些带指令的图像文本对进行模型训练,如“描述这张图片的内容”。

第四阶段进行多任务调优。这一阶段使用了更为复杂和丰富的多模态数据集,如LLaVA中复杂语义对齐的句子、Flickr30K中的物体解析数据集、多任务混合语料、纯文本语料等。

同时采用了与第二阶段类似的学习率策略,最终使得损失从2.720下降到了1.399。

为了测试TinyGPT-V的性能,研究人员从多个角度评估了在视觉问答、视空间推理、图片字幕生成等多个视觉语言任务上的表现。

图片

结果显示,TinyGPT-V的参数很小,性能却非常强悍,例如,在VSR空间推理任务上,以53.2%的准确率,超过所有参与测试的模型。

本文素材来源TinyGPT-V论文,如有侵权请联系删除

END

http://www.lryc.cn/news/278345.html

相关文章:

  • C++系列十五:字符串
  • 你了解计算机网络的发展历史吗?
  • Qt/QML编程学习之心得:Linux下Thread线程创建(26)
  • 如何在数学建模竞赛中稳定拿奖
  • Camunda Sub Process
  • golang 生成一年的周数
  • 植物大战僵尸-C语言搭建童年游戏(easyx)
  • c++学习:容器list实战(获取目录返回容器list)
  • 【Linux】Linux系统编程——Linux目录结构
  • 卫星时钟服务器、NTP时钟服务器、GPS北斗网络时钟系统
  • 【Kafka-3.x-教程】-【三】Kafka-Broker、Kafka-Kraft
  • 全网第一篇教你怎么总结多线程知识
  • Mondo备份linux操作系统为iso镜像 —— 筑梦之路
  • 《微信小程序开发从入门到实战》学习七十八
  • React 入门 - 05(响应式与事件绑定)
  • 【APACHE】的认识和基础配置参数
  • 英飞凌TC3xx之一起认识GTM(九)GTM相关知识简述及应用实例(CMU,CCM,TBU,MON)
  • STL之list
  • 【C++】C++11中的常见语法(上)
  • Unity 踩坑记录 AnyState 切换动画执行两次
  • 使用脚本把springboot程序部署到k8s上
  • 使用valgrind 分析缓存命中
  • leetcode-二进制求和
  • 数据采集卡:16通道16位250KHz AD,支持单点采集,程控增益
  • 物联网通讯协议NB-lot和LoRa差异分析
  • 回归预测 | Matlab基于SMA+WOA+SFO-LSSVM多输入单输出回归预测
  • Redis内存策略:「过期Key删除策略」+ 「内存淘汰策略」
  • el-table 个体行绑定点击事件时 表格中有el-radio和el-checkbox 点击触发两次事件处理方法
  • CentOs 环境下使用 Docker 部署 Ruoyi-Vue
  • axios 后端不配和添加api