当前位置: 首页 > news >正文

多模态:MiniGPT-4

多模态:MiniGPT-4

  • Introduction
  • Method
  • limitation
  • 参考

Introduction

GPT-4具有很好的多模态能力,但是不开源。大模型最近发展的也十分迅速,大模型的涌现能力可以很好的迁移到各类任务,于是作者猜想这种能力可不可以应用到多模态模型,让它具有与GPT-4类似的能力。

为了实现这个假设,作者采用了号称具有ChatGPT百分之90能力的Vicuna13B作为语言模型,采用与BLIP-2相同的视觉模块(ViT-G/14的视觉Encoder和Q-former),然后在用linear继续align视觉特征与文字特征。
然后在raw 的image- text上面训练,作者发现还不能够让他成为一个具有视觉能力的chat bot,于是作者标注了3500个高质量的数据对,然后微调。

在实验中,发现了与GPT-4类似的视觉能力。

Method

通过上述的介绍,可以很清晰的看懂下图模型结构:
在这里插入图片描述
其中ViT、Q-Former、LLM均采用预训练模型,只训练linear layer。

其中训练分为两个阶段,第一阶段为初始化阶段,在大量的 raw text-image 训练学习视觉-文本先验知识。 大约5m个数据对,迭代了20000steps,batch=256.

训练完成后,作者发现,效果并没有达到一个具有视觉能力的对话机器的人水平,会出现 不能生成连贯的语句、重复句子、单词、不相关的内容等。。。
作者指出这种情况与当时的GPT-3很像,GPT-3通过SFT,RLHF才进化成了GPT-3.5,获得了可以与人类对齐的能力。

于是作者想继续对它执行SFT,但是image-text 数据对的获取难度要比指令数据大的多。

在初始化阶段,作者也为模型做了一个template,
在这里插入图片描述
其中Image feature 就是经过线性层的图像特征,为了识别不完整的句子作者检查token是否大于80,如果小于80,在第二次输出结尾接上一个模版,
也就是template1+output1+template2
在这里插入图片描述
完成训练后,作者在此随机选取5000个数据对,生成数据。

然后作者又提出了Data post- processing 过程,是指通过ChatGPT去精修之前5000个图像的文本。
prompt:
在这里插入图片描述
通过上述操作,获取了3500-5000张高质量数据对。

然后通过这些数据执行SFT阶段。
template:
在这里插入图片描述

limitation

  1. 集成了LLM的缺点,容易产生幻觉。(胡编乱造)
  2. sft数据不够。
  3. 冻结VIT可能会缺乏一些必要的特征。
  4. 只训练一个linear 可能不够。

参考

https://arxiv.org/pdf/2304.10592.pdf

http://www.lryc.cn/news/67855.html

相关文章:

  • 5年时间里,自动化测试于我带来的意义,希望你也能早点知道
  • 【MyBaits】SpringBoot整合MyBatis之动态SQL
  • 涅槃重生,BitKeep如何闯出千万用户新起点
  • 绝地求生 压枪python版
  • 麒麟操作V10SP1系统systemd目标单元
  • python基于LBP+SVM开发构建基于fer2013数据集的人脸表情识别模型是种什么体验,让结果告诉你...
  • antd——实现不分页的表格前端排序功能——基础积累
  • 案例11:Java超市管理系统设计与实现开题报告
  • @JsonAlias 和 @JsonProperty的使用
  • Grafana系列-统一展示-8-ElasticSearch日志快速搜索仪表板
  • 【K8s】openEuler23操作系统安装Docker和Kubernetes
  • 异常数据检测 | Python实现ADTK时间序列异常数据检测
  • 软件测试之jmeter性能测试让你打开一个全新的世界
  • Redis数据结构——动态字符串、Dict、ZipList
  • ipad可以用别的品牌的手写笔吗?便宜的ipad电容笔
  • 【数据库】关于SQL SERVER的排序规则的问题分析
  • 算法修炼之练气篇——练气十三层
  • ChatGPT:AI不取代程序员,只取代的不掌握AI的程序员
  • 数字革命下的产品:百数十年变迁的启示与思考。
  • 部门新来一00后,给我卷崩溃了...
  • 使用Spring Boot和Docker构建可伸缩的微服务架构,应对增长的业务需求
  • 计算机组成原理基础练习题第四章
  • 浅谈Gradle构建工具
  • 如何获取和制作免费的icon图标素材
  • 【MySQL】MySQL索引--聚簇索引和非聚簇索引的区别
  • 如何使用 SVG.js 中的一些相关方法来创建、设置和操作 image 元素
  • 展会进行时!5月16-18日箱讯与您相约中国航交会
  • CMake:递归检查并拷贝所有需要的DLL文件
  • python常见问题及解决方案
  • JUC之Synchronized与Lock