当前位置: 首页 > news >正文

Efficient Multimodal learning from data-centric perspective

[MLLM-小模型推荐-2024.3.18] Bunny 以数据的眼光看问题 - 知乎近期几天会梳理下多模态小模型相关的论文,做个汇总。为了能够每天更新点啥,先穿插一些小模型算法。等到全部算法都梳理完成后,再发布一篇最终汇总版本的。 3.15 号 BAAI 发布了 Bunny-2B 多模态小模型的专注于中…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/687645412

1.Bunny:A family of lightweight multimodal models

1.1 Architecture and backbone

三个主要的模块,llm、vision encoder、cross modality projector。llm包括phi 1.3B,StableLM2 1.6B,phi 2.7B,vision encoder包括SigLIP,EVA-CLIP,都是4.28B,cross modality projector,参照llava,使用带有gelu激活函数的两层mlp。

1.2 Training data construction

bunny-pretrain-laion-2M和bunny-695k,用于预训练和指令微调。对多模态调优可能会损害其从预训练语言模型中继承的认知能力,可能的原因是多模态训练数据中的信息量较少,且多样性不足,在调优数据集中保持一定量的高质量纯文本数据可以缓解这个问题。

1.3 training procedure

两阶段训练,1.将预训练的视觉编码器的视觉embedding与语言模型的文本embedding对齐,2.进行视觉指令微调。都采用交叉熵损失函数进行next token prediction。在预训练阶段,只优化跨模态projector一个epoch,在微调阶段,用lora对跨模态projector和llm进行一个epoch的训练。

2.Experiment

http://www.lryc.cn/news/339551.html

相关文章:

  • ubuntu下交叉编译ffmpeg到目标架构为aarch架构的系统
  • 【Linux C | 多线程编程】线程同步 | 条件变量(万字详解)
  • 【高阶数据结构】哈希表 {哈希函数和哈希冲突;哈希冲突的解决方案:开放地址法,拉链法;红黑树结构 VS 哈希结构}
  • 嵌入式之计算机网络篇(七)
  • C++|运算符重载(1)|为什么要进行运算符重载
  • 【ARM 裸机】汇编 led 驱动之烧写 bin 文件
  • 计算机网络之CIDR
  • 【无标题】系统思考—智慧共赢座谈会
  • 【Linux C | 多线程编程】线程同步 | 互斥量(互斥锁)介绍和使用
  • mid_360建图和定位
  • ThreadX在STM32上的移植:通用启动文件tx_initialize_low_level.s
  • 【python实战】游戏开发——恐龙跳跃小游戏
  • 成都百洲文化传媒有限公司电商领域的新锐力量
  • 1042: 中缀表达式转换为后缀表达式
  • 避免上下文切换--Linux原子函数
  • 塔面板php7.37.4版本不支持ZipArchive手工安装扩展方法
  • go语言并发实战——日志收集系统(一) 项目前言
  • Android Studio 之 Intent及其参数传递
  • 【黑马头条】-day06自媒体文章上下架-Kafka
  • 非线性特征曲线线性化插补器(CODESYS 完整ST代码)
  • vue3从精通到入门4:diff算法的实现
  • (三)C++自制植物大战僵尸游戏项目结构说明
  • 动态规划专练( 279.完全平方数)
  • 京东商品详情API接口(商品属性丨sku价格丨详情图丨标题等数据)
  • Springboot+Vue项目-基于Java+MySQL的校园周边美食探索及分享平台系统(附源码+演示视频+LW)
  • 折叠面板组件(vue)
  • 【Canvas技法】蓝底金字北岛诗节选(径向渐变色、文字阴影示例)
  • 【大语言模型】基础:TF-IDF
  • [开发日志系列]PDF图书在线系统20240415
  • 蓝桥杯 — — 纯质数