当前位置: 首页 > news >正文

Rethinking overlooked aspects in vision-language models

探讨多模态视觉语言模型的一些有趣结论欢迎关注 CVHub!icon-default.png?t=N7T8https://mp.weixin.qq.com/s/zouNu-g-33_7JoX3Uscxtw1.Introduction

        多模态模型架构上的变化不大,数据的差距比较大,输入分辨率和输入llm的视觉token大小是比较关键的,适配器,VIT和语言模型则不是那么关键。InternVL-1.5,Qwen-VL-Max和DeepSeek-VL利用了Laion-5B和COYO这样的大规模预训练数据,数据量达到10亿,InternVL-1.5将sft划分为11个子类,并为每个子类收集相应的开源数据,对于预训练数据,LLM存在一个scaling law,但是在LVM中尚未发现。LLaVA在60多万数据上预训练,15w数据上sft效果就很好了。

http://www.lryc.cn/news/364307.html

相关文章:

  • 【漯河市人才交流中心_登录安全分析报告-Ajax泄漏滑动距离导致安全隐患】
  • C语言—字符函数和字符串函数
  • 爬山算法的详细介绍
  • 硕士课程 可穿戴设备之作业一
  • 测试记录3:WLS2运行Linux界面
  • 好用软件推荐
  • 王学岗鸿蒙开发(北向)——————(二)TS基本语法详解
  • 【网络协议 | HTTP】HTTP总结与全梳理(一) —— HTTP协议超详细教程
  • java基础选择题--11
  • 欲除烦恼须无我,各有前因莫羡人
  • Vue的APP实现下载文件功能,并将文件保存到手机中
  • 泛微开发修炼之旅--07通过后端代码实现创建并发送待办、源码及示例
  • 轻松搭建AI应用的三个大模型技术路线
  • Vue01-vue的简介
  • leetcode455.分发饼干、376. 摆动序列、53. 最大子序和
  • JVM的内存结构
  • 轻量管理内核复杂级别的项目
  • 【wiki知识库】05.分类管理模块--后端SpringBoot模块
  • 资源目录与云SSO
  • ChatGPT AI专题资料合集【65GB】
  • Linux 编译安装python
  • 2025 QS 世界大学排名公布,北大清华跻身全球前20
  • clickhouse(十五、存储优化实践)
  • ubuntu下搭建Supervisor
  • 在HTML和CSS当中运用显示隐藏
  • Java基础27,28(多线程,ThreadMethod ,线程安全问题,线程状态,线程池)
  • C#WPF数字大屏项目实战04--设备运行状态
  • IntelliJ IDEA安装
  • 铸铁机械5G智能工厂工业物联数字孪生平台,推进制造业数字化转型
  • rocketmq No route info of this topic 问题排查