当前位置：首页 > news >正文

Rethinking overlooked aspects in vision-language models

news 2025/8/12 10:56:39

探讨多模态视觉语言模型的一些有趣结论欢迎关注 CVHub！https://mp.weixin.qq.com/s/zouNu-g-33_7JoX3Uscxtw1.Introduction

多模态模型架构上的变化不大，数据的差距比较大，输入分辨率和输入llm的视觉token大小是比较关键的，适配器，VIT和语言模型则不是那么关键。InternVL-1.5，Qwen-VL-Max和DeepSeek-VL利用了Laion-5B和COYO这样的大规模预训练数据，数据量达到10亿，InternVL-1.5将sft划分为11个子类，并为每个子类收集相应的开源数据，对于预训练数据，LLM存在一个scaling law，但是在LVM中尚未发现。LLaVA在60多万数据上预训练，15w数据上sft效果就很好了。

http://www.lryc.cn/news/364307.html

相关文章：

【漯河市人才交流中心_登录安全分析报告-Ajax泄漏滑动距离导致安全隐患】

C语言—字符函数和字符串函数

爬山算法的详细介绍

硕士课程可穿戴设备之作业一

测试记录3：WLS2运行Linux界面

好用软件推荐

王学岗鸿蒙开发(北向)——————(二)TS基本语法详解

【网络协议 | HTTP】HTTP总结与全梳理（一） —— HTTP协议超详细教程

java基础选择题--11

欲除烦恼须无我，各有前因莫羡人

Vue的APP实现下载文件功能，并将文件保存到手机中

泛微开发修炼之旅--07通过后端代码实现创建并发送待办、源码及示例

轻松搭建AI应用的三个大模型技术路线

Vue01-vue的简介

leetcode455.分发饼干、376. 摆动序列、53. 最大子序和

JVM的内存结构

轻量管理内核复杂级别的项目

【wiki知识库】05.分类管理模块--后端SpringBoot模块

资源目录与云SSO

ChatGPT AI专题资料合集【65GB】

Linux 编译安装python

2025 QS 世界大学排名公布，北大清华跻身全球前20

clickhouse（十五、存储优化实践）

ubuntu下搭建Supervisor

在HTML和CSS当中运用显示隐藏

Java基础27，28（多线程,ThreadMethod ,线程安全问题,线程状态,线程池）

C#WPF数字大屏项目实战04--设备运行状态

IntelliJ IDEA安装

铸铁机械5G智能工厂工业物联数字孪生平台，推进制造业数字化转型

rocketmq No route info of this topic 问题排查