当前位置: 首页 > news >正文

论文笔记:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

2024 10月的arxiv

1 主要idea

  • 针对多模态大模型(如LLaVA),提出了一系列高效的剪枝策略
    • 在显著降低计算开销(多达 88%)的同时,保持了模型在多模态任务中的性能表现

2 目前的问题

  • 与文本 token 相比,视觉 token 的数量往往更为庞大
    • 在 LLaVA 模型中,处理一张图像涉及超过 500 个视觉 token,而对应的文本 token 只有数十个
      • ——>计算效率低下
      • ——>视觉数据固有的空间稀疏性导致许多计算是冗余的
        • 大部分视觉 token 之间的交互权重很低,仅有邻近 token 之间的交互是关键
        •  在深层模型中,视觉 token 对文本生成的影响逐渐减弱
  • 目前的优化策略通常以牺牲模型性能为代价
    • ——>如何在保持性能的同时显著降低计算复杂度,仍是一个急需解决的

3 论文方法

4 实验

效果没怎么降,FLOP降多了

http://www.lryc.cn/news/502366.html

相关文章:

  • 软考高级架构 —— 10.6 大型网站系统架构演化实例 + 软件架构维护
  • 2024美赛数学建模C题:网球比赛中的动量,用马尔可夫链求解!详细分析
  • 23种设计模式之状态模式
  • Elasticsearch Serverless 中的数据流自动分片
  • YOLOv10改进,YOLOv10添加U-Netv2分割网络中SDI信息融合模块+GSConv卷积,助力小目标
  • xshell连接虚拟机,更换网络模式:NAT->桥接模式
  • sql的where条件中使用case when
  • MacOS 上以源码形式安装 MySQL 5.7
  • MySQL 事务隔离级别详解
  • C语言——高精度问题
  • aippt:AI 智能生成 PPT 的开源项目
  • 【Qt之·类QSettings·参数保存】
  • location重定向和nginx代理
  • iptables详解
  • Edge SCDN深度解析,边缘安全加速的创新实践
  • solidworks常见问题已解决
  • vCenter开启HA报错
  • 在 Ubuntu 中 make 是否是系统自带的?怎么样查看Linux系统中是否有make?
  • js:我要在template中v-for循环遍历这个centrerTopdata,我希望自循环前面三个就可以了怎么写
  • 前端使用 Cursor 的最佳助手 - PromptCoder
  • 深入了解 Spring IOC,AOP 两大核心思想
  • QT从入门到精通——Qlabel介绍与使用
  • 华为HarmonyOS NEXT 原生应用开发:鸿蒙中组件的组件状态管理、组件通信 组件状态管理小案例(好友录)!
  • node.js 环境配置
  • 高并发数据采集场景下Nginx代理Netty服务的优化配置
  • 【C++算法】40.模拟_N 字形变换
  • 【云计算】虚拟化技术
  • 手机租赁系统开发指南一站式服务流程解析
  • 【机器学习】—时序数据分析:机器学习与深度学习在预测、金融、气象等领域的应用
  • OBS + SRS:打造专业级直播环境的入门指南