当前位置: 首页 > news >正文

Cross-modal Information Flow in Multimodal Large Language Models

1.Introduction

图 1:展示 MLLMs 在解决多模态任务时的内部机制。从底层到顶层,模型首先将整个图像中的通用视觉信息传播到语言隐藏表示中;接着,与回答问题相关的选定视觉信息被转移到语言表示中;最后,问题隐藏表示中的集成多模态信息流向最后位置,以促进最终预测。此外,答案最初以小写形式生成,然后将首字母转换为大写。

LLM根据视觉和语言输入生成结果,其中图像编码器提取的视觉表示在输入序列中的词嵌入之前。通过定位和分析不同模态间跨层的信息流来研究他们之间的交互,我们旨在通过选择性的抑制对应视觉和语言输入的标记之间的特定注意力模式,并通过观察答案预测性能的响应变化。在采用transformer解码器架构的现在自回归mllm中,注意力层是唯一能够实现对应不同输入位置的隐藏表示之间通信的模块,因此,为抑制跨模态信息流,我们采用注意力移除方法,使用该方法在特定的transformer层阻断连接不同类型的隐藏表示的注意力边。

1.整体图像的视觉信息如何与问题中的语言信息融合?2.更有针对性的视觉信息,即与回答问题直接相关的特定图像区域如何与问题的语言信息整合?3.输入的语言和视觉

http://www.lryc.cn/news/578730.html

相关文章:

  • gateway白名单存储nacos,改成存储数据库
  • Wisdom SSH 与宝塔面板:深度对比剖析
  • wrap+aria2c提高下载速度
  • 【仿muduo库实现并发服务器】LoopThreadPool模块
  • C# WPF + Helix Toolkit 实战:用两种方式打造“六面异色立方体”
  • 锂离子电池均衡拓扑综述
  • Bootstrap 安装使用教程
  • tree 命令集成到 Git Bash:可视化目录结构的指南
  • Cereal中支持QString、QVector、QList、QMap
  • web开发,旅游景点管理系统推荐算法版本demo,基于asp.net,mvc,c#,sql server
  • 每日八股文7.1
  • Claude Code 全面指南:从安装到高效开发的实用教程
  • React安装使用教程
  • 「Java流程控制」do……while循环结构
  • 吸烟行为检测数据集介绍-2,108张图片 公共场所禁烟监控 健康行为研究
  • 【Java编程动手学】Java的“三体”世界:JVM、JRE、JDK的共生之道
  • CppCon 2018 学习:EMULATING THE NINTENDO 3DS
  • 手工部署与自动化部署场景模拟及参考项目
  • InnoDB索引
  • 胖喵安初 (azi) Android 应用初始化库 (类似 Termux)
  • android车载开发之HVAC
  • Redis-渐进式遍历
  • 算法-每日一题(DAY12)最长和谐子序列
  • 使用D435i运行ORB-SLAM3时,纯视觉模式与视觉-惯性模式的位姿矩阵定义问题探讨
  • CentOS系统新手指导手册
  • 半导体和PN结
  • JavaEE线程概念
  • 人工智能在人力资源领域的深度变革:从技术适配到价值重构
  • AngularJS 安装使用教程
  • 转录组分析流程(七):GSEA分析