当前位置: 首页 > news >正文

论文阅读笔记 | Qwen-VL:一个视觉语言大模型,通晓理解、定位、文本阅读等多种能力

论文阅读笔记 | Qwen-VL:一个视觉语言大模型,通晓理解、定位、文本阅读等多种能力

在这里插入图片描述

通义千问-VL论文阅读笔记:arXiv 2023.10 | Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond


Abstract

今天我们要深入解析的是来自阿里巴巴团队的重量级工作——Qwen-VL(通义千问-VL)。这不仅仅是一个简单的视觉语言模型,而是一个旨在感知和理解文本与图像的多功能系列模型。

  • 🚩 背景 (Background): 随着大语言模型(LLM)的兴起,如何赋予其处理图像等多模态信息的能力,成为前沿热点。然而,现有的开源视觉语言模型(LVLM)在性能和功能上仍有较大局限。
  • 🚩 方法 (Method): 团队以Qwen-LM(通义千问语言模型)为基座,通过精心设计的视觉感受器 (visual receptor)输入输出接口 (input-output interface)三阶段训练流程 (3-stage training pipeline) 以及高质量的多语言多模态语料库,成功赋予了模型强大的视觉能力。
  • 能力 (Capabilities): Qwen-VL系列模型的能力远超传统的图像描述和问答。通过引入图像-描述-边界框 (image-caption-box) 数据对,模型学会了视觉定位 (grounding)文本阅读 (text-reading) 等细粒度技能。
  • 成果 (Results): 最终产出的 Qwen-VL(预训练模型)和 Qwen-VL-Chat(对话模型)在各种视觉核心评测基准上,无论是零样本(zero-shot)还是少样本(few-shot)设置,都取得了同等模型规模下的新纪录 (SOTA)。特别是在真实世界对话评测中,Qwen-VL-Chat展现了超越现有视觉语言聊天机器人的卓越表现。

在这里插入图片描述

1 INTRODUCTION

近年来,大语言模型(LLMs)以其强大的文本理解和生成能力惊艳了世界,但它们天生“生活”在纯文本世界里,无法处理图像、视频等其他模态,应用范围因此受限。

为了打破这一壁垒,大量的大型视觉语言模型 (LVLMs) 应运而生。然而,目前的开源LVLMs普遍存在一些问题:

  • 训练和优化不足,与顶尖的闭源模型差距明显。
  • 感知粒度粗糙,大多只能对图像进行一个笼统的理解,缺乏对图中特定物体进行定位(object grounding)或读取图中文字(text reading)等细粒度感知能力。

正是在这样的背景下,Qwen-VL系列应运而生,旨在解决上述痛点。它的核心特性可以总结为以下几点:

  • 卓越性能 (Leading Performance): 在包括图像描述、问答、定位等一系列传统基准和新兴的对话基准上,性能全面领先。
  • 多语言支持 (Multi-lingual): 基于在中英文图文数据上的充分训练,模型天然支持流畅的中英文对话和多语言指令
  • 多图输入 (Multi-image): 训练中采用了任意交错的图文数据,使得Qwen-VL-Chat能够处理和比较多张图片输入,并理解它们之间的上下文关系。
  • 细粒度视觉理解 (Fine-grained Visual Understanding): 凭借高分辨率输入和细粒度的训练数据,Qwen-VL在定位、文本阅读和细粒度对话方面表现出极强的竞争力。

2 METHODOLOGY (方法论)

Qwen-VL的整体设计简洁而高效,我们来逐一拆解其核心构成。

2.1 Model Architecture (模型架构)

Qwen-VL的架构由三大核心组件构成(如表1所示),总参数量为9.6B。

Vision EncoderVL AdapterLLMTotal
1.9B0.08B7.7B9.6B

表1: Qwen-VL 模型参数详情

  1. 大语言模型 (Large Language Model): 基座采用了性能强大的 Qwen-7B 语言模型,这是模型强大理解和推理能力的源泉。
  2. 视觉编码器 (Visual Encoder): 采用了 OpenCLIPViT-bigG 模型。它负责将输入图片转换成一系列特征向量。
  3. 🚩 关键创新 - 位置感知的视觉-语言适配器 (Position-aware Vision-Language Adapter): 这是连接视觉和语言世界的关键桥梁。
    • 动机: ViT处理高分辨率图像时会产生非常长的特征序列,直接送入LLM会带来巨大的计算负担。
    • 设计: 引入了一个单层的交叉注意力模块 (cross-attention)。它使用一组可学习的查询向量 (learnable query embeddings)(数量固定为256个)来与ViT输出的图像特征进行交互,从而将长短不一的图像特征序列压缩成一个固定长度(256)的序列
    • 位置感知: 为了在压缩过程中不丢失对细粒度理解至关重要的位置信息,适配器在交叉注意力计算中巧妙地融入了2D绝对位置编码。这使得模型即便在压缩后也能感知到物体在图中的具体位置。
2.2 Inputs and Outputs (输入与输出)

为了支持丰富的多模态任务,Qwen-VL设计了一套特殊的输入输出格式。

  • 图像输入: 图像特征序列的首尾会添加特殊标记 <img></img>,以示区分。
  • 🚩 边界框输入输出 (Bounding Box I/O): 这是实现视觉定位能力的核心。
    • 格式化: 任何给定的边界框(bounding box)坐标都会被归一化到[0, 1000)范围内,并转换为一个固定的字符串格式:"(X_topleft,Y_topleft),(X_bottomright,Y_bottomright)"
    • 特殊标记:
      • <box></box> 用于包裹坐标字符串,告诉模型这是一个位置框。
      • <ref></ref> 用于包裹与该位置框对应的文本描述,从而将语言和空间位置精确关联

博主浅析: 这个VL Adapter的设计非常精妙,它用一个轻量级的模块(仅0.08B参数)解决了视觉特征与LLM对齐的核心难题,兼顾了效率性能。特别是位置编码的保留,是实现后续如“圈出图中的猫”这类细粒度任务的技术基石。


3 TRAINING (三阶段训练)

Qwen-VL的成功很大程度上归功于其精心设计的三阶段渐进式训练流程(如图3),每个阶段目标明确,层层递进。

在这里插入图片描述

图3: Qwen-VL 系列的训练流程

🚩 Stage 1: Pre-training (基础视觉-语言对齐)
  • 目标: 让模型建立基础的视觉理解能力,将视觉编码器与语言模型对齐。
  • 数据: 使用了海量的、从网络爬取的弱标签图文对(清洗后约14亿对)。
  • 训练细节:
    • 冻结LLM,只优化视觉编码器(ViT)VL Adapter
    • 输入图像分辨率为较低的 224x224,以提高训练效率。
    • 目标是根据图片预测对应的文本描述。
🚩 Stage 2: Multi-task Pre-training (多任务能力注入)
  • 目标: 在基础对齐之上,为模型注入更高级、更细粒度的多模态能力。
  • 数据: 引入了多种高质量、细粒度的VL标注数据,涵盖7大任务,包括:VQA(视觉问答)、Grounding(定位)、OCR(光学字符识别)、纯文本自回归等(如表3所示)。
  • 训练细节:
    • 解冻LLM,整个模型(ViT, Adapter, LLM)都参与训练。
    • 输入图像分辨率提升至 448x448,以捕捉更多图像细节,支持细粒度任务。
🚩 Stage 3: Supervised Finetuning (SFT, 对话与指令对齐)
  • 目标: 将预训练好的模型转化为一个能听懂人类指令、进行流畅对话的聊天机器人。
  • 产出: Qwen-VL-Chat 模型。
  • 数据: 构建了专门的多模态指令微调数据集,不仅包含常规的对话和推理,还特别加入了涉及定位和多图理解的对话数据。数据格式采用ChatML
  • 训练细节:
    • 冻结ViT,只微调LLMAdapter,使其更好地适应指令和对话风格。

思考题: 为什么采用这样分阶段的训练策略?每个阶段冻结/解冻不同组件的考量是什么?
博主见解: 这种渐进式策略非常符合认知逻辑。第一步,先让模型学会看图说话的基础;第二步,教它完成更复杂的“看图考试”,比如做选择题(VQA)、连线题(Grounding);第三步,训练它的沟通技巧,让它能以对话的形式灵活运用所学知识。分阶段冻结不同模块,既能在初期高效对齐视觉模块,又能保证在后续训练中不损害LLM强大的语言能力,是一种非常高效且稳健的训练范式。


4 EVALUATION (性能评测)

Qwen-VL在一系列广泛的评测基准上进行了全面评估,结果令人印象深刻。

Image Caption & General VQA (图像描述与通用视觉问答)
  • 图像描述: 在零样本Flickr30K评测上,Qwen-VL取得了85.8的CIDEr得分,达到了SOTA水平,甚至超越了参数量大得多的Flamingo-80B(如表4)。
  • 通用VQA: 在VQAv2、OKVQA、GQA等多个基准上,Qwen-VL的准确率也显著优于先前的通用模型。
Text-oriented VQA (面向文本的视觉问答)
  • ✅ 在需要理解图中文字的场景下,如TextVQA、DocVQA、ChartQA等,Qwen-VL的表现同样出色,大幅领先于同类模型(如表5)。这证明了其强大的OCR和文本理解能力。
Referring Expression Comprehension (指代表达式理解)
  • ⭐ 这是衡量模型细粒度定位能力的关键任务。在RefCOCO、RefCOCO+、RefCOCOg等数据集上,Qwen-VL都取得了顶尖的成绩,证明它能精确地根据文本描述在图中找到对应的物体(如表6)。
Few-shot Learning (少样本学习)
  • ⭐ 如图4所示,在OKVQA、TextVQA等任务中,Qwen-VL仅通过上下文中的几个示例(few-shot),性能就能大幅提升,甚至媲美参数量是其近10倍的80B模型,展现了极强的在情境中学习 (in-context learning) 的能力。

在这里插入图片描述

图4: Qwen-VL 与其他模型的少样本学习性能对比

Instruction Following (真实世界指令跟随)
  • Qwen-VL-Chat在模拟真实用户行为的TouchStone、SEED-Bench、MME等评测中表现出了压倒性优势(如表7)。
  • 特别是在TouchStone评测中,无论中文还是英文,Qwen-VL-Chat都远超其他LVLM,尤其中文能力优势巨大,这得益于其高质量的中文多模态数据。

个人见解: Qwen-VL的评测部分做得非常扎实、全面。它没有满足于在几个传统任务上刷分,而是覆盖了从基础感知到细粒度理解,再到真实世界对话的方方面面。这充分证明了Qwen-VL是一个真正的“多边形战士”,其能力的广度和深度都达到了新的高度。


5 RELATED WORK (相关工作)

视觉语言学习领域发展迅速。早期模型如OFA、CoCa等,致力于用统一的架构解决多任务。随着LLM的崛起,Flamingo、BLIP-2、LLaVA等模型开始探索将强大的预训练LLM与视觉模块相结合,取得了巨大成功。

而近期,Kosmos-2、Shikra等工作开始关注更细粒度的能力,如视觉定位。Qwen-VL正是在这个趋势上的集大成者,它成功地将图像描述、视觉问答、OCR、文档理解和视觉定位等多种能力无缝地集成到一个统一的模型中,并取得了卓越的性能。


6 CONCLUSION AND FUTURE WORK (结论与未来展望)

Conclusion

论文发布了Qwen-VL系列模型,这是一套开源、高性能、多功能的大型多模ल态模型。

  • 核心贡献: 在各项基准测试中超越了同类模型,并支持多语言对话、多图交错对话、中英文定位、以及细粒度识别等高级功能。
Future Work

团队规划了几个未来的发展方向:

  • 集成更多模态: 如语音(speech)和视频(video)。
  • 继续扩大规模: 扩大模型尺寸、训练数据和输入分辨率,以处理更复杂的多模态关系。
  • 增强生成能力: 拓展模型在多模态生成方面的能力,如生成高保真图像和流畅的语音。

博主点评与思考

Qwen-VL无疑是大型视觉语言模型领域的一个里程碑式的工作。

  • 技术突破: 其成功的核心在于简洁高效的架构设计(特别是位置感知的VL Adapter)和系统化的三阶段训练流程。这个流程确保了模型能力由浅入深、由粗到细的平稳构建。
  • 潜在局限: 虽然论文展示了强大的性能,但所有LVLM仍面临一些共同挑战,如:
    1. 多模态幻觉 (Multimodal Hallucination): 如何确保模型生成的内容既符合图像事实,又具有创造性,避免“一本正经地胡说八道”?
    2. 实时性: 当前模型的推理速度对于许多实时应用(如机器人、自动驾驶)来说仍然是一个挑战。
    3. 动态视频理解: 从静态图像理解扩展到复杂的动态视频理解,仍然有很长的路要走。
  • 行业影响: Qwen-VL的开源极大地推动了社区的发展,为研究者和开发者提供了一个能力极其全面且强大的基座模型,有望催生出更多富有创意的多模态应用。它向我们展示了通往更通用、更强大的视觉智能助手的清晰路径。
http://www.lryc.cn/news/571694.html

相关文章:

  • 基于 Python Django 框架的在线租房管理系统设计与实现
  • ROS2 笔记汇总(2) 通信接口
  • 阿里云中间件:解锁云端应用的强大引擎
  • C++之多态
  • Flutter 学习 之 const
  • window显示驱动开发—流输出阶段
  • 解决你的100个问题——梦想
  • 正态分布:AI大模型中的概率统计基石
  • 我的256天创作纪念日
  • 【5G通信基础】UCI上行链路控制信息简介
  • 义乌购平台店铺商品接口开发指南
  • TIGAR 如何逆转多囊卵巢综合征的困局【AbMole】
  • 分发平台是一个专注于APP应用分发
  • 《Effective Python》第九章 并发与并行——使用 Queue 实现并发重构
  • 跟着AI学习C# Day20
  • SKUA-GOCAD入门教程-第八节 线的创建与编辑5
  • Web攻防-XSS跨站浏览器UXSS突变MXSSVueReactElectron框架JQuery库写法和版本
  • ubuntu下python版本升级导致pyqt不能正常运行解决
  • CppCon 2017 学习:C++ atomics:from basic to advanced. What do they do?
  • Java大模型开发入门 (15/15):总结与展望 - Java开发者的AI进阶之路
  • 单例模式:全局唯一实例的设计艺术
  • web3.js v4.x 模块架构
  • linux618 NFS web.cn NFS.cn backup.cn
  • 亚矩阵云手机+Whatnot:直播电商的自动化增长引擎
  • Linux lsof 命令详解+实例
  • 【Python与生活】如何实现一个条形码检测算法?
  • IEEE RAL 双臂机器人三连抓估计物体状态 无需特制夹爪或视觉相机 - 大阪大学万伟伟老师团队
  • PCL 四元数转轴角
  • 【学习笔记】2.1注意力机制
  • C#开发MES管理系统源码工业生产线数据采集WPF上位机产线执行系统源码