当前位置：首页 > news >正文

论文阅读笔记 | Qwen-VL：一个视觉语言大模型，通晓理解、定位、文本阅读等多种能力

news 2025/9/15 7:45:17

论文阅读笔记 | Qwen-VL：一个视觉语言大模型，通晓理解、定位、文本阅读等多种能力

在这里插入图片描述

通义千问-VL论文阅读笔记：arXiv 2023.10 | Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

Abstract

今天我们要深入解析的是来自阿里巴巴团队的重量级工作——Qwen-VL（通义千问-VL）。这不仅仅是一个简单的视觉语言模型，而是一个旨在感知和理解文本与图像的多功能系列模型。

🚩 背景 (Background): 随着大语言模型（LLM）的兴起，如何赋予其处理图像等多模态信息的能力，成为前沿热点。然而，现有的开源视觉语言模型（LVLM）在性能和功能上仍有较大局限。
🚩 方法 (Method): 团队以Qwen-LM（通义千问语言模型）为基座，通过精心设计的视觉感受器 (visual receptor)、输入输出接口 (input-output interface)、三阶段训练流程 (3-stage training pipeline) 以及高质量的多语言多模态语料库，成功赋予了模型强大的视觉能力。
✅ 能力 (Capabilities): Qwen-VL系列模型的能力远超传统的图像描述和问答。通过引入图像-描述-边界框 (image-caption-box) 数据对，模型学会了视觉定位 (grounding) 和文本阅读 (text-reading) 等细粒度技能。
⭐ 成果 (Results): 最终产出的 Qwen-VL（预训练模型）和 Qwen-VL-Chat（对话模型）在各种视觉核心评测基准上，无论是零样本（zero-shot）还是少样本（few-shot）设置，都取得了同等模型规模下的新纪录 (SOTA)。特别是在真实世界对话评测中，Qwen-VL-Chat展现了超越现有视觉语言聊天机器人的卓越表现。

在这里插入图片描述

1 INTRODUCTION

近年来，大语言模型（LLMs）以其强大的文本理解和生成能力惊艳了世界，但它们天生“生活”在纯文本世界里，无法处理图像、视频等其他模态，应用范围因此受限。

为了打破这一壁垒，大量的大型视觉语言模型 (LVLMs) 应运而生。然而，目前的开源LVLMs普遍存在一些问题：

训练和优化不足，与顶尖的闭源模型差距明显。
感知粒度粗糙，大多只能对图像进行一个笼统的理解，缺乏对图中特定物体进行定位（object grounding）或读取图中文字（text reading）等细粒度感知能力。

正是在这样的背景下，Qwen-VL系列应运而生，旨在解决上述痛点。它的核心特性可以总结为以下几点：

⭐ 卓越性能 (Leading Performance): 在包括图像描述、问答、定位等一系列传统基准和新兴的对话基准上，性能全面领先。
多语言支持 (Multi-lingual): 基于在中英文图文数据上的充分训练，模型天然支持流畅的中英文对话和多语言指令。
多图输入 (Multi-image): 训练中采用了任意交错的图文数据，使得Qwen-VL-Chat能够处理和比较多张图片输入，并理解它们之间的上下文关系。
细粒度视觉理解 (Fine-grained Visual Understanding): 凭借高分辨率输入和细粒度的训练数据，Qwen-VL在定位、文本阅读和细粒度对话方面表现出极强的竞争力。

2 METHODOLOGY (方法论)

Qwen-VL的整体设计简洁而高效，我们来逐一拆解其核心构成。

2.1 Model Architecture (模型架构)

Qwen-VL的架构由三大核心组件构成（如表1所示），总参数量为9.6B。

Vision Encoder	VL Adapter	LLM	Total
1.9B	0.08B	7.7B	9.6B

表1: Qwen-VL 模型参数详情

大语言模型 (Large Language Model): 基座采用了性能强大的 Qwen-7B 语言模型，这是模型强大理解和推理能力的源泉。
视觉编码器 (Visual Encoder): 采用了 OpenCLIP 的 ViT-bigG 模型。它负责将输入图片转换成一系列特征向量。
🚩 关键创新 - 位置感知的视觉-语言适配器 (Position-aware Vision-Language Adapter): 这是连接视觉和语言世界的关键桥梁。
- 动机: ViT处理高分辨率图像时会产生非常长的特征序列，直接送入LLM会带来巨大的计算负担。
- 设计: 引入了一个单层的交叉注意力模块 (cross-attention)。它使用一组可学习的查询向量 (learnable query embeddings)（数量固定为256个）来与ViT输出的图像特征进行交互，从而将长短不一的图像特征序列压缩成一个固定长度（256）的序列。
- 位置感知: 为了在压缩过程中不丢失对细粒度理解至关重要的位置信息，适配器在交叉注意力计算中巧妙地融入了2D绝对位置编码。这使得模型即便在压缩后也能感知到物体在图中的具体位置。

2.2 Inputs and Outputs (输入与输出)

为了支持丰富的多模态任务，Qwen-VL设计了一套特殊的输入输出格式。

图像输入: 图像特征序列的首尾会添加特殊标记 <img> 和 </img>，以示区分。
🚩 边界框输入输出 (Bounding Box I/O): 这是实现视觉定位能力的核心。
- 格式化: 任何给定的边界框（bounding box）坐标都会被归一化到[0, 1000)范围内，并转换为一个固定的字符串格式："(X_topleft,Y_topleft),(X_bottomright,Y_bottomright)"。
- 特殊标记:
  - <box> 和 </box> 用于包裹坐标字符串，告诉模型这是一个位置框。
  - <ref> 和 </ref> 用于包裹与该位置框对应的文本描述，从而将语言和空间位置精确关联。

博主浅析: 这个VL Adapter的设计非常精妙，它用一个轻量级的模块（仅0.08B参数）解决了视觉特征与LLM对齐的核心难题，兼顾了效率和性能。特别是位置编码的保留，是实现后续如“圈出图中的猫”这类细粒度任务的技术基石。

3 TRAINING (三阶段训练)

Qwen-VL的成功很大程度上归功于其精心设计的三阶段渐进式训练流程（如图3），每个阶段目标明确，层层递进。

在这里插入图片描述

图3: Qwen-VL 系列的训练流程

🚩 Stage 1: Pre-training (基础视觉-语言对齐)

目标: 让模型建立基础的视觉理解能力，将视觉编码器与语言模型对齐。
数据: 使用了海量的、从网络爬取的弱标签图文对（清洗后约14亿对）。
训练细节:
- 冻结LLM，只优化视觉编码器（ViT）和VL Adapter。
- 输入图像分辨率为较低的 224x224，以提高训练效率。
- 目标是根据图片预测对应的文本描述。

🚩 Stage 2: Multi-task Pre-training (多任务能力注入)

目标: 在基础对齐之上，为模型注入更高级、更细粒度的多模态能力。
数据: 引入了多种高质量、细粒度的VL标注数据，涵盖7大任务，包括：VQA（视觉问答）、Grounding（定位）、OCR（光学字符识别）、纯文本自回归等（如表3所示）。
训练细节:
- 解冻LLM，整个模型（ViT, Adapter, LLM）都参与训练。
- 输入图像分辨率提升至 448x448，以捕捉更多图像细节，支持细粒度任务。

🚩 Stage 3: Supervised Finetuning (SFT, 对话与指令对齐)

目标: 将预训练好的模型转化为一个能听懂人类指令、进行流畅对话的聊天机器人。
产出: Qwen-VL-Chat 模型。
数据: 构建了专门的多模态指令微调数据集，不仅包含常规的对话和推理，还特别加入了涉及定位和多图理解的对话数据。数据格式采用ChatML。
训练细节:
- 冻结ViT，只微调LLM和Adapter，使其更好地适应指令和对话风格。

思考题: 为什么采用这样分阶段的训练策略？每个阶段冻结/解冻不同组件的考量是什么？
博主见解: 这种渐进式策略非常符合认知逻辑。第一步，先让模型学会看图说话的基础；第二步，教它完成更复杂的“看图考试”，比如做选择题（VQA）、连线题（Grounding）；第三步，训练它的沟通技巧，让它能以对话的形式灵活运用所学知识。分阶段冻结不同模块，既能在初期高效对齐视觉模块，又能保证在后续训练中不损害LLM强大的语言能力，是一种非常高效且稳健的训练范式。

4 EVALUATION (性能评测)

Qwen-VL在一系列广泛的评测基准上进行了全面评估，结果令人印象深刻。

Image Caption & General VQA (图像描述与通用视觉问答)

✅ 图像描述: 在零样本Flickr30K评测上，Qwen-VL取得了85.8的CIDEr得分，达到了SOTA水平，甚至超越了参数量大得多的Flamingo-80B（如表4）。
✅ 通用VQA: 在VQAv2、OKVQA、GQA等多个基准上，Qwen-VL的准确率也显著优于先前的通用模型。

Text-oriented VQA (面向文本的视觉问答)

✅ 在需要理解图中文字的场景下，如TextVQA、DocVQA、ChartQA等，Qwen-VL的表现同样出色，大幅领先于同类模型（如表5）。这证明了其强大的OCR和文本理解能力。

Referring Expression Comprehension (指代表达式理解)

⭐ 这是衡量模型细粒度定位能力的关键任务。在RefCOCO、RefCOCO+、RefCOCOg等数据集上，Qwen-VL都取得了顶尖的成绩，证明它能精确地根据文本描述在图中找到对应的物体（如表6）。

Few-shot Learning (少样本学习)

⭐ 如图4所示，在OKVQA、TextVQA等任务中，Qwen-VL仅通过上下文中的几个示例（few-shot），性能就能大幅提升，甚至媲美参数量是其近10倍的80B模型，展现了极强的在情境中学习 (in-context learning) 的能力。

在这里插入图片描述

图4: Qwen-VL 与其他模型的少样本学习性能对比

Instruction Following (真实世界指令跟随)

⭐ Qwen-VL-Chat在模拟真实用户行为的TouchStone、SEED-Bench、MME等评测中表现出了压倒性优势（如表7）。
特别是在TouchStone评测中，无论中文还是英文，Qwen-VL-Chat都远超其他LVLM，尤其中文能力优势巨大，这得益于其高质量的中文多模态数据。

个人见解: Qwen-VL的评测部分做得非常扎实、全面。它没有满足于在几个传统任务上刷分，而是覆盖了从基础感知到细粒度理解，再到真实世界对话的方方面面。这充分证明了Qwen-VL是一个真正的“多边形战士”，其能力的广度和深度都达到了新的高度。

5 RELATED WORK (相关工作)

视觉语言学习领域发展迅速。早期模型如OFA、CoCa等，致力于用统一的架构解决多任务。随着LLM的崛起，Flamingo、BLIP-2、LLaVA等模型开始探索将强大的预训练LLM与视觉模块相结合，取得了巨大成功。

而近期，Kosmos-2、Shikra等工作开始关注更细粒度的能力，如视觉定位。Qwen-VL正是在这个趋势上的集大成者，它成功地将图像描述、视觉问答、OCR、文档理解和视觉定位等多种能力无缝地集成到一个统一的模型中，并取得了卓越的性能。

6 CONCLUSION AND FUTURE WORK (结论与未来展望)

Conclusion

论文发布了Qwen-VL系列模型，这是一套开源、高性能、多功能的大型多模ल态模型。

✅ 核心贡献: 在各项基准测试中超越了同类模型，并支持多语言对话、多图交错对话、中英文定位、以及细粒度识别等高级功能。

Future Work

团队规划了几个未来的发展方向：

集成更多模态: 如语音（speech）和视频（video）。
继续扩大规模: 扩大模型尺寸、训练数据和输入分辨率，以处理更复杂的多模态关系。
增强生成能力: 拓展模型在多模态生成方面的能力，如生成高保真图像和流畅的语音。

博主点评与思考

Qwen-VL无疑是大型视觉语言模型领域的一个里程碑式的工作。

⭐ 技术突破: 其成功的核心在于简洁高效的架构设计（特别是位置感知的VL Adapter）和系统化的三阶段训练流程。这个流程确保了模型能力由浅入深、由粗到细的平稳构建。
❌ 潜在局限: 虽然论文展示了强大的性能，但所有LVLM仍面临一些共同挑战，如：
1. 多模态幻觉 (Multimodal Hallucination): 如何确保模型生成的内容既符合图像事实，又具有创造性，避免“一本正经地胡说八道”？
2. 实时性: 当前模型的推理速度对于许多实时应用（如机器人、自动驾驶）来说仍然是一个挑战。
3. 动态视频理解: 从静态图像理解扩展到复杂的动态视频理解，仍然有很长的路要走。
行业影响: Qwen-VL的开源极大地推动了社区的发展，为研究者和开发者提供了一个能力极其全面且强大的基座模型，有望催生出更多富有创意的多模态应用。它向我们展示了通往更通用、更强大的视觉智能助手的清晰路径。