论文阅读笔记 | Qwen-VL:一个视觉语言大模型,通晓理解、定位、文本阅读等多种能力
论文阅读笔记 | Qwen-VL:一个视觉语言大模型,通晓理解、定位、文本阅读等多种能力
通义千问-VL论文阅读笔记:arXiv 2023.10 | Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
Abstract
今天我们要深入解析的是来自阿里巴巴团队的重量级工作——Qwen-VL(通义千问-VL)。这不仅仅是一个简单的视觉语言模型,而是一个旨在感知和理解文本与图像的多功能系列模型。
- 🚩 背景 (Background): 随着大语言模型(LLM)的兴起,如何赋予其处理图像等多模态信息的能力,成为前沿热点。然而,现有的开源视觉语言模型(LVLM)在性能和功能上仍有较大局限。
- 🚩 方法 (Method): 团队以Qwen-LM(通义千问语言模型)为基座,通过精心设计的视觉感受器 (visual receptor)、输入输出接口 (input-output interface)、三阶段训练流程 (3-stage training pipeline) 以及高质量的多语言多模态语料库,成功赋予了模型强大的视觉能力。
- ✅ 能力 (Capabilities): Qwen-VL系列模型的能力远超传统的图像描述和问答。通过引入图像-描述-边界框 (image-caption-box) 数据对,模型学会了视觉定位 (grounding) 和文本阅读 (text-reading) 等细粒度技能。
- ⭐ 成果 (Results): 最终产出的 Qwen-VL(预训练模型)和 Qwen-VL-Chat(对话模型)在各种视觉核心评测基准上,无论是零样本(zero-shot)还是少样本(few-shot)设置,都取得了同等模型规模下的新纪录 (SOTA)。特别是在真实世界对话评测中,Qwen-VL-Chat展现了超越现有视觉语言聊天机器人的卓越表现。
1 INTRODUCTION
近年来,大语言模型(LLMs)以其强大的文本理解和生成能力惊艳了世界,但它们天生“生活”在纯文本世界里,无法处理图像、视频等其他模态,应用范围因此受限。
为了打破这一壁垒,大量的大型视觉语言模型 (LVLMs) 应运而生。然而,目前的开源LVLMs普遍存在一些问题:
- 训练和优化不足,与顶尖的闭源模型差距明显。
- 感知粒度粗糙,大多只能对图像进行一个笼统的理解,缺乏对图中特定物体进行定位(object grounding)或读取图中文字(text reading)等细粒度感知能力。
正是在这样的背景下,Qwen-VL系列应运而生,旨在解决上述痛点。它的核心特性可以总结为以下几点:
- ⭐ 卓越性能 (Leading Performance): 在包括图像描述、问答、定位等一系列传统基准和新兴的对话基准上,性能全面领先。
- 多语言支持 (Multi-lingual): 基于在中英文图文数据上的充分训练,模型天然支持流畅的中英文对话和多语言指令。
- 多图输入 (Multi-image): 训练中采用了任意交错的图文数据,使得Qwen-VL-Chat能够处理和比较多张图片输入,并理解它们之间的上下文关系。
- 细粒度视觉理解 (Fine-grained Visual Understanding): 凭借高分辨率输入和细粒度的训练数据,Qwen-VL在定位、文本阅读和细粒度对话方面表现出极强的竞争力。
2 METHODOLOGY (方法论)
Qwen-VL的整体设计简洁而高效,我们来逐一拆解其核心构成。
2.1 Model Architecture (模型架构)
Qwen-VL的架构由三大核心组件构成(如表1所示),总参数量为9.6B。
Vision Encoder | VL Adapter | LLM | Total |
---|---|---|---|
1.9B | 0.08B | 7.7B | 9.6B |
表1: Qwen-VL 模型参数详情
- 大语言模型 (Large Language Model): 基座采用了性能强大的
Qwen-7B
语言模型,这是模型强大理解和推理能力的源泉。 - 视觉编码器 (Visual Encoder): 采用了
OpenCLIP
的ViT-bigG
模型。它负责将输入图片转换成一系列特征向量。 - 🚩 关键创新 - 位置感知的视觉-语言适配器 (Position-aware Vision-Language Adapter): 这是连接视觉和语言世界的关键桥梁。
- 动机: ViT处理高分辨率图像时会产生非常长的特征序列,直接送入LLM会带来巨大的计算负担。
- 设计: 引入了一个单层的交叉注意力模块 (cross-attention)。它使用一组可学习的查询向量 (learnable query embeddings)(数量固定为256个)来与ViT输出的图像特征进行交互,从而将长短不一的图像特征序列压缩成一个固定长度(256)的序列。
- 位置感知: 为了在压缩过程中不丢失对细粒度理解至关重要的位置信息,适配器在交叉注意力计算中巧妙地融入了2D绝对位置编码。这使得模型即便在压缩后也能感知到物体在图中的具体位置。
2.2 Inputs and Outputs (输入与输出)
为了支持丰富的多模态任务,Qwen-VL设计了一套特殊的输入输出格式。
- 图像输入: 图像特征序列的首尾会添加特殊标记
<img>
和</img>
,以示区分。 - 🚩 边界框输入输出 (Bounding Box I/O): 这是实现视觉定位能力的核心。
- 格式化: 任何给定的边界框(bounding box)坐标都会被归一化到
[0, 1000)
范围内,并转换为一个固定的字符串格式:"(X_topleft,Y_topleft),(X_bottomright,Y_bottomright)"
。 - 特殊标记:
<box>
和</box>
用于包裹坐标字符串,告诉模型这是一个位置框。<ref>
和</ref>
用于包裹与该位置框对应的文本描述,从而将语言和空间位置精确关联。
- 格式化: 任何给定的边界框(bounding box)坐标都会被归一化到
博主浅析: 这个VL Adapter的设计非常精妙,它用一个轻量级的模块(仅0.08B参数)解决了视觉特征与LLM对齐的核心难题,兼顾了效率和性能。特别是位置编码的保留,是实现后续如“圈出图中的猫”这类细粒度任务的技术基石。
3 TRAINING (三阶段训练)
Qwen-VL的成功很大程度上归功于其精心设计的三阶段渐进式训练流程(如图3),每个阶段目标明确,层层递进。
图3: Qwen-VL 系列的训练流程
🚩 Stage 1: Pre-training (基础视觉-语言对齐)
- 目标: 让模型建立基础的视觉理解能力,将视觉编码器与语言模型对齐。
- 数据: 使用了海量的、从网络爬取的弱标签图文对(清洗后约14亿对)。
- 训练细节:
- 冻结LLM,只优化视觉编码器(ViT)和VL Adapter。
- 输入图像分辨率为较低的
224x224
,以提高训练效率。 - 目标是根据图片预测对应的文本描述。
🚩 Stage 2: Multi-task Pre-training (多任务能力注入)
- 目标: 在基础对齐之上,为模型注入更高级、更细粒度的多模态能力。
- 数据: 引入了多种高质量、细粒度的VL标注数据,涵盖7大任务,包括:VQA(视觉问答)、Grounding(定位)、OCR(光学字符识别)、纯文本自回归等(如表3所示)。
- 训练细节:
- 解冻LLM,整个模型(ViT, Adapter, LLM)都参与训练。
- 输入图像分辨率提升至
448x448
,以捕捉更多图像细节,支持细粒度任务。
🚩 Stage 3: Supervised Finetuning (SFT, 对话与指令对齐)
- 目标: 将预训练好的模型转化为一个能听懂人类指令、进行流畅对话的聊天机器人。
- 产出: Qwen-VL-Chat 模型。
- 数据: 构建了专门的多模态指令微调数据集,不仅包含常规的对话和推理,还特别加入了涉及定位和多图理解的对话数据。数据格式采用ChatML。
- 训练细节:
- 冻结ViT,只微调LLM和Adapter,使其更好地适应指令和对话风格。
思考题: 为什么采用这样分阶段的训练策略?每个阶段冻结/解冻不同组件的考量是什么?
博主见解: 这种渐进式策略非常符合认知逻辑。第一步,先让模型学会看图说话的基础;第二步,教它完成更复杂的“看图考试”,比如做选择题(VQA)、连线题(Grounding);第三步,训练它的沟通技巧,让它能以对话的形式灵活运用所学知识。分阶段冻结不同模块,既能在初期高效对齐视觉模块,又能保证在后续训练中不损害LLM强大的语言能力,是一种非常高效且稳健的训练范式。
4 EVALUATION (性能评测)
Qwen-VL在一系列广泛的评测基准上进行了全面评估,结果令人印象深刻。
Image Caption & General VQA (图像描述与通用视觉问答)
- ✅ 图像描述: 在零样本Flickr30K评测上,Qwen-VL取得了85.8的CIDEr得分,达到了SOTA水平,甚至超越了参数量大得多的Flamingo-80B(如表4)。
- ✅ 通用VQA: 在VQAv2、OKVQA、GQA等多个基准上,Qwen-VL的准确率也显著优于先前的通用模型。
Text-oriented VQA (面向文本的视觉问答)
- ✅ 在需要理解图中文字的场景下,如TextVQA、DocVQA、ChartQA等,Qwen-VL的表现同样出色,大幅领先于同类模型(如表5)。这证明了其强大的OCR和文本理解能力。
Referring Expression Comprehension (指代表达式理解)
- ⭐ 这是衡量模型细粒度定位能力的关键任务。在RefCOCO、RefCOCO+、RefCOCOg等数据集上,Qwen-VL都取得了顶尖的成绩,证明它能精确地根据文本描述在图中找到对应的物体(如表6)。
Few-shot Learning (少样本学习)
- ⭐ 如图4所示,在OKVQA、TextVQA等任务中,Qwen-VL仅通过上下文中的几个示例(few-shot),性能就能大幅提升,甚至媲美参数量是其近10倍的80B模型,展现了极强的在情境中学习 (in-context learning) 的能力。
图4: Qwen-VL 与其他模型的少样本学习性能对比
Instruction Following (真实世界指令跟随)
- ⭐ Qwen-VL-Chat在模拟真实用户行为的TouchStone、SEED-Bench、MME等评测中表现出了压倒性优势(如表7)。
- 特别是在TouchStone评测中,无论中文还是英文,Qwen-VL-Chat都远超其他LVLM,尤其中文能力优势巨大,这得益于其高质量的中文多模态数据。
个人见解: Qwen-VL的评测部分做得非常扎实、全面。它没有满足于在几个传统任务上刷分,而是覆盖了从基础感知到细粒度理解,再到真实世界对话的方方面面。这充分证明了Qwen-VL是一个真正的“多边形战士”,其能力的广度和深度都达到了新的高度。
5 RELATED WORK (相关工作)
视觉语言学习领域发展迅速。早期模型如OFA、CoCa等,致力于用统一的架构解决多任务。随着LLM的崛起,Flamingo、BLIP-2、LLaVA等模型开始探索将强大的预训练LLM与视觉模块相结合,取得了巨大成功。
而近期,Kosmos-2、Shikra等工作开始关注更细粒度的能力,如视觉定位。Qwen-VL正是在这个趋势上的集大成者,它成功地将图像描述、视觉问答、OCR、文档理解和视觉定位等多种能力无缝地集成到一个统一的模型中,并取得了卓越的性能。
6 CONCLUSION AND FUTURE WORK (结论与未来展望)
Conclusion
论文发布了Qwen-VL系列模型,这是一套开源、高性能、多功能的大型多模ल态模型。
- ✅ 核心贡献: 在各项基准测试中超越了同类模型,并支持多语言对话、多图交错对话、中英文定位、以及细粒度识别等高级功能。
Future Work
团队规划了几个未来的发展方向:
- 集成更多模态: 如语音(speech)和视频(video)。
- 继续扩大规模: 扩大模型尺寸、训练数据和输入分辨率,以处理更复杂的多模态关系。
- 增强生成能力: 拓展模型在多模态生成方面的能力,如生成高保真图像和流畅的语音。
博主点评与思考
Qwen-VL无疑是大型视觉语言模型领域的一个里程碑式的工作。
- ⭐ 技术突破: 其成功的核心在于简洁高效的架构设计(特别是位置感知的VL Adapter)和系统化的三阶段训练流程。这个流程确保了模型能力由浅入深、由粗到细的平稳构建。
- ❌ 潜在局限: 虽然论文展示了强大的性能,但所有LVLM仍面临一些共同挑战,如:
- 多模态幻觉 (Multimodal Hallucination): 如何确保模型生成的内容既符合图像事实,又具有创造性,避免“一本正经地胡说八道”?
- 实时性: 当前模型的推理速度对于许多实时应用(如机器人、自动驾驶)来说仍然是一个挑战。
- 动态视频理解: 从静态图像理解扩展到复杂的动态视频理解,仍然有很长的路要走。
- 行业影响: Qwen-VL的开源极大地推动了社区的发展,为研究者和开发者提供了一个能力极其全面且强大的基座模型,有望催生出更多富有创意的多模态应用。它向我们展示了通往更通用、更强大的视觉智能助手的清晰路径。