当前位置：首页 > news >正文

《Qwen2.5-VL 》论文精读笔记

news 2025/8/13 8:42:29

论文链接：arxiv.org/pdf/2502.13923

摘要

我们推出了 Qwen2.5-VL，这是 Qwen 视觉-语言系列的最新旗舰模型，在基础能力和创新功能上均实现了显著进步。Qwen2.5-VL 在增强视觉识别、精准目标定位、强大的文档解析以及长视频理解方面取得了重大突破，其在理解和交互世界的能力上实现了新的飞跃。

Qwen2.5-VL的一个突出特点是其能够通过边界框或关键点准确定位目标。此外，它在从发票、表单和表格中提取结构化数据方面表现出色，并能对图表、示意图和布局进行详尽分析。

为了处理复杂输入，Qwen2.5-VL 引入了动态分辨率处理和绝对时间编码，能够处理不同尺寸的图片和时长达数小时的视频，并实现秒级事件定位。这使得模型无需依赖传统的归一化技术，就能够原生感知空间尺度和时间动态。

通过从零开始训练一个原生native动态分辨率的 Vision Transformer（ViT），并结合滑窗注意力机制（Window Attention），Qwen2.5-VL 在保持原生分辨率的同时，显著降低了计算开销。

native dynamic-resolution Vision Transformer:从头训练的VIT。（但不确定是从0开始初始化？还是说用了之前ViT的权重，但是没有冻结权重？）

只要用了window Attention，计算量就会减小，因为global attention计算复杂度是O(N²),是指数增长，而window attention 是线性增长的。

Window Attention:将输入划分为多个窗口，只在每个窗口内计算注意力（而不是全局计算）。这样，注意力的计算复杂度与单个窗口的大小（w）以及窗口数量（m）相关，总复杂度为 O(m × w²)，其中 w 是每个窗口中的元素数量。

因此，Qwen2.5-VL 不仅在静态图像和文档理解方面表现卓越，还能够作为一个交互式视觉智能体，具备推理、工具使用和任务执行的能力，适用于操作计算机和移动设备等现实场景。其模型在无需任务特定微调的情况下，能够在多个领域中实现强大的泛化能力。

Qwen2.5-VL 提供三种不同规模的模型，满足从边缘 AI 到高性能计算的多样化应用需求。旗舰型号 Qwen2.5-VL-72B 在文档和图表理解方面表现尤为出色，与 GPT-4o 和 Claude 3.5 Sonnet 等最新顶尖模型相媲美。较小规模的 Qwen2.5-VL-7B 和 Qwen2.5-VL-3B 模型在资源受限环境下也能表现出色，超越了对标的同类竞争模型。

此外，Qwen2.5-VL 还保持了强大的语言能力，继承了 Qwen2.5 LLM 的核心语言能力。

一、引言

大型视觉-语言模型（LVLMs）代表了人工智能领域的重要突破，它标志着多模态理解与交互的一种变革性方法。通过将视觉感知与自然语言处理无缝集成，这些先进模型正在从根本上重塑机器如何在多个领域解读和分析复杂信息。

尽管多模态大型语言模型在许多方面取得了显著进展，但其当前能力可以比作三明治饼干的中间层——在多个任务中表现出色，但尚未达到卓越的水准。细粒度视觉任务构成了这一比喻的基础层。在 Qwen2.5-VL 的这一版本中，我们致力于探索细粒度感知能力，旨在为 LVLM 打下坚实的基础，并为现实应用提供功能放大器。该框架的顶层是多模态推理能力，通过利用最新的 Qwen2.5 LLM 和多模态问答数据构建，使其进一步增强。

作者把多模态大模型当前能力的结构和层次比作三明治：

底层（基础层）：细粒度视觉任务；这是模型能力的基础部分，指对视觉内容的精细理解，比如准确地识别图像中的细节、定位特定物体、解析复杂的文档内容等。

中间层（现有能力层）：当前模型的能力，即多模态大语言模型现阶段的表现。当前 LVLMs 的能力可以完成很多任务，比如多模态问答、图像描述生成等，表现出“胜任”的能力，但还不够卓越，离“顶尖”还有距离。

顶层（高级能力层）：多模态的推理能力reasoning。这是模型发展的目标，是模型能力的“顶层表现”。它象征了更复杂、更高级的能力，比如在多种模态（文字、图像、视频等）之间流畅推理、深度交互、以及综合理解能力。

一系列研究推动了多模态大模型的发展，这些研究的特点包括架构设计、视觉输入处理以及数据构建。

在 LVLMs 的进步中，架构的持续创新是主要驱动力之一。（Flamigo,Blip,Blip2,Emu3,Internimage,Internlm-omnilive）等研究逐步塑造了当前的范式，其典型结构包括视觉编码器、跨模态投影器和 LLM。细粒度感知模型已成为另一个关键领域。（Florence2,Grounding Dino,Ferretv2,Kosmos-2,Molmo and Poxmo）等模型在细致的视觉理解方面拓展了可能性的边界。Omni和 MoE等架构也为 LVLMs 的未来演进提供了灵感。

常用多模态大模型架构如下：

目的就是将其他模态和Text对齐输入LLM中。

常见对齐手段分为三种：
第一种MLP就是Llava使用的手段，直接将视觉特征经过一个投影层转换为与语言模型嵌入空间一致的维度，从而实现视觉和文本的对齐；

第二种Q-Former是Blip2使用的方法，将图像特征当作K,V，初始化一些可学习queries作为Q，得到含有图像特征的Queries，再一起和文本向量一起输入LLM；

第三种是CogVLM的方式，同时将图像特征和文本特征当作QKV进行多层的交互？？？？？

前两种手段都是token级别的融合，也就是在图像编码器和LLM中间加的部分；第三种是特征级的融合，直接在LLM中加入了cross-Sttn 和 FFN层。

视觉编码器的改进（Internvl,Points）以及分辨率扩展（Monkey,mplug-owl2,Otterhd）在提高实际视觉理解质量方面起到了关键作用。

通过更丰富的场景和高质量的数据构建，是训练先进 LVLMs 的重要步骤。（Mammoth-vl,Mminstruct,Allava,Cambrian-1,Llava-onevision）的相关工作为此做出了重要贡献。

然而，尽管取得了巨大的进展，视觉-语言模型目前仍面临发展瓶颈，包括计算复杂度高、上下文理解能力有限、细粒度视觉感知能力不足，以及在不同序列长度下的不一致表现。在本报告中，我们介绍了最新的 Qwen2.5-VL，它延续了 Qwen 系列的开源理念，在多个基准测试中达到甚至超越了顶级闭源模型的表现。

我们的技术贡献主要包括以下四个方面：

我们在视觉编码器中实现了窗口注意力机制，优化了推理效率；
我们引入了动态 FPS 采样，将动态分辨率扩展到时间维度，从而实现了跨不同采样率的全面视频理解；
我们在时间域中升级了 MRoPE（多分辨率旋转位置编码），通过对齐绝对时间来支持更复杂的时间序列学习；
我们在预训练和监督微调阶段，精心构建了高质量的数据集，将预训练语料规模从 1.2 万亿标记扩展到 4.1 万亿标记。

二、方法

在本节中，我们首先概述了 Qwen2.5-VL 系列模型的结构更新，并对数据和训练细节进行概述。

2.1 模型架构

Qwen2.5-VL 的整体模型架构由以下三个部分组成：

1. 大语言模型（Large Language Model, LLM）

Qwen2.5-VL 系列采用大型语言模型作为其基础组件。模型初始化时使用了从 Qwen2.5 LLM 预训练得到的权重。为了更好地满足多模态理解的需求，我们将 1D RoPE（旋转位置编码，Rotary Position Embedding） 修改为 多模态旋转位置编码（Multimodal Rotary Position Embedding），与绝对时间对齐。

2. 视觉编码器（Vision Encoder）

Qwen2.5-VL 的视觉编码器采用了重新设计的 Vision Transformer（ViT） 架构。具体来说，我们在结构上引入了 2D-RoPE（二维旋转位置编码） 和窗口注意力机制（Window Attention），以支持原生输入分辨率，同时加速整个视觉编码器的计算。在训练和推理期间，输入图像的高度和宽度都会调整为 28 的整数倍，然后再输入 ViT。

视觉编码器通过以步幅为 14 的方式将图像切分成图像块（patch），并生成一组图像特征。有关视觉编码器的更详细介绍，请参见 2.1.1 节。

3. 基于 MLP 的视觉-语言融合模块（MLP-based Vision-Language Merger）

为了解决由于图像特征序列过长而导致的计算效率问题，我们采用了一种简单而有效的方法，在将这些特征输入大型语言模型（LLM）之前对特征序列进行压缩。

具体来说，不直接使用 Vision Transformer (ViT) 提取的原始图像块特征，而是首先将空间上相邻的四个图像块特征进行分组。将这些分组后的特征拼接起来，并通过一个两层的多层感知机（MLP），将它们投影到与 LLM 使用的文本嵌入对齐的维度。这种方法不仅降低了计算成本，还为动态压缩不同长度的图像特征序列提供了灵活的方法。

2.1.1 高效快速的视觉编码器

视觉编码器在多模态大语言模型（Multimodal Large Language Models, MLLMs）中扮演了关键角色。然而，由于原生分辨率输入的计算负担在训练和推理期间可能会出现不平衡，因此我们重新设计了 ViT 架构。

(1) 计算复杂度问题与改进方法

一个主要问题来自于处理不同尺寸图像时的二次计算复杂度。为了解决这个问题，我们在大多数层中引入了 窗口注意力机制（Window Attention），从而确保计算成本随着图像块数量线性增长，而不是二次增长。具体来说：

在整个视觉编码器架构中，只有四层使用全局自注意力（Full Self-Attention），其余层采用窗口注意力，最大窗口大小为 112×112（对应于 8×8个图像块）。
对于小于 112×112 的区域，模型在处理时不使用填充操作，保持其原始分辨率。
这种设计使模型能够在原生分辨率下运行，无需额外的缩放或失真。

(2) 2D 位置编码与 3D 扩展

为了捕捉二维空间中的位置关系，我们采用了 二维旋转位置编码（2D Rotary Position Embedding, 2D-RoPE）。此外，为了更好地处理视频输入，我们将其扩展为 3D 图像块分组：

对于静态图像，基本单位是 14×14 的图像块，与传统 ViT 保持一致。
对于视频数据，我们将两个连续的帧分组，大幅减少输入到语言模型的 token 数量。

此设计不仅保证了与现有架构的兼容性，同时在处理视频数据时提升了效率。

(3) 模型结构优化

为了简化整体网络结构，我们使 ViT 的架构更接近于大型语言模型（LLM）的设计原则。具体包括：

归一化方式：采用 RMSNorm 进行归一化。
激活函数：使用 SwiGLU 作为激活函数。

这些选择增强了视觉与语言组件之间的计算效率与兼容性。

(4) 训练过程

我们从零开始训练重新设计的 ViT，训练过程分为以下几个阶段：

CLIP 预训练（CLIP Pre-training）：通过对比学习训练视觉编码器，使其具备初步的视觉理解能力。
视觉-语言对齐（Vision-Language Alignment）：调整视觉与语言模态的特征表示，使它们能够在共享特征空间中对齐。
端到端微调（End-to-End Fine-tuning）：在完整的多模态任务上进行微调，以进一步优化两种模态的融合效果。

(5) 动态分辨率采样

为了解决不同输入分辨率带来的适配问题，我们在训练过程中采用了基于原生分辨率的动态采样方法：

图像会根据其原始纵横比随机采样，从而使模型能够有效泛化到不同分辨率的输入。
这种方法不仅提升了模型的适应能力，同时也确保了在不同尺寸视觉数据上的稳定高效训练。

2.1.2 原生动态分辨率与帧率

Qwen2.5-VL 在空间和时间维度上都进行了改进，以更有效地处理多样化的多模态输入。

(1) 空间维度

在空间域中，Qwen2.5-VL 能够动态地将不同尺寸的图像转换为对应长度的 token 序列：

不同于传统方法使用归一化坐标，Qwen2.5-VL 直接使用输入图像的实际尺寸来表示边界框（bounding boxes）、点（points）以及其他空间特征。
这种直接使用实际尺寸的方式能够使模型内在地学习到尺度信息，从而提高其在不同分辨率图像上的处理能力。

(2) 时间维度

对于视频输入，Qwen2.5-VL 引入了动态帧率（FPS）训练和绝对时间编码，以便更好地捕捉视频内容的时间动态。不同于其他方法依赖文本时间戳或使用额外的注意力头（additional heads）来实现时间定位（temporal grounding），我们提出了一种全新的高效策略：

直接将 MRoPE（多模态旋转位置编码）的 ID 与时间戳对齐。
通过时间维度 ID 之间的间隔，模型能够理解时间节奏（tempo of time），无需额外的计算开销。

2.1.3 与绝对时间对齐的多模态旋转位置编码（MRoPE）

位置嵌入在建模视觉和语言模态中的序列数据时至关重要。基于 Qwen2-VL 中提出的多模态旋转位置编码（MRoPE），我们扩展了其功能，以更好地处理视频中的时间信息。

(1) MRoPE 的结构分解

在 Qwen2-VL 中，MRoPE 将位置嵌入分解为以下三个独立的部分：

时间维度（temporal），
高度维度（height），
宽度维度（width）。

这种分解方式能够有效地建模多模态输入：

对于文本输入，所有三个部分使用相同的位置 ID，因此在功能上，MRoPE 相当于传统的 1D RoPE。
对于图像输入：
- 时间维度的 ID 在所有视觉 token 上保持不变；
- 高度和宽度维度的 ID 则根据每个 token 在图像中的空间位置分别进行唯一分配。
对于视频输入（被视为一系列帧的序列）：
- 时间维度的 ID 在每帧之间递增；
- 高度和宽度维度的分配模式与静态图像相同。

(2) Qwen2.5-VL 中 MRoPE 的改进

在 Qwen2-VL 中，MRoPE 的时间位置 ID 与输入帧的数量绑定，因此无法考虑视频内容变化的速度或事件发生的绝对时间。这种局限性通过以下方式在 Qwen2.5-VL 中得到了改进：

我们将 MRoPE 的时间维度与 绝对时间对齐：
- 如图 1 所示，通过利用时间 ID 之间的间隔，模型能够在不同 FPS 采样率的视频中学习到一致的时间对齐。
- 这种改进使得模型可以更准确地捕捉视频中的时间动态，无论帧率如何。

2.2 预训练

本节首先介绍预训练数据集的构建过程，随后概述整体训练流程和配置。

2.2.1 预训练数据

与 Qwen2-VL 相比，我们显著扩充了预训练数据的规模，从 1.2 万亿 token 增加到约 4 万亿 token。我们的预训练数据集通过多种方法构建，包括清洗原始网络数据、合成数据等。数据集涵盖了多种多模态数据类型，例如：

- 图像描述（Image captions）；
- 图文交叉数据（Interleaved image-text data）；
- 光学字符识别（OCR）数据；
- 视觉知识（如名人、地标、动植物识别）；
- 多模态学术问题；
- 定位数据；
- 文档解析数据；
- 视频描述；
- 视频定位；
- 基于代理（agent-based）的交互数据。

在整个训练过程中，我们仔细调整了数据类型在各阶段的构成和比例，以优化学习效果。

图文交叉数据（Interleaved Image-Text Data）

图文交叉数据对于多模态学习至关重要，具有以下三方面的关键优势：
1. 在情境中学习（in-context learning），通过同时提供视觉和文本线索来增强学习能力；
2. 在没有图像时保持强大的纯文本能力；
3. 包含广泛的一般信息。

然而，目前许多可用的图文交叉数据缺乏有意义的图文关联，同时噪声较大，这限制了其在复杂推理和生成式任务中的实用性。

为了解决这些问题，我们开发了一套数据得分和清洗流程，以确保仅使用高质量、相关的图文交叉数据。该流程包括两个步骤：

标准数据清洗；
使用内部评估模型进行四阶段评分系统，对数据进行严格筛选。

评分标准包括：（1）纯文本质量；（2）图文关联性；（3）图文互补性；（4）信息密度平衡。

这种精细化的数据处理方法显著提升了模型在复杂推理和生成多模态内容方面的能力。

以下是图文评分标准的具体说明：
- 图文关联性：得分越高，图像与文本的关联性越强，图像能够有效补充、解释或扩展文本，而不仅仅是装饰性存在。
- 信息互补性：得分越高，图像与文本之间的信息互补性越强。图像和文本各自提供独特的细节，共同构建完整的叙述。
- 信息密度平衡：得分越高，图像与文本的信息分布越均衡，避免信息过度集中在文本或图像上，确保两者之间的适当平衡。

基于绝对位置坐标的定位数据（Grounding Data with Absolute Position Coordinates）

我们采用原生分辨率训练，以实现更准确的世界感知。与使用相对坐标的方法不同，绝对坐标能够更有效地表示图像中对象的原始尺寸和位置。

在训练中，Qwen2.5-VL 使用基于输入图像实际尺寸的坐标值来表示边界框（bounding boxes）和点（points）。这种方法使模型能够更好地捕捉对象在真实世界中的尺度和空间关系，从而在目标检测和定位任务中表现更优。

为提高模型的定位能力，我们开发了一个包含边界框和指向表达（referring expressions）的综合数据集，数据来源包括公开数据集和专有数据。我们的方法包含将数据合成为多种格式（如 XML、JSON 和自定义格式），并使用以下技术：
- 复制粘贴增强（copy-paste augmentation）；
- 使用现成模型（Grounding DINO和 SAM ）进行数据合成。

这种方法提升了模型在定位能力方面的鲁棒性和评估能力。

为了增强模型在开放词汇检测（open-vocabulary detection）中的性能，我们扩展了训练数据集，涵盖了 1 万多个对象类别。此外，为了提升模型在极端目标检测场景中的效果，我们在查询中合成了不存在的对象类别，并构建了包含每个对象的多个实例的图像数据。

为了确保更优的基于点的目标定位能力，我们构建了一个包含公共数据和合成数据的综合指向数据集。数据来源包括：
- PixMo 提供的公开指向和计数数据；
- 公开的目标定位数据（包括目标检测和实例分割任务）；
- 通过自动化管道合成的用于生成精确指向数据的数据集，指向图像中的某些细节。

文档全解析数据（Document Omni-Parsing Data）

为训练 Qwen2.5-VL，我们合成了大量的文档数据。传统文档内容解析方法通常依赖于单独的模型来分别处理布局分析、文本提取、图表解析和插图处理。而 Qwen2.5-VL 被设计为一个通用模型，能够全面处理文档的解析、理解和格式转换。

具体来说，我们在文档中融合了丰富的元素，包括表格、图表、公式、自然或合成图像、乐谱和化学公式。这些元素以 HTML 格式统一存储，HTML 结构中集成了布局框（layout box）信息和插图描述。此外，我们根据典型的阅读顺序丰富了文档布局，并在 HTML 格式的标注中添加了每个模块（如段落和图表）的坐标信息。

这种创新方法能够以标准化、统一的方式表示任何文档的完整信息，包括其布局、文本、图表和插图。这使得 Qwen2.5-VL 能够无缝整合多模态文档元素，从而实现更高效、准确的文档理解和转化。

以下是 Qwen2.5-VL 的 HTML 格式示例：

OCR 数据（光学字符识别数据）

为了提升 OCR（光学字符识别）的性能，我们收集并整理了来自不同来源的数据，包括合成数据、开源数据和内部采集数据：
- 合成数据通过一个视觉文本生成引擎生成，能够产生高质量的野外文本图像；
- 为了支持更多语言并增强多语言能力，我们引入了一个大规模多语言 OCR 数据集，涵盖法语、德语、意大利语、西班牙语、葡萄牙语、阿拉伯语、俄语、日语、韩语和越南语等多种语言。

该数据集经过精心筛选以确保多样性和质量，结合高质量的合成图像和真实世界的自然场景图像。这种组合保证了模型在各种语言环境下的鲁棒表现，并提升了其对不同文本外观和环境条件的适应能力。

针对图表数据，我们使用包括 matplotlib、seaborn 和 plotly 在内的可视化库合成了 100 万样本，涵盖柱状图、关系图和热力图等图表类别。针对表格数据，我们通过离线端到端表格识别模型处理了 600 万真实样本，随后筛除置信度较低、表格重叠或单元格密度不足的表格。

视频数据（Video Data）

为了增强模型对具有可变帧率（FPS）的视频数据的理解能力，我们在训练中动态采样帧率，使训练数据集中帧率分布更加均匀。此外，对于时长超过半小时的视频，我们通过目标合成管道生成了多帧视频描述，从而专门构建了一组长视频描述。

在视频定位数据方面，我们以秒为单位和小时-分钟-秒-帧（hmsf）格式构建了时间戳，确保模型能够准确理解和输出各种时间格式。

代理数据（Agent Data）

为了增强模型的感知和决策能力，从而构建 Qwen2.5-VL 的代理能力，我们收集了移动端、网页端和桌面端平台的截图。通过合成数据引擎生成截图描述和用户界面（UI）元素的定位标注：
- 描述任务 帮助模型理解图形界面；
- 定位任务 帮助模型对齐元素的外观与功能。

在决策方面，我们首先将移动端、网页端和桌面端平台的操作统一为具有共享动作空间的函数调用格式。通过开源数据和基于代理框架在虚拟环境中采集的多步轨迹，生成并重新格式化为函数格式。

此外，我们通过人类和模型标注者为每一步操作生成推理过程。具体地：
1. 给定一个真实操作，我们在截图上高亮显示；
2. 提供全局查询以及操作前后截图；
3. 要求标注者撰写推理内容，解释操作背后的意图。

我们还使用基于模型的过滤器筛选出低质量的推理内容。这样的推理内容能够防止 Qwen2.5-VL 过拟合于真实操作，并提升其在真实场景中的鲁棒性。

2.2.2 训练策略

我们从头开始训练了一个 Vision Transformer (ViT)，以 DataComp 和一些内部数据集作为视觉编码器的初始化权重，同时通过预训练的 Qwen2.5 大型语言模型（LLM）作为语言模型组件的初始化权重。

如表 2 所示，预训练过程分为三个阶段，每个阶段采用不同的数据配置和训练策略，以逐步增强模型的能力。

第一阶段
- 训练目标：仅训练 Vision Transformer (ViT)，以改善其与语言模型的对齐，从而为多模态理解奠定坚实基础。
- 主要数据来源：图像描述、视觉知识和 OCR 数据。
- 训练重点：这些数据集经过精心挑选，以促进 ViT 提取具有意义的视觉表示，这些表示能够有效地与文本信息集成。

第二阶段
- 训练目标：解冻所有模型参数，并在多样化的多模态图像数据上训练模型，以增强其处理复杂视觉信息的能力。
- 数据类型：在这一阶段引入了更复杂和需要推理的数据集，例如图文交叉数据、多任务学习数据集、视觉问答（VQA）、多模态数学问题、基于代理的任务、视频理解任务以及纯文本数据。
- 训练重点：这些数据集加强了模型在视觉和语言模态之间建立深层连接的能力，使其能够处理日益复杂的任务。

第三阶段
- 训练目标：进一步增强模型在长序列上的推理能力，同时引入视频和基于代理的数据，并增加序列长度。
- 训练重点：通过延长序列长度，模型能够处理更长的上下文，这对于需要长期依赖和复杂推理的任务特别有利。

优化训练效率
在训练过程中，由于图像尺寸和文本长度的差异会导致计算负载不平衡，我们采用了一种策略来优化训练效率：
- 计算负载的主要来源：来自 LLM 和视觉编码器。
- 优化方法：
- 由于视觉编码器的参数较少，并且我们引入了窗口注意力机制以进一步降低计算需求，因此我们专注于平衡 LLM 在不同 GPU 上的计算负载。
- 基于输入到 LLM 的序列长度动态打包数据样本，确保计算负载的一致性。

在不同阶段中，序列长度的设置如下：
- 第一阶段和第二阶段：序列长度固定为 8,192；
- 第三阶段：序列长度增加到 32,768，以适应模型处理长序列的能力。

2.3 后训练（Post-Training）

Qwen2.5-VL 的后训练对齐框架采用了一个由两阶段优化组成的策略：监督微调（SFT） 和 直接偏好优化（DPO，Direct Preference Optimization）。这种分层的对齐策略通过不同的优化目标，结合参数高效的领域适配与人类偏好提取，解决了表示对齐与行为优化两方面的问题。

监督微调（SFT）
- 目标：通过有针对性的指令优化，弥补预训练表示与下游任务需求之间的差距。
- 数据格式：在此阶段采用 ChatML 格式来构建指令跟随数据，与预训练数据的格式有意不同，但保持与 Qwen2-VL架构的一致性。
- 格式调整的关键适应：
1. 为多模态轮流对话明确标注对话角色；
2. 在文本指令旁插入视觉嵌入；
3. 通过格式感知的打包方式，保持跨模态的位置信息关系。

通过将模型暴露于经过精心设计的多模态指令-响应样本之下，SFT 在保持预训练特征完整性的同时，实现了高效的知识迁移。

2.3.1 指令数据

SFT 阶段使用了一个精心设计的数据集，用于提高模型在多种模态下的指令跟随能力：
- 数据构成：数据集包含约 200 万条样本，纯文本数据和多模态数据各占 50%。多模态数据包括图文和视频-文本组合。
- 多模态数据包含嵌入的视觉和时间信息，因此在训练期间消耗了更多 token 和计算资源。
- 语言覆盖：数据以中文和英文为主，并辅以多语言样本，以支持更广泛的语言多样性。
- 对话复杂性：
数据集模拟了多层次的对话复杂性，包括单轮和多轮交互；
交互情境涵盖了从单图像输入到多图像序列的多种场景，从而模拟现实中的对话动态。
- 数据来源：
查询主要来自开源资源，辅以精选购买数据集和在线查询数据；
数据集还包含了专门的子集，例如：通用视觉问答（VQA）、图像描述、数学问题、编程任务和安全相关查询。
针对文档和光学字符识别（Doc 和 OCR）、目标定位、视频分析以及代理交互，构建了专门的数据集。

这种结构化和多样化的组成确保 SFT 阶段能够将预训练表示有效地对齐到下游多模态任务的细化需求，帮助模型实现稳健且具上下文感知的性能。

2.3.2 数据过滤Pipeline

训练数据的质量是影响视觉语言模型性能的关键因素。开源和合成数据集通常存在显著的质量差异，可能包含噪声、冗余或低质量样本。因此，严格的数据清洗和过滤过程对于解决这些问题至关重要。

低质量数据可能导致预训练表示与下游任务需求之间的对齐不佳，从而削弱模型处理复杂多模态任务的能力。因此，确保高质量数据对于实现模型的稳健性和可靠性至关重要。

两阶段数据过滤Pipeline
为解决这些问题，我们实施了一个两阶段的数据过滤管道，以系统性地提高 SFT 数据集的质量。

第一阶段：领域特定分类
在初始阶段，我们使用 Qwen2-VL-Instag（一种基于 Qwen2-VL-72B 的专用分类模型）对问答对（QA pairs）进行层级分类。
- 该模型将问答对组织成八个主要领域（如编码和规划），并进一步分为 30 个细粒度子领域（如编码领域可细分为代码调试、代码生成、代码翻译和代码理解）。
- 这一层级结构支持领域感知和子领域感知的过滤策略，从而优化针对每个类别特征的数据清洗过程，提高 SFT 数据集的质量和相关性。

第二阶段：领域定制过滤
在第二阶段，我们结合规则驱动和模型驱动的方法对数据质量进行全面提升：
- 规则驱动过滤：根据预定义的启发式规则移除低质量或有问题的样本；对于文档处理、OCR 和视觉定位任务的数据集，删除重复模式、截断或格式错误的样本；同时，删除可能导致有害结果的无关查询和回答。
- 模型驱动过滤：使用基于 Qwen2.5-VL 系列训练的奖励模型，评估多模态问答对的质量，包括查询的复杂性和相关性、回答的正确性、完整性、清晰度、相关性和实用性。