(Arxiv-2025)OmniGen2:通向先进多模态生成的探索
OmniGen2:通向先进多模态生成的探索
paper title:OmniGen2: Exploration to Advanced Multimodal Generation
paper是BAAI发布在Arxiv 2025的工作
Code:链接
Abstract
在本研究中,我们提出了 OmniGen2,这是一种多功能、开源的生成模型,旨在为多样化的生成任务提供统一的解决方案,包括文本生成图像(text-to-image)、图像编辑和上下文生成(in-context generation)。与 OmniGen 不同,OmniGen2 采用了针对文本与图像模态的两条独立解码路径,使用非共享参数和解耦的图像分词器。这一设计使得 OmniGen2 能够在现有多模态理解模型的基础上构建,而无需重新适配 VAE 输入,从而保留了原始的文本生成能力。为了支持 OmniGen2 的训练,我们构建了完整的数据构建流程,涵盖图像编辑和上下文生成任务。此外,我们还引入了专门针对图像生成任务的反思机制(reflection mechanism),并基于 OmniGen2 构建了一个专用的反思数据集。尽管参数规模相对较小,OmniGen2 在多个任务基准上仍取得了有竞争力的表现,包括文本生成图像和图像编辑任务。为了进一步评估上下文生成能力(又称主体驱动任务),我们引入了一个新的基准测试 OmniContext。在一致性评估方面,OmniGen2 在开源模型中实现了当前最优表现。我们将开源我们的模型、训练代码、数据集及数据构建流程,以支持该领域的后续研究。
图 1:OmniGen2 及其反思模型的多样能力概览.
1 Introduction
统一图像生成近年来受到广泛关注 [80; 92; 73; 48]。例如,OmniGen [80] 使用简洁的 Transformer 架构,能够应对多种图像生成任务,无需额外插件或预处理器。近期如 Gemini-2.0-flash [22] 和 GPT-4o [53] 等模型的突破进一步展示了该领域的巨大潜力,并标志着多模态智能从专用模型 [3; 33] 向强大的统一系统转变的新范式。Chameleon [72] 和 Emu3 [76] 在所有模态上采用离散自回归方法,而 Janus 系列 [78; 11] 引入了分别用于理解与生成任务的双图像编码器。Transfusion 在一个 Transformer 框架中融合了自回归和扩散过程。然而,这些模型支持的图像生成任务仍相对有限。
在本文中,我们提出了 OmniGen2,这是一个开源生成模型,在多个生成任务中表现出竞争力。与前作 OmniGen [80] 不同,我们观察到简单的参数共享不足以同时处理自回归文本建模和基于扩散的图像建模。为解决这一问题,OmniGen2 在架构上为自回归与扩散任务采用了独立路径。
尽管像 GPT-4o [53] 这样的模型在遵循提示方面表现出色,但在精确图像编辑和保持上下文生成中主体一致性方面常表现出一致性不足。我们推测,这种一致性缺失是由于这些模型完全依赖于高级语义编码器,而这些编码器在捕捉细粒度视觉细节方面能力有限。为弥补这一不足,OmniGen2 在继承前作使用 VAE 特征处理低层视觉信息策略的基础上进行增强。最近的一些模型,如 Mogao [40] 和 BAGEL [13],也采用非共享参数用于文本与图像模态处理,并通过双视觉分词器(VAE [31] 和 ViT [15])处理图像。而 OmniGen2 将 VAE 提取的特征仅输入至扩散模型中,而非多模态大语言模型(MLLM),从而避免 VAE 编码影响 MLLM 的原生多模态理解能力,同时减少冗余图像表示。得益于此设计,OmniGen2 保持了原始 MLLM 的简洁性和强大的文本生成能力。
除模型架构外,我们还尝试解决制约本领域发展的数据与评估难题。我们从收集与重构开源数据集入手,但发现多数数据在图像编辑与上下文生成等任务上的质量存在天然限制,这也是开源模型与商用模型间性能差距显著的根源之一。为此,我们开发了从视频中生成图像编辑与上下文生成数据的完整数据构建流水线,并计划向社区开源这些数据集。此外,我们通过迭代式生成流程构建了用于图像生成的反思数据,旨在将 LLM 的推理与反思能力注入多模态生成模型中。
我们对 OmniGen2 进行了广泛评估,结果表明其在文本生成图像(T2I)、图像编辑、上下文生成等多个任务领域均表现出色。值得注意的是,对于上下文生成任务,当前尚缺乏良好的公共排行榜来系统评估和对比不同模型的关键能力。现有资源如 DreamBench [64] 难以体现真实场景下的复杂需求。为解决这一评估空白,我们引入了 OmniContext 基准集,涵盖八大任务类别,专为评估人物、物体与场景一致性而设计。实验结果表明,OmniGen2 在开源模型中实现了当前最优一致性表现。
我们的主要贡献总结如下:
-
开源 OmniGen2,这是一款强大的多模态生成模型,在多个图像生成任务中展现出卓越表现。在保持强大图像生成能力的同时,OmniGen2 还保留了强大的文本生成能力。我们进一步探索了将多模态反思机制应用于图像生成的可能性。
-
构建新颖的数据生成流水线,推出一系列高质量数据集,尤其面向图像编辑与上下文学习任务中的数据稀缺问题,这些数据集来源于视频内容。
-
引入 OmniContext 基准测试套件,系统评估不同场景下的上下文视觉生成一致性能力,为该领域提供统一评估标准。
此外,需要强调的是,OmniGen2 的文本生成能力主要来源于其解耦架构中的 MLLM 模块,并非源自对 OmniGen2 基础模型中 MLLM 的端到端全参数训练(除了引入的特殊 token)。只有在反思模型中,才会进行端到端的全参数训练。因此,OmniGen2 应被视为支持图文双输出的多模态生成模型,而非原生的多模态模型。
图 2:OmniGen2 的架构。OmniGen2 为自回归与扩散任务分别采用了独立的 Transformer 架构。模型使用了两种不同的图像编码器:ViT 编码图像后输入至文本 Transformer,VAE 编码图像后输入至扩散 Transformer。
2 Model
2.1 Design Princeple
在原始 OmniGen [80] 框架中,我们在 Transformer 架构中同时实现了文本的自回归建模和图像的基于扩散的方法。该架构使用 phi-3 [1] 进行初始化。在发布 OmniGen 后,我们进行了进一步的实验。首先,我们用更强大的 Qwen 模型替代了 phi-3。令人惊讶的是,尽管使用了更强的语言模型(LLM),图像生成质量却有所下降。其次,我们探索了 MoE(专家混合)策略,以类似于 LMfusion [68] 的方法,将文本和图像参数分别路由。我们的研究发现,用文本分支的参数初始化图像分支的参数,其性能甚至不如直接随机初始化图像路径。这表明为文本优化的参数并不适合图像建模。因此,在 OmniGen2 中,我们将扩散过程完全解耦,并随机初始化其参数。
近期的方法,如 MetaQuery [55] 和 BLIP-3o [7],使用可学习的查询 token 来编码扩散生成所需的条件信息。这些方法将所有条件信息压缩为固定数量的 token,不可避免地限制了表示能力并导致信息损失。我们还发现,这种基于 token 的压缩方法在处理长文本渲染时表现不佳。因此,OmniGen2 使用多模态语言模型(MLLM)生成的多模态交错条件的隐藏状态,作为扩散解码器的输入,而不是依赖固定的一组可学习查询 token。一个可行的替代方案是结合条件的隐藏状态与查询 token,但我们将其作为未来工作的方向。
另一个重要考虑是 VAE 编码器的集成。虽然现有的 MLLM 主要使用 ViT 进行图像建模,但 ViT 通常难以捕捉细粒度的视觉细节,导致图像生成任务中的图像保真度下降。虽然端到端训练 ViT 特征可以缓解这一限制,但它在图像理解与生成任务之间引入了复杂的平衡问题。近期工作如 BAGEL [13] 和 Mogao [40] 通过双重编码(在模型中同时引入 VAE 和 ViT 特征)来解决此问题。然而,这种双重编码方法需要大量的架构改动,并引入复杂的注意力机制,增加了开发复杂性。此外,适应新架构还需要重新训练,以恢复其图像理解能力。考虑到这些挑战,我们选择仅将 VAE 作为扩散解码器的输入,而不是集成进 MLLM 中。此策略保留了 MLLM 的架构简洁性,并在无需大量重新训练的情况下维持其多模态理解能力。
2.2 Multimodal Large Language Model
如图 2 所示,OmniGen2 利用基础的 MLLM Transformer 处理文本和图像输入。对于文本生成任务,模型采用自回归语言头;而图像生成则通过专用的扩散模块完成。该 Transformer 主干网络由 Qwen2.5-VL-3B [3] 初始化。我们引入了一个特殊的标记 “<|img|>”,用于在输出序列中显式指示图像生成。当模型遇到该标记时,将触发扩散解码器以合成对应图像。MLLM 产生的隐藏状态作为条件输入提供给扩散解码器。然而,由于这些隐藏状态可能缺乏详细的视觉信息,我们进一步使用从输入图像中提取的 VAE 特征来增强解码器。最终,扩散解码器利用修正流(Rectified Flow, RF)方法生成图像。
2.3 Diffusion Transformer
如图 2 所示,我们采用了一个简单的扩散 Transformer 架构,直接将来自 MLLM、VAE 和噪声的特征拼接起来,从而允许在这些模态之间进行联合注意力操作。借鉴 Lumina-Image 2.0 [57] 的方法,多个输入条件首先通过一个 Refiner 网络处理,以确保对齐,然后再传入 Transformer 层。扩散解码器包含 32 层,隐藏层维度为 2520,总参数量约为 40 亿。由于显式引入了 VAE 特征,MLLM 中与图像相关的隐藏状态的重要性降低。为了减少计算开销,我们舍弃了 MLLM 中与图像相关的隐藏状态,仅保留与文本 token 相关的部分。此外,我们在扩散 Transformer 中采用了三维旋转位置编码(3D Rotary Position Embedding),该方法是对 Qwen mRoPE 的一种改进。
多模态旋转位置编码(Multimodal Rotary Position Embedding)受最近多模态位置编码设计的研究成果启发 [75; 57; 71],我们提出了一种新的 Omni-RoPE,专为满足复杂多样的任务需求而设计,尤其是图像编辑和上下文生成任务。如图 3 所示,我们的 Omni-RoPE 被分解为三个不同的组成部分:
-
序列与模态标识符(idseqid_{seq}idseq):该组件的主要作用是区分来自不同模态和序列的 token。关键在于我们将每张图像视为一个完整的语义单元,因此属于同一图像的所有 token 被分配一个共享且恒定的 ID。相比之下,对于文本 token,该 ID 随每个后续 token 单调递增,充当标准的一维位置索引,用于保留词序。该组件等价于 Qwen2-VL 中的原始 mRoPE。
-
二维空间高度坐标(hhh):表示图像 token 的归一化垂直位置。
-
二维空间宽度坐标(www):表示图像 token 的归一化水平位置。对于所有非图像 token,空间坐标 (h,w)(h, w)(h,w) 被设为零。
我们设计的关键在于上述组件如何协同工作。对于每个图像实体(无论是源图像还是目标图像),其空间坐标 (h,w)(h, w)(h,w) 是独立计算的,起始位置为 (0,0)(0, 0)(0,0)。这保证了在对应位置上的 token 会拥有相同的空间嵌入,从而强烈鼓励一致性,并在编辑过程中保持未修改区域的保真度。尽管空间坐标是局部定义的,但唯一的序列与模态标识符 idseqid_{seq}idseq 提供了明确的机制,用以区分不同图像实体之间的 token。该整体设计可无缝降级为文本输入的一维位置编码,使我们的 M-RoPE 成为一个灵活且稳健的框架,有效支持全谱系的多模态操作。
图 3:Omni-RoPE 的示意图。该方法将位置信息分解为三个组成部分:
(1) 序列与模态标识符(idseqid_{seq}idseq):对同一图像内的所有 token 保持不变(将其视为一个语义单元),但在不同图像之间唯一;
(2) 和 (3) 2D 空间坐标(hhh, www):对每个图像实体从 (0,0)(0, 0)(0,0) 局部计算。
这一双重机制使得模型可以通过唯一的 idseqid_{seq}idseq 无歧义地区分不同图像,同时共享的局部空间坐标增强了图像编辑等任务的一致性。
2.4 Training Strategy
MLLM 使用 Qwen2.5-VL 进行初始化,在训练过程中为了保留其多模态理解能力,其大部分参数保持冻结状态。仅有新引入的特殊 token “<|img|>” 会被更新。扩散模型从零开始训练,最初在文本生成图像(T2I)任务上进行预训练,随后采用混合任务训练策略以适应多种目标。在反思训练阶段(如图 13 所示),模型的所有参数都会解冻,从而使模型能够生成反思性的文本描述,并迭代地优化图像输出。
图 4:用于图像生成的多模态反思机制(Multimodal Reflection)。
3 Dataset Construction
对于多模态理解任务,我们采用了 LLaVA-OneVision [35] 提供的数据集。在文本生成图像(T2I)任务中,我们的训练语料库包含约 1.4 亿张开源图像,这些图像来源于 Recap-DataComp [37]、SAM-LLaVA [8]、ShareGPT4V [9]、LAION-Aesthetic [65]、ALLaVA-4V [6]、DOCCI [50]、DenseFusion [38]、JourneyDB [69] 和 BLIP3-o [7]。此外,我们还加入了 1000 万张自有图像,并使用 Qwen2.5-VL-72B [3] 为这些图像生成合成标注。对于图像编辑任务,我们收集了多个公开数据集,包括 SEED-Data-Edit [19]、UltraEdit [91]、OmniEdit [77]、PromptFix [86] 和 ImgEdit [83]。然而,这些开源资源往往存在图像质量较差、指令准确性有限、任务多样性不足等问题。为克服这些限制并更好地服务于我们的研究目标,我们精心构建了一个新的综合训练数据集。接下来的章节将详细介绍我们数据构建流程。
3.1 In-Context Data
上下文图像生成任务(in-context image generation)[79; 82; 34; 71] 旨在从输入图像中提取一个视觉概念——例如特定物体、身份或个体——并在新生成的图像中准确再现该概念。该任务也被称为主体驱动生成(subject-driven generation)[64],其工作方式类似于大语言模型中的上下文学习:图像生成模型仅根据提供的上下文在实时环境中生成个性化输出,无需额外的微调。尽管由于其广泛的应用范围,上下文图像生成已被广泛研究,但当前社区在该任务上仍严重缺乏高质量的专用数据集。
3.1.1 In-Context Generation
上下文生成任务要求对同一对象在不同场景下的多样化外观进行建模。为此,我们利用视频数据,因为视频帧天然捕捉了相同主体在不同条件下的变化。此类时间上的多样性使得我们可以构建训练对,其中主体在语义上保持一致,但在姿态、视角和光照条件上存在差异。如图 5 所示,我们的数据构建流程从每个视频中提取关键帧并指定一个基准帧开始。我们使用 Qwen2.5-VL-7B-Instruct [3] 在基准帧中识别主要主体,借助该模型的视觉-语言能力聚焦于语义上显著的实体,同时过滤掉无关的背景物体。接着,我们使用 GroundingDINO [45] 基于视觉语言模型生成的标签获得主体的边界框。随后,借助 SAM2 [61] 对已识别的主体在后续帧中进行分割和跟踪,选择最后一个包含所有主体的有效帧,以最大化外观变化。为了缓解跟踪误差(如引入外观相似但错误的对象),我们引入基于多模态语言模型(VLM)的过滤步骤,确保主体一致性。为进一步提升视觉多样性,我们采用 FLUX.1-Fill-dev2 在输入帧中对主体进行 novel 背景重绘(outpaint)。我们应用基于 DINO [5] 的相似性过滤,剔除外观差异过大的样本,并使用 Qwen2.5-VL-7B-Instruct 评估生成样本的语义质量和一致性。此外,Qwen2.5-VL-7B-Instruct 还用于生成简洁的物体描述和详细的图像标题,这些内容将被整合成自然语言指令。最终,每个训练样本为一个三元组:指令、经过重绘的图像作为输入、原始图像作为输出,从而为多主体生成任务提供了语义丰富且视觉多样的监督数据。
图 5:In-Context 生成数据集构建流程。最终输入图像用红色边框标出,目标图像用蓝色边框标出。
3.1.2 In-Context Edit
图 6:In-Context 编辑数据集构建流程。最终的输入图像和目标图像分别用红色和蓝色边框标注,与图 5 保持一致。
我们进一步将 in-context 生成范式扩展到编辑任务,提出了一种新的任务,称为 in-context 编辑,如图 6 所示。在该任务中,模型从上下文图像中提取相关元素,并利用这些元素对目标输入图像进行编辑。
in-context 编辑的数据来源与 in-context 生成相同:选取包含相同物体的两帧图像,一帧作为上下文图像(context clip),另一帧作为目标图像(target clip)。首先,使用 SAM2 [61] 获取两帧图像中物体的掩码。对于上下文图像,使用 FLUX.1-Fill-dev 对物体进行 outpainting,生成新的背景,以引导模型聚焦于物体特征。随后,对目标图像应用 FLUX.1-Fill-dev 进行 inpainting,移除物体但保留原始背景,从而得到输入图像(input clip)。最后,使用 Qwen2.5-VL-72B-Instruct [3] 生成从输入图像到目标图像的变换过程的自然语言描述,并将其与上下文图像中的物体描述合并,形成完整的自然语言指令。
3.2 Image Editing Data
3.2.1 Inpaint Data
尽管大多数现有的编辑数据集是通过图像修复技术构建的,但它们存在两个主要缺陷:
(1) 图像质量较差:这既源于图像本身分辨率较低,也由于修复过程中后处理导致的质量下降。
(2) 编辑指令不准确:以往工作预定义编辑指令,并使用图像修复模型根据这些指令生成图像,但图像修复模型的指令遵循能力较弱,导致编辑指令与原始-修复图像对之间存在不匹配。
在本工作中,我们从文本生成图像数据中挑选了一小部分高质量图像作为数据源,应用 FLUX.1-Fill-dev 进行图像修复。我们将修复后的图像作为输入,原始图像作为目标图像,以确保目标图像具备高质量。
此外,我们不向图像修复模型输入编辑指令,允许其随机填充内容。在获得图像对之后,我们使用多模态大语言模型(MLLM)根据这些图像对编写编辑指令。我们发现,最新的 MLLM(例如 Qwen2.5-VL)在为原始-修复图像对撰写编辑指令方面表现出色,从而构建出一个高准确率的编辑数据集。
3.2.2 Video Data
图 7:从视频中创建图像编辑对。我们首先过滤掉属于不同场景的帧,以确保上下文一致性,然后移除那些视角变化较大的帧。
传统的图像修复方法在构建多样化数据方面存在固有限制,因此难以胜任诸如动作修改、物体移动或表情变化等任务。为了解决这些局限性,我们额外从视频源中提取编辑图像对。
我们在图 7 中展示了这一流程。图像编辑任务通常要求对图像进行局部修改,同时保持周围上下文的完整性。为了从视频中构建适用于图像编辑的图像对,必须识别仅具有局部变化的帧对。我们首先将视频划分为不同的场景,以避免跨越不连续上下文配对帧。通过分析平均 RGB 像素强度来检测场景边界,同时利用 HSV 色彩空间中差异的滑动平均值来增强对快速运动的鲁棒性。
在每个识别出的场景中,我们提取多个帧对,并使用 DINOv2 [54] 和 CLIP [59] 对其差异进行评估。那些差异过大(表示视角变化)或差异过小的帧对将被过滤掉。
由于视频中即使在同一场景中也常存在摄像机视角的变化,因此需要进一步筛选。现有方法如视觉-语言模型计算成本高且容易出错,而基于颜色直方图或像素级相似度的方法则要么对空间结构不敏感,要么对噪声过于敏感。为了解决这些问题,我们将每张图像划分为多个块,并比较对应块的颜色直方图以评估相似性,从而有效降低噪声影响。随后计算相似块的比例以施加空间约束,该比例可作为视角一致性的可靠指标。该策略能够高效地过滤出具有视角变化的帧对,同时保持较低的计算开销。
最后,对于每一对保留下来的、视角一致的图像,我们使用 Qwen2.5VL-72B-Instruct [3] 生成精确的编辑指令,从而构建出高质量的图像编辑数据集。
3.3 Interleave Data
3.3.1 Interleaved Frames
我们首先根据检测到的场景切换对视频进行分段,并从每个片段中提取关键帧。随后,我们构建两种类型的视频帧序列,每种序列最多包含五帧:
1)同场景交错序列(intra-scene interleaved sequence):由来自同一场景的帧组成;
2)跨场景交错序列(interscene interleaved sequence):由来自不同场景的帧组成。
在提取帧序列之后,我们使用多模态大语言模型(MLLM)对每对相邻帧进行描述性标注,说明物体动作与行为的变化、环境与背景的变化以及物体外观的差异。鉴于标注量巨大,我们采用轻量模型 Qwen2.5-VL-7B-Instruct 执行该任务。
最终,我们从视频源中获得了 80 万条交错数据样本,用于预训练模型处理连续多模态序列的能力。
3.3.2 Reflection Data
受到大语言模型在测试时缩放和自我反思方面的进展启发 [23; 28; 41],我们进一步探索了将反思能力集成到多模态生成模型中的可能性,并展示了测试时缩放如何提升图像生成质量。在本节中,我们重点描述用于后续模型微调的反思数据构建方法。
反思数据由交错的文本和图像序列组成,序列以用户指令开头,接着是多模态模型生成的图像及其对该图像的逐步反思。每轮反思关注两个关键方面:
1)分析生成图像与原始指令之间的偏差或未满足的要求;
2)提出具体方案来改进上一轮生成图像中的缺陷。
为了构建自我反思数据,我们从训练数据中选择一个小子集(当前实验仅使用文本生成图像任务的数据),并使用模型生成图像。
随后,我们使用一个多模态大语言模型(MLLM)评估生成图像是否符合原始指令。如果图像未能充分遵循指令或存在其他质量问题,模型将识别具体问题并提出修改建议。最初我们尝试使用 DSG [12] 评估框架来评估指令与图像的一致性,但该方法经常产生幻觉。之后我们发现强大的多模态模型可以直接胜任此任务,因此我们使用 Doubao-1.5-pro [16] 输出问题和修改建议。
在获得第一轮反思后,我们将生成的图像及其反思内容附加到原始指令后,并使用这些数据对模型进行微调。训练完成后,我们继续对第一轮反思数据进行推理,得到第二轮生成图像及其反思数据。通过这一迭代过程,我们获得了多轮自我反思数据。
目前尚缺乏关于将反思机制用于提升多模态生成模型中图像生成任务的研究。我们希望本工作能推动该领域在推理能力方面的发展。在模型通过当前反思数据训练获得初步反思能力后,还可以通过在线强化学习算法进一步提升,我们将此留作未来探索方向。
图 8:OmniContext 基准的概览。左侧:OmniContext 中包含的图像类型(Image genres)。右侧:OmniContext 中每种图像类型的示例图像。
4 OmniContext Benchmark
图 9:OmniContext 基准中对输出图像进行评估的示例。
OmniGen2 的一个关键目标是实现用户提供的特定上下文图像的一致性生成。为了严格评估这一重要但尚未充分基准化的能力,我们引入了 OmniContext,这是一个新基准,旨在评估模型在不同上下文中保持主体一致性的能力。
现有的 in-context 图像生成基准未能充分反映真实世界的应用场景。它们未考虑多输入图像的情况,且上下文图像和任务类型数量有限。DreamBench [64] 仅包含 30 个对象和 25 个提示模板,缺乏对人物主体和场景级上下文的覆盖。此外,现有基准采用 CLIP-I 和 DINO 作为衡量 in-context 生成图像质量的指标。这些指标依赖输入与输出之间的图像级相似性,不适用于多主体场景,且缺乏可解释性。
为填补这些空白,我们构建了 OmniContext,使用大规模、人工收集的高质量图像数据集,包括个人照片、开源图像、动画剧照和 AI 生成图像。
如图 8 所示,该基准涵盖三种不同类型的上下文图像 —— 人物(Character)、物体(Object)和场景(Scene) —— 涵盖广泛的实体和环境。通过系统性地组合不同类型的输入图像,我们设立了三大任务类别(SINGLE、MULTIPLE 和 SCENE)以及八个细化子任务,每个子任务包含 50 个样本。SINGLE 类别指以单个上下文图像(包含人物或物体)为条件的图像生成任务。MULTIPLE 类别涉及来自多个上下文图像的主体之间的组合交互。SCENE 类别涉及以参考图像中提供的环境上下文为条件的图像生成任务。
图像-提示对的构建采用多模态大语言模型(MLLM)与人工注释结合的混合方法。首先,MLLM 对图像来源进行分类与过滤,以剔除低质量样本。随后,人工专家根据以下三项标准对图像进行筛选:(1)主体明确,(2)具有美学质量,(3)内容多样性。提示语最初由 GPT-4o 生成,并由注释人员系统性地筛选和润色,以确保语义内容和句法结构的全面多样性。
为有效评估 in-context 图像生成能力并增强评估结果的可解释性,我们采用最先进的多模态大语言模型 GPT-4.1 [52] 来评估生成结果,如图 9 所示。OmniContext 融入了三个指标:Prompt Following(PF)、Subject Consistency(SC)以及一个总体评分(Overall Score),该评分为 PF 和 SC 得分的几何平均数。我们遵循 VIEScore [32] 的既有方法,使用 GPT-4.1 生成 0–10 的评分,并提供详细的评分理由以支撑其评估结果。
我们相信 OmniContext 基准将成为可控、基于参考图像生成任务研究的重要资源,推动未来该领域的发展。