当前位置：首页 > news >正文

51c大模型~合集141

news 2025/9/15 4:16:38

我自己的原文哦~ https://blog.51cto.com/whaosoft/13993587

#SageAttention3

清华SageAttention3，FP4量化5倍加速！且首次支持8比特训练

随着大型模型需要处理的序列长度不断增加，注意力运算（Attention）的时间开销逐渐成为主要开销。此前，清华大学陈键飞团队提出的即插即用的 SageAttention 和 SageAttention2 已经被业界及社区广泛的使用于各种开源及商业的大模型中，比如 Vidu，CogvideoX，Mochi，Wan，HunyuanVideo，Flux，Llama3，Qwen 等。

近日，清华大学陈键飞团队进一步提出了针对 BlackWell 架构的首个全 FP4 量化的即插即用注意力算子（SageAttention3）。实现了 5 倍相比于 FlashAttention 的即插即用的推理加速（此前的 SageAttention V1/V2/V2++ 分别达到了 2.1，3，3.9 倍的加速效果），比如在 RTX 5090 上，SageAttention3 达到了 1040 TOPS 的速度，甚至是比 RTX 5090 昂贵十几倍的 H100 上使用 Hopper 独有的 FlashAttention3 还要快 1.65 倍！SageAttention3 在多种视频和图像生成等大模型上（包括 HunyuanVideo，CogVideoX，Mochi 和各类图像生成模型）均保持了端到端的精度表现。同时还首次提出可训练的 8 比特注意力（SageBwd）用于大模型的训练加速（注：FlashAttention3 的 FP8 版本也只支持前向传播），在各项微调任务中均保持了与全精度注意力相同的结果。

论文标题：SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-bit Training

论文链接：https://arxiv.org/abs/2505.11594

开源代码：https://github.com/thu-ml/SageAttention

效果预览

SageAttention3 实现了高效的 Attention 算子，可以实现即插即用的 5 倍于 FlashAttention 的推理加速。即输入任意 Q, K, V 矩阵，可以快速返回 Attention Output (O)，真正做到了两行代码加速任意模型推理。（注：按照官方仓库中的开源计划，SageAttention2++ 的代码将于6月20日左右开源，SageAttention3 的代码将于7月15日左右开源。）

效果上，以 HunyuanVideo 为例，在 RTX5090 上 SageAttention3 可以 3 倍加速端到端的生成，且视频质量几乎无损：

，时长00:05

视频 1（使用 FlashAttention2，490s）

，时长00:05

视频 2（使用 SageAttention3,164s）

（注：FlashAttention2 已经是在 RTX5090 上最优的 FlashAttention 实现。）

接下来，将从前言，挑战，方法，以及实验效果四个方面介绍 SageAttention3。

SageAttention3 总体流程图

前言

随着大模型需要处理的序列长度越来越长，Attention 的速度优化变得越来越重要。下图展示了一个标准的 Transformer 模型中各运算的时间占比随序列长度的变化：

为了方便指代注意力运算中的矩阵，我们先回顾一下注意力的计算公式：

研究动机：（1）Blackwell 架构有着速度极快的 FP4 Tensor Core，以 RTX5090 为例，其速度是 FP16 Tensor Core 的 8 倍。（2）训练阶段的注意力运算开销也同样重要，在此之前并没有工作尝试过低比特注意力加速模型训练，包括 FlashAttention3 的 FP8 版本也只有 Forward 过程。我们还希望同时量化注意力的前向 + 反向过程来加速训练。

FP4 注意力量化有什么问题？

（1）FP4 数值类型仅有 15 个有效数值，这使得以 Tensor（Per-tensor）或以 Token（Per-token）粒度的量化都难以有效保证量化的准确度。

（2）P 矩阵的值分布在 [0, 1] 之间，直接的 FP4 量化会使量化缩放因子被限制在一个狭窄的范围内。然而，硬件要求这些量化因子必须采用 FP8 数据类型表示。此时，将缩放因子转为 FP8 时会导致显著的精度损失。

8-Bit 注意力用于训练有什么问题？

（1）P 矩阵的梯度对量化误差过于敏感，并且在反向过程中还会沿着序列长度对 Q 和 K 的梯度造成误差累积。

技术方案

为了解决上述的挑战，研究团队提出了对应的解决办法。

（1）为了提高 FP4 的量化精度。研究团队采用了 Microscaling FP4 量化，这是 BlackWell 硬件层面支持的一种量化方式。即可以采用或的量化粒度进行矩阵量化，NIVIDA 在硬件层面自动支持了反量化过程。此外，Microscaling FP4 有两种数据表示的形式，一种是 MXFP4, 另外一种是 NVFP4。两种格式都采用了 E2M1 的 FP4 数据类型。不同的是，NVFP4 的量化的块大小为，缩放因子的数据类型为 E4M3。MXFP4 的量化的块大小为，缩放因子的数据格式为 E8M0。研究团队采用了 NVFP4 数据格式，因为其量化准确率远高于 MXFP4：

（2）针对 P 的缩放因子范围狭窄的问题，研究团队提出了两阶段量化（Two-level Quantization）的办法。FlashAttention 中的 P 矩阵的值在 [0, 1] 的范围内，导致 P 的缩放因子的范围也只在 0~0.167 之间。把缩放因子直接转换为 FP8 格式会带来极大的精度损失。

于是研究团队决定先把 P 通过 Per-token 量化到 [0, ] 的范围内，再进行 FP4 的量化：

下表展示了 Two-Level Scaling 对精度的提升：

下图展示了 SageAttention3 的算法流程：

（3）在 8-Bit 训练 Attention 当中，研究团队对 Q，K，V 采用了 Per-block INT8 量化，对 P 巧妙地采用了无量化 Overhead 的 Per-token 量化。前向过程的算法如下：

在反向传播的过程中总共涉及到 5 个矩阵乘法：

研究团队发现是否量化 dOVT 对精度有着较大的影响：

于是研究团队将 dOVT 保留为 FP16 精度，而对其它四个矩阵乘法进行了量化。以下是反向传播的算法：

实验效果

SageAttention3 实现了 GPU 底层的 CUDA Kernel，在算子速度以及各个模型端到端准确度上都有十分不错的表现。

具体来说，算子速度相比于 FlashAttention2（5090 上最快的 FlashAttention）和 xformers 有大约 5 倍以及 10 倍的加速：

各模型在真实场景的端到端精度表现中，在视频、图像生成等大模型上均保持了端到端的精度表现：

下图是在 HunyuanVideo 当中的可视化实例：

下图是在 Flux 上的可视化实例：

下图是在 Cogvideo 中的可视化实例：

下表展示了各个视频、图像生成模型中 SageAttention3 的端到端精度表现：

端到端的速度表现上，SageAttention3 的实现均可以有效地对长序列的模型进行加速，比如可以端到端 3 倍加速 HunyuanVideo：

8-Bit 训练 Attention 在 Base Model 微调到 Instruct Model 的任务上展现出与 BF16 的注意力完全一致的精度表现，下表是在多个不同的任务以及模型上微调的结果：

并且在训练速度上也能起到较好的加速效果：

研究团队还发现，目前的 8 比特用于训练的 Attention 虽然在微调任务上完全无损，但是在预训练任务上与全精度的 Attention 在 Loss 上还有一定差距，需要未来进一步的研究：

#冠军队独享200万，进决赛就有直通offer

腾讯广告算法大赛报名开启

「2025 年，多模态生成是一个好方向吗？」这是一位同学在今年年初提出的问题。

他之所以有此疑问，是因为在找实习时发现，狭义的 AIGC（如视频生成）岗位较少，就业前景不佳，自己的「底层视觉 + 生成模型」背景不知道怎么才能发挥用武之地。

这位同学描述的情况相信很多同学都遇到过。确实，这两年 AIGC、多模态生成很火，理论上很多行业都能用上，比如影视、游戏…… 但由于技术发展仍在早期，能经得起商业验证的场景其实并不多。部分从业者曾在采访中告诉xx，他们和影视行业接触过，比如拍短剧的导演，但对方表示，目前 AI 相比普通演员仍然不具备竞争力。

不过，并非每个行业都如此悲观。据我们观察，至少从三年前开始，多模态生成就已经在广告等行业成功试水，去年更是给一些大厂带来了实打实的收益。在这些正向回报的激励下，不少企业正在加大投入，希望用生成式 AI（尤其是多模态生成）给广告内容的生产、分发带来一场变革。对于相关人才来说，这里面蕴含着大量的机会。

生成式 AI + 广告

一条已经跑通的路线

提到广告 AI，大多数人首先想到的是用 AI 助力广告内容的生成。这确实是一项已经开展多年的工作。

2022 年，在 AIGC 这个词刚刚破圈，甚至还在和元宇宙画等号的时候，xx曾经报道过其在电商领域的应用。当时，电商平台已经在用生成式 AI 技术做广告内容的生成，比如帮助商家生成商品文案、对话文本、外呼语音…… 甚至还能生成数字人帮商家卖货。

在随后的三年间，生成式 AI 在广告领域的渗透愈发深入且广泛。不少广告平台都推出了官方的 AI 创作工具，比如亚马逊的「品牌起名星（助力产品出海）」，「A + 页面 Gen AI 模块（生成文案和图片）」，图片、视频、创意生成工具等。这些工具大大提升了广告内容的生产效率。

此外，还有些平台对广告行业的整个流程进行了梳理，把能用 AI 的地方都尝试了一下，并跑出了不错的效果。其中比较典型的是「腾讯广告妙思」。它不仅能通过商品混剪、数字人口播，图生图、商品背景合成、扩图、特定风格 Lora 等技术助力广告内容生成，还能在审核、分发等环节帮广告主降本增效。这就让生成式 AI 在广告行业的应用不再局限于内容生产。

其实，如果再放大去看，还有不少环节可以因为生成式 AI 的引入而产生更大的经济效益，比如能让广告主把预算花在刀刃上的广告推荐。

长期以来，广告推荐一直被视为判别式任务。系统会分析用户过去的行为记录，然后通过区分用户喜欢的内容（正面例子）和不喜欢的内容（负面例子）来训练模型，从而学会给用户推荐合适的内容。

但这种传统做法有两个明显的问题。首先，在现实中我们很难知道用户真正不喜欢什么 —— 毕竟用户不会主动告诉我们「我讨厌这个」。所以系统只能人为地制造一些「负面例子」，假设用户不喜欢它们。这样做显然不够准确，因为用户没点击可能只是没看到，而不是真的不感兴趣。其次，这种方法只能在现有的内容库里挑选推荐给用户，就像在一个固定的商品架子上选东西一样。这就大大限制了推荐的可能性，无法真正理解和满足用户更深层次的兴趣需求。

为了解决这些问题，研究者们正在重新思考广告推荐的本质：如果不把它视为判别式任务，而是生成式任务，效果能做到更好？

确实，从原理上来看，生成式推荐系统不再局限于从现有物品库中进行选择，而是能够根据用户的个性化需求生成全新的推荐内容。这种系统具备多模态信息处理能力，能够整合文本、图像、音频等不同形式的数据，从而更深入地理解用户的复杂需求和动态兴趣变化，提供更具创造性和个性化的推荐结果。

不过，这个方向也有很多挑战，比如新用户或新物品缺乏足够数据，生成模型难以准确捕捉其兴趣；生成内容的相关性与多样性的平衡；生成的实时性（广告推荐通常需要毫秒级响应）与计算效率的矛盾等。所以，如果你想投身这个方向，现在正是最好的时机 —— 这些挑战的存在恰恰说明了创新空间的巨大，而率先解决这些技术难题的人，很可能会在前景广阔的广告市场中占据先发优势。

想切入广告方向

这里有一个绝佳机会

说到投身这个领域，光有想法还不够，关键是要有合适的平台来施展。今年的腾讯广告算法大赛恰好为想要在广告推荐技术上有所突破的大家提供了一个绝佳的机会。

这次大赛的主题为「智 AI，『荐』未来」，赛题聚焦于「全模态序列生成式推荐 (All-Modality Generative Recommendation, AMGR)」，要求参赛者基于用户的全模态历史行为数据（含文本、视觉、协同行为等），预测其下一次可能交互的广告内容。不过，在技术路线上，参赛者要突破传统判别式框架，探索生成式推荐创新方案。

广告推荐叠加生成式 AI，而且涉及多模态，难度简直拉满，说这是人工智能在广告领域最前沿、最具挑战性的课题之一也不为过。

为了确定这个比赛是否值得参加，我们做了一些调研，发现它至少在三个方向上给了大家参赛的理由。

一是数据。往年参赛的很多同学都提到，之前在学校做项目接触的都是干净数据，而且数据量比较小。即使是出去打比赛，拿到的也大多是模拟数据。面对这样的数据，他们不需要从用户的角度去思考行为过程，因为数据已经被高度清洗和标准化，用户行为的复杂性和不确定性都被抽象掉了，算法只需要在理想化的环境中寻找数学规律即可。

但在腾讯广告算法大赛中，他们拿到的是脱敏后的真实业务数据，里面有很多噪声以及用户行为导致的偏差、长尾分布。这就让他们不得不去思考用户的行为动机，就像一位同学所说，「你会想得更全，会抽丝剥茧地去想，不停地还原一个具体用户使用这个产品的过程中到底是怎样想的，以及可能发生什么样的突发情况。同样的行为，有可能有不一样的含义。」这有助于大家提前培养商业思维和业务敏感度。

二是奖金。本次大赛设有 360 万人民币的总奖金池，冠军团队独享 200 万元，亚军、季军以及排名靠前的团队也有丰厚奖金，可谓诚意满满。

三是职业发展。要知道，此次大赛的目的不仅是促进产学研交流，也是为腾讯广告选拔并长线储备优秀技术人才。因此，除了奖金，进入决赛的队伍全员可获得实习 Offer 并有机会转正，排名前列的队伍还有机会获得 offer 直通卡。这有助于同学们提前锁定广告技术方向，避免校招「开盲盒」的不确定性。

往年通过这一途径进入腾讯的同学告诉我们，参加比赛让他们在入职的时候就已经具备几个月的业务认知优势，从而能够快速适应工作环境，也能更快出成果。比如一个叫栗强的同学，他入职之后很快成长为技术专家，主导开发的 Bid Shading 对外报价算法为联盟带来了大盘三个点的收入提升。

今年，除了入职腾讯，符合条件的获奖者还可以进一步按规定申请深圳市相关人才培养支持政策项目，为未来在粤港澳大湾区的长期发展奠定优势。

当然，大多数同学最终没能拿到奖项，但他们表示自己依然收获满满。因为腾讯广告算法大赛本来就是一个上千支队伍同台竞技的舞台，在比赛中遇到的对手很有可能成为未来的高质量人脉。而且，在比赛过程中，大家可以接触到腾讯技术专家，实现从学术到工业界的思维转变。

报名通道已开启

赶紧组队

前段时间，腾讯公布了 2025 年第一季度财报。财报显示，该季度腾讯营销服务收入同比增长 20% 至 319 亿元，而这些增长在很大程度上要归功于 AI 驱动的广告平台 AI 技术升级。这给了腾讯持续投入于广告 AI 技术的动力。

也正因如此，腾讯广告以及其他有广告业务的公司对生成式 AI 人才的需求正呈上涨趋势。参加腾讯广告算法大赛，有助于同学们提前为此做好准备。

有人可能会说，自己从来没有接触过广告行业，担心有 gap。这点其实不用担心，就像之前参赛的同学所说，大家参赛之前都没有什么经验，很多事情都是从零到一开始做，现在有很多 AI 助手可以帮助大家加速学习过程，而且很多前沿论文和已有成果也可以拿来参考。

目前，大赛的报名通道已经开启，截止日期是 7 月 31 日，全球高等院校的全日制在校学生（本科、硕士、博士、博士后）均可报名参赛。

如果你也对这个方向感兴趣，赶快报名参赛吧！

参赛链接：https://algo.qq.com/

#自变量机器人让AI放下海德格尔的锤子

统一框架下的xx多模态推理

当 AI 放下海德格尔的锤子时，意味着机器人已经能够熟练使用工具，工具会“隐退”成为本体的延伸，而不再是需要刻意思考的对象。

当一位熟练的木匠抓起锤子时，锤子消失了 —— 不是物理上的消失，而是无需思考便可自如使用。然而，当前最先进的机器人仍然无法“放下”这把“锤子”，它们被困在循环中 —— 识别锤子、规划如何使用锤子，每一次交互都需要重新“拿起”工具作为认知对象，这种割裂式的处理方式让 AI 永远无法达到人类那种直觉的工具使用境界。

xx智能的突破，不会来自对现有基于视觉 - 语言基础模型的修补，而将源于一场架构革命。

自变量机器人主张，必须放弃以“多模态模块融合”为核心的拼凑式范式，转向一个端到端的统一架构。该架构旨在彻底消解视觉、语言和行动之间的人为边界，将它们还原为单一信息流进行处理。

当前范式的根本局限

现有主流方法将不同模态视为独立模块，如预训练的 ViT 处理视觉信息，LLM 处理语言理解，然后通过融合层进行连接。这种“委员会”式的设计存在着本质缺陷。

首先是表征瓶颈问题。信息在不同模态的专属编码器之间传递时，会产生不可避免的压缩损失，就像将一幅油画描述给盲人，再让盲人向聋人传达画面内容一样，每次转换都会丢失关键的细节和关联。这种损失阻碍了模型对物理世界进行深层次的跨模态理解。

最关键的是无法涌现的问题。结构上的割裂使得模型难以学习到物理世界中跨越模态的、直觉式的因果规律。就像一个人无法仅通过阅读教科书就学会骑自行车一样，真正的物理智能需要的是整体性的、xx的理解，而不是模块化的知识拼接。

统一架构：从分治到整合

自变量机器人提出的统一模态架构源于一个核心洞察：真正的xx智能不应该是多个专门模块的协作，而应该像人类认知一样，在统一的计算框架内同时处理感知、推理和行动。

架构的核心是统一表示学习。自变量机器人将所有模态信息 —— 视觉、语言、触觉、动作 —— 转换为共享的高维 token 序列，消除模态间的人为边界。

关键突破在于采用多任务多模态生成作为监督机制：系统必须学会从任一模态生成其他模态的内容，这迫使模型建立起深层的跨模态对应关系。

具体而言，将所有输入模态，包括多视角图像、文本指令与机器人实时状态，通过各自的编码器转化为统一的 token 序列，该序列被送入一个 Transformer 核心。其中，预训练多模态理解模型负责整合信息以完成空间感知理解与任务推理规划，而生成专家 (Gen. Expert) 则预测未来的图像与视频，以及直接生成可执行的机器人动作。两者通过一个跨模态注意力 (Cross-Modal Attention) 层深度耦合，使得感知、推理和行为的信息流在每一个计算层都能无损地双向交互与共同演进，从而实现了端到端的统一学习。

这种架构实现了xx多模态推理的涌现。当面对新任务时，系统能够像人类一样进行整体性认知处理 —— 视觉理解、语义推理、物理预测和动作规划在统一空间内并行发生、相互影响，而非串行处理。

通过这种端到端的统一学习，系统最终能够像人类一样思考和工作：不再依赖模块化的信息传递，而是在深层表示空间中直接进行跨模态的因果推理和行动决策。

涌现能力：xx多模态推理

这种统一架构旨在解锁当前模块化系统无法实现的全方位xx多模态推理能力。

第一个是符号-空间推理能力。

当人类随意画出几何形状时，机器人首先通过理解复杂几何图案，然后在统一的表示空间中进行多层次推理：将抽象的二维图形解构为具体的字母组合，理解这些字母的空间排列逻辑，并推断出它们组合成的完整单词。同时，机器人能够将这种抽象的符号理解直接转化为三维空间中的物理操作，用积木块精确地重现字母的空间排布。

整个过程体现了视觉感知、因果推理和空间操作的深度融合。

，时长01:16

视频演示 1：机器人根据手绘图形拼出对应单词

第二个是物理空间推理能力。

当向机器人展示积木的操作步骤时，机器人能够在其统一的潜在空间中直接进行视觉的空间逻辑推理和因果关系推演。这个过程中，机器人理解每个积木的放置如何影响整体结构的稳定性，推断操作顺序背后的工程逻辑，并预测不同操作路径可能导致的结果。同时，机器人能够将这种物理推理过程外化为语言思考链，清晰地表达其对空间关系、重力约束和构建策略的理解。

最终，机器人能够基于这种深层的物理理解，独立完成复杂的三维结构搭建，展现了物理直觉与推理能力的有机结合。

，时长01:12

视频演示 2：观察积木操作步骤并搭建对应空间形状

第三个突破是具备推理链的自主探索能力。

面对复杂的环境，系统能够整合视觉观察、空间记忆和常识知识，构建出连贯的推理链条。整个过程体现了感知、记忆、推理和行动的无缝整合，以及基于常识知识的灵活决策能力。

这种推理过程是端到端学习的自然涌现。

，时长01:19

视频演示 3：带有推理过程的物品搜索

以上三个视频, 机器人需要在操作中实时输出推理过程，这要求模型在统一架构中实现物理操作、视觉和语言推理的精确同步。

最后一个展示了机器人从视频中学习能力和协作推理能力。

当观察人类的操作视频时，机器人从视频中推断行为背后的深层意图和目标状态。这种能力超越了简单的动作模仿，体现了视频学习、对人类意图的理解、对协作目标的推断，以及自主的协作决策能力，展现了真正的自主学习和人机协同能力。

，时长00:34

视频演示 4：从视频中推断动作意图并自主执行

结语

这些演示背后体现的是一个根本性的范式转换。

传统的多模态系统将世界分解为独立的表征模块，但物理世界的交互是连续的、实时的、多模态耦合的 —— 当机器人抓取一个易碎物品时，视觉判断、力度控制和安全预测必须同时发生，任何模块间的延迟或信息损失都可能导致失败。自变量机器人的统一架构正是为满足这种xx交互的要求生的。

这种转变的意义在于，它让机器人能够像海德格尔描述的熟练工匠一样，将感知、理解和行动无缝融合。

机器人不再需要经历 “视觉识别→语言规划→动作执行” 的冗长串行处理，而是在统一的表征空间中被直接理解为实现特定意图的媒介 —— 机器人能够同时 “看到” 物理属性、“理解” 其在任务中的作用、“感知” 操作的空间约束，并 “规划” 相应的动作序列。

正是这种多模态信息的并行融合处理，使得xx多模态推理能力得以自然涌现，让机器人最终能够像人类一样流畅地与物理世界交互。

自变量机器人主张，xx智能的未来路径是从设计“割裂式表征”的系统，转向构建能够进行真正xx多模态推理的统一系统。这并非一次增量改进，而是让 AI 具备跨模态因果推理、空间逻辑推演和实现通用操作的xx智能所必需的架构进化。

#信息过载时代，如何真正「懂」LLM？

从MIT分享的50个面试题开始

人类从农耕时代到工业时代花了数千年，从工业时代到信息时代又花了两百多年，而 LLM 仅出现不到十年，就已将曾经遥不可及的人工智能能力普及给大众，让全球数亿人能够通过自然语言进行创作、编程和推理。

LLM 的技术版图正以前所未有的速度扩张，从不断刷新型号的「模型竞赛」，到能够自主执行任务的智能体，技术的浪潮既令人振奋，也带来了前所未有的挑战。

如何在海量信息中建立真正的认知深度，而非仅仅成为一个热点的追随者？也许可以从「做题」开始。

最近，MIT CSAIL 分享了一份由工程师 Hao Hoang 编写的 LLM 面试指南，精选了 50 个关键问题，旨在帮助专业人士和AI爱好者深入理解其核心概念、技术与挑战。

文档链接：https://drive.google.com/file/d/1wolNOcHzi7-sKhj5Hdh9awC9Z9dWuWMC/view

我们将这 50 个问题划分为了几大主题，并附上图示和关键论文。希望这份指南能成为您的「寻宝图」，助您开启 LLM 探索之旅，无论是在面试中，还是在未来的技术浪潮中，都能保持清醒的认知和持续探索的热情。

LLM 发展历程。来源：arXiv:2304.13712

核心架构与基本概念

问题 1：Token 化（tokenization）包含哪些内容，为什么它对 LLM 至关重要？

Token 化是将文本分解为更小单元（称为 token）的过程，这些单元可以是单词、词的一部分或字符。例如，单词「artificial」可以被分解为「art」、「ific」和「ial」。

这是一个关键步骤，因为LLM 处理的是这些 token 的数值版本，而不是原始文本。通过 token 化，模型可以处理多种语言，处理稀有词汇或不在其词汇表中的词汇，并保持词汇表大小的可管理性，这反过来提高了计算速度和模型的有效性。

问题 2：注意力机制在 Transformer 模型中如何运作？

注意力机制使 LLM 能够在生成或分析文本时，对序列中的不同 token 分配不同的重要性级别。它通过计算查询（query）、键（key）和值（value）向量之间的相似性分数来确定这些重要性级别，通常通过点积运算来专注于最相关的 token。

例如，在句子「The cat chased the mouse」中，注意力机制帮助模型将「mouse」与「chased」连接起来。这一功能增强了模型理解上下文的能力，使 Transformer 在自然语言处理任务中非常有效。

问题 3：LLM 中的上下文窗口是什么，为什么它很重要？

上下文窗口是LLM 能够同时处理的 token 数量，它本质上定义了模型理解或创建文本的短期记忆。更大的窗口（例如 32000 个 token）让模型能够考虑更多上下文，在摘要等活动中产生更连贯的结果。另一方面，更大的窗口也意味着更高的计算成本。在窗口大小和运行效率之间找到正确的平衡是在实际场景中使用 LLM 的关键。

问题 4：序列到序列模型是什么，它们在哪里应用？

序列到序列（Seq2Seq) 模型旨在将输入序列转换为输出序列，输出序列的长度通常可以不同。这些模型由编码器（处理输入）和解码器（创建输出）组成。它们应用于各种场景，如机器翻译（例如，从英语到德语）、文本摘要和聊天机器人，其中输入和输出的长度经常不同。

问题 5：嵌入（embeddings）是什么，它们在 LLM 中如何初始化？

嵌入是在连续空间中代表 token 的紧凑向量，捕获它们的语义和句法特征。它们通常以随机值开始，或者使用像 GloVe 这样的预训练模型，然后在训练过程中进行调整。例如，单词「dog」的嵌入可能会被修改以更好地表示其在宠物相关上下文中的使用，这将提高模型的准确性。

问题 6：LLM 如何处理词汇外（out-of-vocabulary, OOV）单词？

LLM 通过使用子词 token 化方法（如字节对编码，Byte-Pair Encoding）来处理 OOV 单词，将这些单词分解为更小的、熟悉的子词单元。例如，像「cryptocurrency」这样的单词可以被分解为「crypto」和「currency」。这种技术使 LLM 能够处理不常见或新的单词，确保它们能够有效地理解和生成语言。

问题 7：Transformer 如何改进传统的 Seq2Seq 模型？

Transformer 通过几种方式解决了传统 Seq2Seq 模型的缺点：

并行处理：使用自注意力允许同时处理 token，这与 RNN 的序列性质不同。
长距离依赖：注意力机制能够捕获文本中相距较远的 token 之间的关系。
位置编码（Positional Encodings）：这些用于维持序列的顺序。

这些特征导致翻译等任务中更好的可扩展性和性能。

问题 8：位置编码是什么，为什么要使用它们？

位置编码用于向 Transformer 的输入添加关于序列顺序的信息，因为自注意力机制本身没有方法知道 token 的顺序。通过使用正弦函数或学习向量，它们确保像「king」和「crown」这样的 token 能够根据其位置被正确理解，这对翻译等任务至关重要。

问题 9：多头注意力（multi-head attention) 是什么，它如何增强 LLM？

多头注意力将查询、键和值分成几个较小的部分，这让模型能够同时专注于输入的不同方面。例如，在给定句子中，一个头可能专注于句法，而另一个可能专注于语义。这增强了模型识别复杂模式的能力。

问题 10：Transformer 如何解决梯度消失问题？

Transformer 通过几种机制解决梯度消失问题：

自注意力：这避免了对序列依赖的需要。
残差连接（Residual Connections）：这些为梯度流动创建直接路径。
层归一化（Layer Normalization）：这有助于保持更新的稳定性。

这些特征使得深度模型的有效训练成为可能，这是相对于 RNN 的优势。

问题 11：在 Transformer 中编码器和解码器有何不同？

编码器负责处理输入序列并将其转换为保持上下文的抽象表示。另一方面，解码器通过使用编码器的表示和先前生成的 token 来生成输出。在翻译的情况下，编码器理解源语言，解码器然后在目标语言中创建输出，这使得有效的序列到序列任务成为可能。

问题 12：什么定义了大型语言模型（LLM）？

LLM 是在广泛文本数据集上训练的 AI 系统，能够理解和产生类似人类的语言。它们的特征是拥有数十亿参数，在翻译、摘要和问答等任务中表现出色，因为它们能够从上下文中学习，这给了它们广泛的适用性。

关键论文

Attention Is All You Need

抛弃了传统的循环和卷积结构，首次提出完全基于自注意力机制的 Transformer 模型，成为当今几乎所有主流 LLM 的架构基础。

https://arxiv.org/abs/1706.03762

Sequence to Sequence Learning with Neural Networks

提出了经典的 Seq2Seq 框架，利用一个 RNN（编码器）读取输入序列，另一个 RNN（解码器）生成输出序列，为机器翻译等任务设定了新的标杆。

https://arxiv.org/abs/1409.3215

Efficient Estimation of Word Representations in Vector Space

提出了 Word2Vec 模型（包含 Skip-gram 和 CBOW 算法），高效地学习到了能捕捉语义关系的词嵌入向量，是现代词表示方法的基石。

https://arxiv.org/abs/1301.3781

模型训练与微调

问题 13：LoRA 和 QLoRA 在 LLM 微调中有什么区别？

LoRA（低秩自适应, Low-Rank Adaptation）是一种微调方法，它将低秩矩阵融入模型的层中，允许以极少的内存需求进行高效适应。QLoRA 在此基础上，通过使用量化（例如，到 4 位精度）来进一步减少内存使用，同时仍保持准确性。举例来说，QLoRA 允许在仅一个 GPU 上对拥有 700 亿参数的模型进行微调，这使其成为资源有限情况下的绝佳选择。

问题 14：LLM 如何在微调期间避免灾难性遗忘？

灾难性遗忘是指模型在微调后失去其先前知识的现象。有几种方法可以防止这种情况：

重播（Rehearsal）：在训练过程中将旧数据和新数据混合在一起。
弹性权重整合（Elastic Weight Consolidation）：这种方法优先考虑重要权重以帮助保持现有知识。
模块化架构：为特定任务添加新模块，以防止现有模块被覆盖。

通过使用这些策略，LLM 可以保持多功能性并在各种任务中表现良好。

问题 15：模型蒸馏是什么，它如何使 LLM 受益？

模型蒸馏是一个过程，其中较小的「学生」模型被训练来复制较大「教师」模型的输出，通过使用软概率而非严格标签。这种方法减少了所需的内存和处理能力，使得模型能够在智能手机等设备上使用，同时仍能实现接近教师模型的性能，使其非常适合实时应用。

问题 16：什么是过拟合（overfitting），在 LLM 中如何缓解？

过拟合是指模型过度学习训练数据，以至于无法泛化到新数据的现象。减少过拟合的方法包括：

正则化：使用 L1/L2 惩罚等技术来简化模型。
Dropout：在训练过程中随机停用神经元。
早停（Early Stopping）：当模型在验证集上的性能不再改善时停止训练。

这些方法有助于确保模型能够对未见过的数据做出稳健的泛化。

问题 17：PEFT 如何缓解灾难性遗忘？

参数高效微调（PEFT）通过只更新模型参数的一小部分，同时保持其余部分冻结以维持预训练期间获得的知识来工作。诸如 LoRA 等方法允许 LLM 适应新任务而不牺牲其基本能力，有助于确保在不同领域的一致性能。

问题 18：超参数（hyperparameter）是什么，为什么它很重要？

超参数是在训练前设置的值（如学习率或批次大小），它们指导模型的训练过程。这些设置影响模型的收敛性和性能；例如，过高的学习率可能导致不稳定。调整超参数是优化 LLM 效率和准确性的方法。

关键论文

Adam: A Method for Stochastic Optimization

提出了 Adam 优化器，它结合了动量（Momentum）和 RMSprop 的优点，成为训练深度神经网络（包括 LLM）最常用、最有效的默认优化算法。

https://arxiv.org/abs/1412.6980

LoRA: Low-Rank Adaptation of Large Language Models

提出了低秩适配（LoRA）方法，通过仅训练少量注入的、低秩的矩阵来实现参数高效微调（PEFT），极大地降低了微调 LLM 的计算和存储成本。

https://arxiv.org/abs/2106.09685

Distilling the Knowledge in a Neural Network

系统性地提出了「知识蒸馏」的概念，即训练一个小模型（学生）来模仿一个大模型（教师）的行为，从而在保持大部分性能的同时实现模型压缩和加速。

https://arxiv.org/abs/1503.02531

文本生成与推理技术

问题 19：束搜索（beam search）相比贪婪解码如何改善文本生成？

在文本生成过程中，束搜索同时考虑多个可能的词序列，在每个阶段保留前「k」个候选（称为束）。这与贪婪解码形成对比，后者在每步只选择单个最可能的单词。通过使用这种方法（例如 k 值为 5），输出更加连贯，因为它在概率和多样性之间取得平衡，这对机器翻译或对话创建等任务特别有用。

问题 20：温度在控制 LLM 输出中起什么作用？

温度是一个调节在生成文本时 token 选择随机性程度的设置。低温度（如 0.3）使模型偏向高概率 token，导致可预测的文本。相反，高温度（如 1.5）通过使概率分布变得更平坦来提高多样性。温度设置为 0.8 通常用于在故事创作等活动中实现创造性和连贯性的良好平衡。

问题 21：top-k 采样和 top-p 采样在文本生成中有何不同？

Top-k 采样将下一个 token 的选择范围缩小到「k」个最可能的选项（例如，k=20），然后从这个较小的群体中采样，这允许受控的多样性。Top-p （或核采样）采样则从概率组合超过某个阈值「p」（如 0.95）的 token 群体中选择，这意味着群体大小可以根据上下文而变化。Top-p 提供更大的适应性，产生既多样又逻辑的输出，这对创意写作有益。

问题 22：为什么提示工程对 LLM 性能至关重要？

提示工程是创建特定输入以从LLM 获得期望响应的实践。定义明确的提示（如「用 100 个单词总结这篇文章」）比模糊的提示产生更相关的输出。这种技术在零样本或少样本场景中特别有用，因为它允许 LLM 在不需要大量微调的情况下执行翻译或分类等任务。

问题 23：检索增强生成（RAG）包含哪些步骤？

RAG 过程包含以下步骤：

检索：使用查询嵌入找到相关文档。
排序：根据相关性对检索到的文档进行排序。
生成：最后，使用检索文档的上下文创建准确答案。

RAG 用于提高问答等任务中答案的事实正确性。

问题 24：思维链提示是什么，它如何帮助推理？

CoT 提示是一种引导 LLM 以类似人类推理的逐步方式处理问题的技术。例如，在解决数学问题时，它将计算分解为一系列逻辑步骤，这在逻辑推理或需要多步骤的查询等复杂任务中产生更好的准确性并使推理过程更容易理解。

关键论文

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

提出了思维链（CoT）提示法，通过引导模型在回答前先生成一步步的推理过程，显著提升了 LLM 在算术、常识和符号推理任务上的表现。

https://arxiv.org/abs/2201.11903

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

提出了 RAG 框架，将预训练的语言模型与非参数化的外部知识库（通过检索器访问）相结合，有效减少了模型幻觉，并能轻松更新知识。

https://arxiv.org/abs/2005.11401

The Curious Case of Neural Text Degeneration

深入分析了传统解码策略（如束搜索）为何会产生重复、乏味和不合逻辑的文本，并提出了核采样（Nucleus Sampling，或 top-p），成为一种主流的高质量文本生成解码策略。

https://arxiv.org/abs/1904.09751

训练范式与学习理论

问题 25：掩码语言建模是什么，它如何帮助预训练？

掩码语言建模（MLM）是一种训练技术，其中文本序列中的随机 token 被隐藏，模型需要基于周围上下文来预测它们。这种方法被用于像 BERT 这样的模型中，鼓励对语言的双向理解，使模型能够更好地理解语义连接。这种预训练为 LLM 准备了各种任务，包括情感分析和问答。

问题 26：自回归模型和掩码模型在 LLM 训练中有何不同？

自回归模型（如 GPT）基于之前的 token 逐个生成 token，这使它们在完成文本等创造性任务中表现出色。相反，掩码模型（如 BERT）通过观察双向上下文来预测隐藏的 token，这使它们更适合像分类这样的理解任务。这些模型的训练方式决定了它们在生成或理解方面的不同优势。

问题 27：下句预测是什么，它如何增强 LLM？

下句预测（NSP）是一种训练方法，其中模型学习判断两个句子是否逻辑上连续或不相关。在预训练阶段，像 BERT 这样的模型被教导对句子对进行分类，一半是连续的（正例），另一半是随机的（负例）。NSP 通过使模型理解句子间的关系，帮助改善对话系统和文档摘要等应用中的连贯性。

问题 28：在 NLP 中生成式模型与判别式模型有何区别？

生成式模型（如 GPT）通过建模数据的联合概率来创建文本或图像等新内容。另一方面，判别式模型（如用于分类的 BERT）建模条件概率来区分类别，如情感分析中的情况。生成式模型最擅长创造新事物，而判别式模型专注于做出准确的分类。

问题 29：判别式 AI 和生成式 AI 有何不同？

判别式AI（如情感分类器）通过基于输入特征预测标签来工作，涉及建模条件概率。另一方面，生成式 AI（如 GPT）通过建模联合概率来创建新数据，使其非常适合文本或图像生成等任务并提供创造性自由。

问题 30：零样本学习是什么，LLM 如何实现它？

零样本学习是LLM 通过利用预训练期间获得的一般知识来执行未经专门训练的任务的能力。例如，如果向 LLM 提示「将这个评论分类为积极或消极」，它可以在没有针对该特定任务训练的情况下确定情感，这展示了其适应性。

问题 31：少样本学习是什么，它有什么好处？

少样本学习允许LLM 通过利用其预训练知识仅用少数例子就能承担任务。这种方法的优势包括减少对数据的需求、更快适应新任务和节省成本，这使其成为特定类型文本分类等专业任务的绝佳选择。

关键论文

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

提出了BERT 模型及其核心训练任务「掩码语言模型」（MLM），通过双向上下文来预训练模型，极大地提升了模型对语言的深层理解能力，成为理解任务的里程碑。

https://arxiv.org/abs/1810.04805

Improving Language Understanding by Generative Pre-Training

提出了生成式预训练（Generative Pre-Training, GPT）范式，即先在海量无标签数据上进行自回归预训练，再针对下游任务进行微调，奠定了 GPT 系列模型的基础。

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

Language Models are Unsupervised Multitask Learners

这篇是GPT-2 的论文，它证明了通过在更大、更多样的数据集上训练一个足够大的自回归模型，可以使其在没有明确监督的情况下执行多种任务（零样本学习），展示了语言模型强大的泛化能力。

https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

数学原理与优化算法

问题 32：Softmax 函数如何应用于注意力机制？

Softmax 函数使用公式

将注意力分数转换为概率分布。在注意力的上下文中，它将来自查询和键的点积的原始相似性分数转换为权重，有助于更强调相关的 token。这确保模型专注于对上下文重要的输入部分。

问题 33：点积如何对自注意力起作用？

在自注意力机制中，查询（Q）和键（K）向量的点积用于计算相似性分数，如公式

所示。高分数意味着token 彼此相关。虽然这种方法是高效的，但它对长序列具有

的二次复杂度，这导致了对稀疏注意力等其他选择的研究。

问题 34：为什么在语言建模中使用交叉熵损失（cross-entropy loss）？

交叉熵损失用于衡量模型预测的token 概率与实际概率之间的差异，根据公式

它通过惩罚错误的预测来工作，推动模型做出更准确的token 选择。在语言建模中，这确保模型给正确的下一个 token 高概率，有助于优化其性能。

问题 35：在 LLM 中如何计算嵌入的梯度？

嵌入的梯度在反向传播过程中使用链式法则计算，遵循方程式

这些梯度然后用于修改嵌入向量，以减少损失，从而细化它们的语义表示并在任务中获得更好的性能。

问题 36：雅可比矩阵（Jacobian matrix）在 Transformer 反向传播中的作用是什么？

雅可比矩阵用于表示输出相对于输入的偏导数。在 Transformer 中，它对于计算多维输出的梯度起关键作用，确保权重和嵌入在反向传播期间得到正确更新。这对复杂模型的优化至关重要。

问题 37：特征值和特征向量如何与降维相关？

特征向量显示数据变化的主要方向，特征值表示这些方向上的变化量。在 PCA 等方法中，选择具有高特征值的特征向量允许在保持大部分方差的同时进行降维，这为 LLM 处理提供了更高效的数据表示。

问题 38：KL 散度（KL divergence）是什么，它在 LLM 中如何使用？

KL 散度是衡量两个概率分布之间差异的度量，计算为

在LLM 的上下文中，它用于评估模型的预测与真实分布的吻合程度，有助于指导微调过程以增强输出质量及其与目标数据的对齐。

问题 39：ReLU 函数的导数是什么，为什么它很重要？

ReLU 函数定义为

其导数当x > 0 时为 1，否则为 0。其稀疏性和非线性特征有助于避免梯度消失问题，使 ReLU 成为 LLM 中计算高效且流行的稳健训练选择。

问题 40：链式法则（chain rule）如何应用于 LLM 中的梯度下降？

链式法则用于找到由其他函数组成的函数的导数，遵循公式

在梯度下降中使用时，它通过允许逐层计算梯度来促进反向传播，从而实现参数的高效更新以最小化深度 LLM 架构中的损失。

问题 41：在 Transformer 中如何计算注意力分数？

注意力分数的计算由公式

给出。缩放点积用于确定token 的相关性，Softmax 函数然后将这些分数归一化以专注于最重要的 token，这改善了摘要等任务中的上下文感知生成。

问题 42：自适应 Softmax 如何优化 LLM？

自适应 Softmax 通过根据词汇出现频率对其进行分类来提高效率，减少不常见词汇所需的计算。这种方法降低了管理大型词汇表的成本，导致更快的训练和推理时间，同时保持准确性，在资源有限的环境中特别有用。

关键论文

Deep Residual Learning for Image Recognition

提出了残差网络（ResNet），通过引入「残差连接」（Shortcut Connections）有效解决了深度神经网络中的梯度消失问题，使得训练数百甚至上千层的网络成为可能。这一思想被 Transformer 架构所借鉴。

https://arxiv.org/abs/1512.03385

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

提出了批量归一化（Batch Normalization），一种稳定和加速神经网络训练的强大技术。Transformer 中使用的层归一化（Layer Normalization）也源于类似的思想。

https://arxiv.org/abs/1502.03167

高级模型与系统设计

问题 43：GPT-4 在功能和应用方面与 GPT-3 有何不同？

GPT-4 在几个方面改进了 GPT-3：

多模态输入：它可以处理文本和图像。
更大的上下文：它可以处理多达25000 个 token，相比之下 GPT-3 只能处理 4096 个。
增强的准确性：由于更好的微调，它犯的事实错误更少。

这些进步使其能够用于更广泛的应用，包括视觉问答和复杂对话。

问题 44：Gemini 如何优化多模态 LLM 训练？

Gemini 通过几种方式提高效率：

统一架构：它集成文本和图像处理以更高效地使用参数。
先进注意力：它利用更先进的注意力机制来增强跨模态学习的稳定性。
数据效率：它采用自监督方法来减少对标注数据的依赖。

这些特征使Gemini 相比 GPT-4 等模型成为更稳定和可扩展的选择。

问题 45：存在哪些类型的基础模型（foundation models）？

基础模型可以分类为：

语言模型：包括BERT 和 GPT-4 等模型，用于基于文本的任务。
视觉模型：例如ResNet，用于图像分类等任务。
生成模型：DALL-E 是用于创建新内容的模型示例。
多模态模型：CLIP 是同时处理文本和图像的模型。

这些模型利用广泛的预训练来适用于各种用途。

问题 46：专家混合（MoE）如何增强 LLM 的可扩展性？

MoE 使用门控函数将每个输入导向特定的专家子网络，有助于降低计算需求。例如，对于任何给定查询，可能只有 10% 的模型参数被激活，这允许拥有数十亿参数的模型高效运行，同时仍提供高性能。

问题 47：知识图谱集成如何改善 LLM？

知识图谱以几种方式为LLM 提供结构化的事实信息：

减少幻觉（Hallucinations）：它们允许根据图谱验证事实。
改善推理：它们利用实体间的关系来改善推理。
增强上下文：它们提供结构化上下文，产生更好的响应。

这对问答和实体识别等应用特别有益。

关键论文

Language Models are Few-Shot Learners

这篇是GPT-3 的论文，它通过将模型参数扩展到前所未有的 1750 亿，展示了 LLM 强大的少样本（Few-Shot）甚至零样本（Zero-Shot）上下文学习能力，用户只需在提示中给出少量示例即可完成任务。

https://arxiv.org/abs/2005.14165

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer

提出了稀疏门控的专家混合（MoE）层，允许模型在保持每个输入计算成本不变的情况下，将参数量扩展到万亿级别，是实现当今最高效、最大规模 LLM 的关键技术。

https://openreview.net/pdf?id=B1ckMDqlg

Gemini: A Family of Highly Capable Multimodal Models

作为技术报告，它介绍了原生多模态模型Gemini 的设计。Gemini 从一开始就被设计为可以无缝地理解和处理文本、代码、音频、图像和视频等多种信息类型。

https://arxiv.org/abs/2312.11805

应用、挑战与伦理

问题 48：如何修复生成有偏见或错误输出的 LLM？

要纠正LLM 的有偏见或不准确输出，您需要采取以下步骤：

分析模式：寻找数据或所使用提示中偏见的来源。
改进数据：使用平衡的数据集并应用技术来减少偏见。
微调：使用策划的数据重新训练模型或采用对抗方法。

这些行动有助于改善公平性和准确性。

问题 49：LLM 与传统统计语言模型有何不同？

LLM 基于 Transformer 架构构建，在庞大数据集上训练，并使用无监督预训练，而统计模型（如 N-grams）依赖于更简单的监督技术。LLM 能够管理长距离依赖，使用上下文嵌入，执行广泛的任务，但它们也需要大量的计算能力。

问题50：LLM 在部署中面临哪些挑战？

部署LLM 相关的挑战包括：

资源密集性：它们有很高的计算需求。
偏见：存在它们可能延续训练数据中存在的偏见的风险。
可解释性：它们的复杂性使它们难以解释。
隐私：数据安全存在潜在问题。

处理这些挑战对于确保LLM 的道德和有效使用是必要的。

关键论文

On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?

这篇论文引发了广泛的讨论，它批判性地审视了大规模语言模型存在的偏见、环境成本、不可解释性等风险，并对未来发展方向提出了警示。

https://dl.acm.org/doi/pdf/10.1145/3442188.3445922

Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings

系统性地揭示并量化了词嵌入中存在的社会偏见（如性别偏见），并提出了消除这些偏见的算法，是研究 AI 公平性和偏见的早期关键工作。

https://arxiv.org/abs/1607.06520

Survey of Hallucination in Natural Language Generation

作为一篇综述性论文，它全面地总结和分类了LLM 中的「幻觉」（即生成与事实不符或无意义内容）现象，分析了其成因、评估方法和缓解策略。

https://arxiv.org/abs/2202.03629

#DCM

10×加速！DCM显著提升视频扩散模型推理效率！HunyuanVideo13B推理时间从1500秒缩短至120秒！

本文由南京大学，香港大学，上海人工智能实验室，中国科学院大学与南洋理工大学 S-Lab 联合完成。

扩散模型在视频合成任务中取得了显著成果，但其依赖迭代去噪过程，带来了巨大的计算开销。尽管一致性模型（Consistency Models）在加速扩散模型方面取得了重要进展，直接将其应用于视频扩散模型却常常导致时序一致性和外观细节的明显退化。

本文通过分析一致性模型的训练动态，发现蒸馏过程中存在一个关键的冲突性学习机制：在不同噪声水平的样本上，优化梯度和损失贡献存在显著差异。这种差异使得蒸馏得到的学生模型难以达到最优状态，最终导致时序一致性受损、画面细节下降。

为解决这一问题，本文提出了一种参数高效的双专家一致性模型（Dual-Expert Consistency Model, DCM）：其中 Semantic Expert 负责学习语义布局和运动信息，Detail Expert 则专注于细节的合成。此外，引入了 Temporal Coherence Loss 以增强语义专家的运动一致性，并引入 GAN Loss 与 Feature Matching Loss 以提升细节专家的合成质量。

DCM 在显著减少采样步数的同时，仍能达到当前相当的视觉质量，验证了双专家机制在视频扩散模型蒸馏中的有效性。

论文标题：DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation

论文地址：https://arxiv.org/pdf/2506.03123

代码地址：https://github.com/Vchitect/DCM

项目主页：https://vchitect.github.io/DCM

为什么一致性蒸馏在视频生成上表现不佳？

扩散模型在图像和视频生成中表现出令人印象深刻的性能。然而，扩散模型迭代采样的性质和规模逐渐增长的去噪 transformer 网络，给推理过程带来了繁重的计算代价。

为了缓解这个问题，一致性蒸馏通过减少采样步数，降低推理时延。它通过训练一个 student 模型学习直接映射采样轨迹上任意一个点到相同的解点，以满足 self-consistency 性质，进而提升少步推理结果的视觉质量。尽管支持少步采样，它在复杂的视频合成中往往难以保证视觉质量，容易出现布局错乱、运动不自然以及细节降质等问题。

通过对推理过程的分析可以发现，相邻时间步的去噪结果在推理早期差异显著，而在后期变得更加缓慢和平滑。这是因为推理早期主要关注于合成语义，布局和运动这些相对低频的特征成分，而在推理后期更加强调细节的合成。

这表明，在蒸馏过程中，student 模型在高噪声和低噪声训练样本中学习不同的模式，可能表现出不同的 learning dynamics。通过可视化蒸馏过程中一致性损失和损失梯度在高噪声样本和低噪声样本上的趋势变化，可以看到，它们表现出显著的差异，这表明联合蒸馏一个 student 模型可能会引入优化的干扰，从而导致次优的视觉质量。

Dual-Expert 一致性模型：优化解耦与轻量高效设计

为了解耦蒸馏过程，本文首先根据推理过程中的去噪结果的变化趋势将 ODE 解轨迹分为两段：语义合成阶段和细节合成阶段。然后分别为两个阶段训练两个 Expert Denoiser，SemE 和 DetE，以满足对应阶段的 self-consistency 性质。在推理时，基于样本的噪声水平动态地选择 SemE 或者 DetE 作为去噪网络。这种方式虽然获得了更好的视觉质量，但是也带来了双倍的参数代价，更大的内存消耗。

为了提升参数效率，进一步分析了两个 Expert Denoisers 之间的参数差异，发现它们主要存在于 embedding layers 和 attention layers 中。基于此，本文设计了一种参数高效的 Dual-Expert 一致性模型，具体来说，首先在语义合成轨迹上训练语义合成专家 SemE，然后冻结它，并引入一套新的 embedding layers 和一个 LoRA。在细节合成轨迹上微调和更新这些新添加的参数。通过这种方式，解耦了两个 Expert Denoisers 的优化过程，并且仅仅引入了少量的额外参数，实现了相当的视觉质量。

此外，考虑到两个 Expert Denoisers 不同的 training dynamics，在一致性损失的基础上，为语义合成专家 SemE 额外引入了 Temporal Coherence 损失，以捕获帧间运动变化。为了增强 DetE 的细节合成质量，为 DetE 引入了生成对抗损失和 Feature Matching 损失。

DCM 性能表现：10x 加速，相当视觉质量

为了验证 DCM 的有效性，本文在 HunyuanVideo，CogVideoX 和 WAN2.1 上进行了实验。如下表所示，在 4 步生成下，DCM 在实现了超过 10x 加速 (1504.5→121.52) 的同时，获得了与原始 50 步采样相当的 Vbench 得分（83.83%→83.86%），显著超过 LCM 和 PCM 的表现。

下图展示了 DCM 与原始模型、LCM 和 PCM 生成视频的对比。可以看到，在减少推理步数的同时，DCM 依然能够保持较高的语义质量和细节质量。

结语

本文指出，当前视频合成中的一致性蒸馏存在一个关键的优化冲突：在不同噪声水平的训练样本上，优化梯度和损失贡献存在显著差异。将整个 ODE 轨迹压缩到一个单一的学生模型中，会导致这些因素难以平衡，从而造成生成结果的降质。为了解决这一问题，本文提出了一种参数高效的双专家蒸馏框架（Dual-Expert Distillation Framework），通过将语义学习与细节精修解耦，实现更合理的建模。此外，引入了 Temporal Coherence Loss 来增强语义专家的运动一致性，并为细节专家引入 GAN Loss 和 Feature Matching Loss，以提升细节合成质量。DCM 在显著减少采样步数的同时，仍能达到当前相当的视觉效果，展现了专家分工机制在视频扩散模型蒸馏中的有效性。