当前位置: 首页 > news >正文

NVIDIA开源Fast-dLLM!解析分块KV缓存与置信度感知并行解码技术

Talk主页:http://qingkeai.online/
文章原文:https://mp.weixin.qq.com/s/P0PIAMo1GVYH4mdWdIde_Q

Fast-dLLM 是NVIDIA联合香港大学、MIT等机构推出的扩散大语言模型推理加速方案。

在这里插入图片描述

论文:Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding
链接:http://arxiv.org/abs/2505.22618
代码:https://github.com/NVlabs/Fast-dLLM
项目主页:https://nvlabs.github.io/Fast-dLLM

其通过分块KV缓存与置信度感知并行解码技术,在无需重新训练模型的前提下,实现了推理速度的突破性提升——在LLaDA模型1024 token长文本生成任务中,端到端推理速度狂飙27.6倍,整体耗时从266秒压缩至12秒,且主流基准测试准确率损失控制在2%以内。

该方案兼具零训练成本与多模型兼容性,为扩散模型在长文本生成、实时交互等场景的落地提供了高效可行的优化路径。

港大&NV&MIT开源Fast-dLLM:无需重新训练模型,直接提升扩散语言模型的推理效率

6月24日晚8点,青稞Talk 第57期,香港大学MMLab博士生吴成岳,将直播分享《Fast-dLLM:无需重训的扩散大语言模型推理加速》。

分享嘉宾

吴成岳,香港大学MMLab博士生,导师为罗平老师和王文平老师,研究方向为多模态大模型,发表高水平学术论文十余篇,一作发表包括ICML,ACL,CVPR等业内顶级会议,2项发明专利申请中,开源项目GitHub获stars 18k+,谷歌学术引用723次,获得国家奖学金,香港政府奖学金,香港大学校长奖学金以及黑龙江省优秀毕业生,哈尔滨工业大学优秀毕业论文等荣誉,担任TPAMI,CVPR等多个顶刊顶会审稿人。

主题提纲

Fast-dLLM:无需重训的扩散大语言模型推理加速

1、扩散大语言模型推理难点
2、Fast-dLLM 核心技术解析:
- 分块 KV 缓存
- 置信度感知并行解码
3、在 LLaDA、Dream 模型上的性能验证及应用实践

直播时间

6月24日20:00 - 21:00

http://www.lryc.cn/news/572691.html

相关文章:

  • 旋转图像C++
  • json.Unmarshal精度丢失问题分析
  • vue3组件式开发示例
  • 大模型与搜索引擎的技术博弈及未来智能范式演进
  • MySQL查询语句的通配符*
  • 组态王工程运行时间显示
  • 【案例拆解】米客方德 SD NAND 在车联网中(有方模块)的应用:破解传统 TF 卡振动脱落与寿命短板
  • 在VTK中捕捉体绘制图像进阶(同步操作)
  • 零基础入门PCB设计 一实践项目篇 第三章(STM32开发板原理图设计)
  • 云计算处理器选哪款?性能与能效的平衡艺术
  • 【网络安全】文件上传型XSS攻击解析
  • 特征金字塔在Vision Transformer中的创新应用:原理、优势与实现分析
  • AS32系列MCU芯片I2C模块性能解析与调试
  • 408第二季 - 组成原理 - 流水线
  • Linux之线程同步与互斥
  • Rust 学习笔记:Unsafe Rust
  • 使用 .NET Core 8.0 和 SignalR 构建实时聊天服务
  • OPENPPP2 VMUX 技术探秘(高级指南)
  • 北京京东,看看难度
  • 解锁决策树:数据挖掘的智慧引擎
  • ffmpeg 给视频画圆圈
  • Electron (02)集成 SpringBoot:服务与桌面程序协同启动方案
  • 大白话说目标检测中的IOU(Intersection over Union)
  • Maven并行构建
  • 单点登录进阶:基于芋道(yudao)授权码模式的单点登录流程、代码实现与安全设计
  • SAP-ABAP:LOOP ... ASSIGNING高效处理内表数据详解
  • pandas polars 数据类型转换
  • 【pdf】Java代码生成PDF
  • lingma(阿里云Ai)结合idea使用
  • uni-app-配合iOS App项目开发apple watch app