当前位置: 首页 > news >正文

FlashDecoding

Flash Attention是将Q划分到所有SM block上。每个SM block上的Q,负责和所有K和所有V进行计算,得到对应的结果。期间,SM block彼此之间,不需要通信。

在prefill阶段,seqLength*batchSize*Heads足够多,所以每个SM block上有足够多的Query。

但是,在decoding阶段,因为Query的seqLength=1,且batchSize=1,因此SM block数目无法都利用上。

解决方法:

将K和V均分成几份,划分给SM block。缺点:最后需要将不同SM block上的中间结果,进行通信,进行归一化的softmax和结果Reduce。

动图:

大模型推理加速之Flash Decoding:更小子任务提升并行度 - 知乎

http://www.lryc.cn/news/535368.html

相关文章:

  • 提示词生成新方法,用Make自动化生成
  • 每日一题——括号生成
  • 实操部署DeepSeek,添加私有知识库
  • 宜宾数字经济新标杆:树莓集团赋能区域产业转型升级
  • 8.大规模推荐系统的实现
  • 第三届通信网络与机器学习国际学术会议(CNML 2025)
  • MySQL两阶段提交策略
  • uniapp商城之购物车模块
  • STM32_USART通用同步/异步收发器
  • python自动化测试之Pytest框架之YAML详解以及Parametrize数据驱动!
  • python基础入门:6.3异常处理机制
  • Mybatis快速入门与核心知识总结
  • 畅聊deepseek-r1,SiliconFlow 硅基流动注册+使用
  • 一个基于ESP32S3和INMP441麦克风实现音频强度控制RGB灯带律动的代码及效果展示
  • Springboot 中如何使用Sentinel
  • 访问Elasticsearch服务 curl ip 端口可以 浏览器不可以
  • Curser2_解除机器码限制
  • 人工智能与低代码如何重新定义企业数字化转型?
  • arkTS基础
  • C++20中的std::atomic_ref
  • 四、自然语言处理_08Transformer翻译任务案例
  • spring学习(使用spring加载properties文件信息)(spring自定义标签引入)
  • bigemap pro如何进行poi兴趣点搜索?
  • Mybatis源码02 - 初始化基本过程(引导层部分)
  • 【Elasticsearch】bucket_sort
  • k8s证书过期怎么更新?
  • 活动预告 |【Part 1】Microsoft 安全在线技术公开课:通过扩展检测和响应抵御威胁
  • AIGC-微头条爆款文案创作智能体完整指令(DeepSeek,豆包,千问,Kimi,GPT)
  • C# 比较两个List集合内容是否相同
  • vue2 多页面pdf预览