当前位置: 首页 > news >正文

tensor core实现flash_attn_mma_share_kv源码分析

一 源码分析

1.1 函数入口

void flash_attn_mma_stages_split_q_shared_kv(torch::Tensor Q, torch::Tensor K, torch::Tensor V, torch::Tensor O, int stages) {CHECK_TORCH_TENSOR_DTYPE(Q, torch::kHalf) // Q [B,H,N,D]CHECK_TORCH_TENSOR_DTYPE(K, torch::kHalf) // K [B,H,N,D]CHECK_TORCH_TENSOR_DTYPE(V, torch::kHalf) // V [B,H,N,D]CHECK_TORCH_TENSOR_DTYPE(O, torch::kHalf) // O [B,H,N,D]const int d = Q.size(3); // B, H, N, dif (stages > 1) {switch (d){case 32:launch_flash_attn_mma_stages_split_q_shared_kv<32,  2>(Q, K, V, O);
http://www.lryc.cn/news/520055.html

相关文章:

  • 【源码解析】Java NIO 包中的 MappedByteBuffer
  • 【Docker系列】容器内目录显示异常的解决之道
  • echarts:dataZoom属性横向滚动条拖拽不生效
  • 25/1/12 算法笔记 剖析Yolov8底层逻辑
  • Python双指针
  • 1、docker概念和基本使用命令
  • 数据结构与算法之链表: LeetCode 92. 反转链表 II (Ts版)
  • 【PPTist】插入形状、插入图片、插入图表
  • 三台Centos7.9中Docker部署Redis集群
  • Entity 的材质(棋盘、条纹、网格)
  • MACPA:fMRI连接性分析的新工具
  • JavaScript-一份你的前端入门说明书(计算机专业)
  • STM32供电参考设计
  • python+fpdf:创建pdf并实现表格数据写入
  • 亚远景-ASPICE评估:汽车软件项目的过程能力评价
  • 电脑提示directx错误导致玩不了游戏怎么办?dx出错的解决方法
  • 【13】制作镜像以及重启实例
  • electron 启动警告
  • wow-agent 学习笔记
  • 使用Cilium/eBPF实现大规模云原生网络和安全
  • “深入浅出”系列之C++:(4)回调函数
  • Mysql--运维篇--主从复制和集群(主从复制I/O线程,SQL线程,二进制日志,中继日志,集群NDB)
  • 设计模式 行为型 状态模式(State Pattern)与 常见技术框架应用 解析
  • 计算机网络 (38)TCP的拥塞控制
  • 鸿蒙面试 2025-01-09
  • 【关于for循环的几种写法】
  • Apache和PHP:构建动态网站的黄金组合
  • 免费开源的下载工具Xdown
  • Three.js 数学工具:构建精确3D世界的基石
  • 如何明智地提问