当前位置: 首页 > news >正文

Hopper架构 GEMM教程

一 使用

1.1 makefile

compile:nvcc -arch=sm_90a -lcuda -lcublas -std=c++17 matmul_h100_optimal.cu -o testrun:./test

加入-lcublas,不然会有函数无法被识别 

二 代码分析

2.1 kernel外参数分析

2.1.1 基本参数

    constexpr int BM = 64*2;constexpr int BN = 256;constexpr int BK = 64;constexpr int NUM_THREADS = 128*3;constexpr int QSIZE = 3;constexpr int CLUSTER_M = 2;constexpr int CLUSTER_N = 1;constexpr int NUM_SM = 128;static_assert(NUM_SM % (CLUSTER_M*CLUSTER_N) == 0);

2.1.2 SMem结构体

template <int BM, int BN, int BK, int QSIZE&
http://www.lryc.cn/news/540238.html

相关文章:

  • CV -- 基于GPU版CUDA环境+Pycharm YOLOv8 目标检测
  • ELK8.17部署(Ubantu24x64)
  • Python glob模块使用示例代码
  • npm、pnpm和yarn有什么区别
  • Java 基础面试
  • ac的dhcp池里option43配错导致ap无法上线问题排查过程
  • 第1章:LangChain4j的聊天与语言模型
  • Cython学习笔记1:利用Cython加速Python运行速度
  • 【从0做项目】Java音缘心动(1)———项目介绍设计
  • 智慧农业新生态 | 农业数字化服务平台——让土地生金,让服务无忧
  • C++编程,#include <iostream>详解,以及using namespace std;作用
  • jetbrains IDEA集成大语言模型
  • 理解都远正态分布中指数项的精度矩阵(协方差逆矩阵)
  • 使用 Spark NLP 实现中文实体抽取与关系提取
  • less-8 boolen盲注,时间盲注 函数补全
  • [NKU]C++基础课(五)补充:结构体
  • 亲测可用,IDEA中使用满血版DeepSeek R1!支持深度思考!免费!免配置!
  • springcloud整合seata
  • Html5学习教程,从入门到精通,HTML5 简介语法知识点及案例代码(1)
  • Django加bootstrap实现上传文件含有进度条
  • 八大排序算法(2)交换排序-冒泡排序 和 快速排序
  • Python的那些事第二十三篇:Express(Node.js)与 Python:一场跨语言的浪漫邂逅
  • STM32MP157A单片机移植Linux驱动
  • Qt程序退出相关资源释放问题
  • 【大学生职业规划大赛备赛PPT资料PDF | 免费共享】
  • win32汇编环境,对话框中使用菜单示例一
  • AutoDock CrankPep or ADCP进行蛋白质多肽对接
  • 高压直流熔断器研究
  • 微信小程序(uni)+蓝牙连接+Xprint打印机实现打印功能
  • 使用 Docker 部署 Flask 应用