当前位置: 首页 > news >正文

DeepSeek-OpenSourceWeek-第三天-Release of DeepGEMM

DeepGEMM:这是一款专为高效的 FP8(8 位浮点)通用矩阵乘法(GEMMs)而开发的尖端库。GEMMs 是许多 AI 工作负载(尤其是深度学习)中的基本操作。

  • 特点

    • 支持稠密和 MoE GEMMs:它可以处理标准的稠密矩阵乘法以及混合专家(MoE)模型中使用的矩阵乘法。MoE 是一种神经网络架构,通过使用多个专家网络来提高模型性能。

    • V3/R1 训练和推理:该库专门支持 DeepSeek 的 V3 和 R1 模型的训练和推理,这些可能是他们的最新 AI 模型。

性能与效率

  • 高性能:DeepGEMM 在 Hopper GPU 上可实现超过 1350+ FP8 TFLOPS(每秒万亿次浮点运算)。这表明它针对现代 GPU 架构进行了高度优化。

  • 简洁轻量:该库没有复杂的依赖项,易于集成和使用。它被描述为“像教程一样简洁”,这意味着代码结构清晰易懂。

  • 即时编译:该库使用即时(JIT)编译,即在执行过程中即时编译代码。这可以带来更高效和优化的性能。

1 What is GEMM?

通用矩阵乘法(GEMM) 是一种 两个输入矩阵相乘并生成一个输出矩阵的数学运算 。公式为:

其中, A 和 B 是输入矩阵, C 是输出矩阵,α 和 β 是标量, op(A) 和 op(B) 表示对矩阵 A 和 B 的操作,如转置或不转置。

重要性及应用场景

  • GEMM 是线性代数中的基础操作 ,在众多领域有着广泛的应用,包括但不限于计算机科学、物理学、工程学等领域。

  • 在深度学习中,GEMM 是神经网络训练和推理的核心组件 。矩阵乘法是神经网络运算的基本构成部分,如全连接层、卷积层等,都涉及到大量的矩阵乘法运算。

运算原理

  • 输入矩阵与输出矩阵

    • 假设矩阵 A 的维度是

http://www.lryc.cn/news/543912.html

相关文章:

  • LeetCode 1472.设计浏览器历史记录:一个数组完成模拟,单次操作均O(1)
  • AI+游戏,正在进行时!
  • 贪心算法精品题
  • sql server 复制从备份初始化数据
  • 【蓝桥杯】1.k倍区间
  • Qt互斥锁(QMutex)的使用、QMutexLocker的使用
  • 具身智能(Embodied AI)的物理交互基准测试:构建真实世界的智能体评估体系
  • Javaweb后端数据库多表关系一对多,外键,一对一
  • 鸿蒙 ArkUI 实现敲木鱼小游戏
  • cv2.solvePnP 报错 求相机位姿
  • Linux实操——在服务器上直接从百度网盘下载(/上传)文件
  • 2004-2024年光刻机系统及性能研究领域国内外发展历史、差距、研究难点热点、进展突破及下一个十年研究热点方向2025.2.27
  • 请求Geoserver的WTMS服务返回200不返回图片问题-跨域导致
  • ubuntu配置jmeter
  • 《Qt动画编程实战:轻松实现头像旋转效果》
  • 【Mac电脑本地部署Deepseek-r1:详细教程与Openwebui配置指南】
  • DeepSeek开源技术全景解析:从硬件榨取到AI民主化革命
  • WPF12-MVVM
  • 一个原教旨的多路径 TCP
  • 跟着AI学vue第十三章
  • labview中VISA串口出现异常的解决方案
  • StableDiffusion本地部署 2
  • unity学习61:UI布局layout
  • BRD4缺失通过GRP78灭活内质网应激,延缓脱氢表雄酮诱导的卵巢颗粒细胞凋亡
  • Jmeter插件下载及安装
  • 【Swift 算法实战】判断数组中是否存在重复元素
  • Spock框架:让单元测试更优雅的高效武器
  • 【前端基础】Day 4 CSS盒子模型
  • 补题蓝桥杯14届JavaB组第4题
  • kotlin的函数标准库使用