当前位置: 首页 > news >正文

AI算力综述和资料整理

目录

  • 总体介绍
  • 计算精度
  • 传输协议
  • GPU池化
  • 资源调度
  • CUDA技术
  • GPU硬件
  • 参考链接

总体介绍

AI算力是人工智能系统的核心基础设施,涵盖了从计算精度、传输协议到硬件架构的完整技术栈。

计算精度

混合精度训练

原生满血版 DeepSeek 671B 是 FP8 精度。

FP16在训练计算力占比有80-90%,FP32占比10%-20%。大模型训练中通常会用到 FP16(半精度浮点数),但并不是只使用FP16,而是采用**混合精度训练(Mixed Precision Training)**的方式。

在模型的前向传播和反向传播中,使用 FP16 来加速矩阵运算,同时减少显存占用。这是因为FP16相比FP32占用内存更少,计算速度更快,尤其是在支持Tensor Cores的硬件(如NVIDIA GPU)上表现尤为明显。

在权重更新、梯度累积和损失函数计算等关键步骤中,则使用 FP32(单精度浮点数),以保证数值的稳定性和精度,避免数值溢出或下溢的问题。

优势:混合精度训练既能显著提升训练速度,又能保持模型的收敛性和准确性。

推理计算力分配

大模型推理的计算力分配以低精度(FP16/BF16/INT8)为主,结合硬件加速模型结构优化(如MoE、MoD)实现效率与精度的平衡。

未来趋势包括更低比特量化(如4-bit)、专用硬件设计(针对Prefill/Decode阶段)及端-云协同的分布式推理。

参考链接:一文了解模型精度(FP16、FP8等)、所需显存计算以及量化概念

传输协议

网络协议对比

  • IB与NVLink:前者是跨节点高速网络,后者是单机GPU互联协议,两者在AI集群中协同工作
  • IB的性能优势:在延迟、带宽、稳定性上领先,但成本高、生态封闭
  • RoCE的定位:以成本优势和以太网生态弥补性能差距,成为中大规模集群的性价比之选

技术选型建议

  • 超算/千卡级训练:优先选择IB(如NVIDIA Quantum-2交换机)
  • 中等规模/混合云:采用RoCE(如阿里云弹性RDMA)
  • 单机多卡:依赖NVLink(如DGX H100)

协议层次关系

  • IB和RoCE:是网络协议层的高性能传输技术,前者为专用协议,后者基于以太网扩展,两者通过RDMA优化数据传输效率
  • RJ45:是物理接口标准,与协议无关,仅提供设备间的物理连接支持
  • 协同关系:RoCE可通过RJ45接口部署在以太网中,而IB需独立组网,三者共同构成网络系统的不同层级(协议层与物理层)

GPU池化

GPU池化技术实现了GPU资源的统一管理和动态分配。

参考链接:GPU池化技术详解

资源调度

AI智算平台

参考链接:AI 智算平台-基石智算

GPU调度技术

参考链接:AI 时代 Kubernetes GPU 调度器怎么选?最佳实践告诉你

参考链接:知乎盐选 | 7.2 人工智能业务下 GPU 资源调度的工程化方案

参考链接:一文读懂 GPU 资源动态调度-腾讯云开发者社区-腾讯云

CUDA技术

核心组件

nvidia-smi:nvidia-smi(NVIDIA System Management Interface)是一个命令行工具,用于管理和监控NVIDIA GPU设备。

CUDA Toolkit:nvcc(NVIDIA CUDA Compiler)是 CUDA Toolkit 的核心组件之一,是NVIDIA CUDA编译器,用于编译CUDA程序。CUDA是一种由NVIDIA推出的并行计算平台和编程模型,用于利用NVIDIA GPU进行通用计算(即GPGPU)。nvcc 将CUDA代码(通常是.cu文件)编译成可以在NVIDIA GPU上执行的机器码。

技术栈

CUDA之上有cuDNN训练、TensorRT训练

WSL环境配置

wsl安装cuda步骤

  1. wsl update更新内核版本
  2. windows上安装nvidia驱动、cuda
  3. wsl安装nvcc
  4. 验证:python -c "import torch; print(torch.cuda.is_available())"

GPU硬件

硬件采购

高校采购案例

深圳大学H100采购项目(2024年12月):

  • 预算金额:996万元
  • 中标金额:995.7万元
  • 供应商:中国联合网络通信有限公司深圳市分公司
  • 品牌型号:超微SYS-821GE-TNHR

技术规格要求

  • 处理器:支持≥2颗X86可扩展处理器,单颗处理器≥48核,基本主频≥2.1GHz
  • 内存:配置≥2048GB(≥32PCS*≥64GB, DDR5 ≥4800Hz)
  • 硬盘:配置≥2块≥480GB SATA SSD,≥2块≥7.68TB NVME SSD 2.5in
  • IB卡:配置≥4个ConnectX7 NDR 400G(单端口,含光模块),≥2个ConnectX6 HDR 200G(单端口,含光模块)
  • GPU:配置≥8个GPU卡,每个GPU卡的性能要求:FP32≧60TFLOPS,FP16≥1900TFLOPS,单卡GPU显存≥80G,任意两卡间互联带宽不低于900GB/s
  • 网卡:配置≥1个≥25G光口(双端口),≥1个≥1Gb(带内管理)
  • 电源:配置≥4个热插拔电源模块
  • 服务器结构:机架式服务器,高度=8U

参考链接:995万元,4台H100:深圳大学

GPU vs CPU

GPU和CPU在AI算力中扮演不同的角色,各有其独特的优势和应用场景。

性能对比

TFLOPS指标对比:Nvidia的A100 GPU可以达到9.7 TFLOPS(每秒9.7万亿次运算),而最新的Intel 24核处理器只能达到0.33 TFLOPS。这意味着,即便是中等配置的GPU,其速度也至少是顶级CPU的30倍以上。

程序类型与处理器匹配

顺序程序:所有指令必须一个接一个、按部就班地依次执行。这类程序适合CPU处理,因为CPU拥有少量的大核心,能够高效处理复杂的逻辑和决策。

并行程序:多个指令可以同时执行,因为它们之间不存在依赖关系。这类程序适合GPU处理,因为GPU包含大量的小核心(例如NVIDIA H100 GPU有数千个核心),可以同时对不同的数据执行相同的操作。

混合程序:大多数实际应用都是由顺序和并行代码混合组成的。例如,一个程序可能50%可并行化,即一半的指令可以独立执行。

处理器设计差异

CPU设计特点

  • 拥有少量的大核心(如Apple M3有8个核心)
  • 擅长处理复杂的顺序处理和决策制定
  • 能够处理随机事件和不可预测的任务
  • 适合运行操作系统和协调多个应用程序

GPU设计特点

  • 包含大量的小核心(数千个核心)
  • 专为高度并行计算优化
  • 在重复性计算任务中表现出色
  • 适合图形渲染、矩阵运算等并行密集型任务
实际应用场景

CPU适用场景

  • 操作系统管理
  • 应用程序协调
  • 复杂逻辑处理
  • 随机事件响应
  • 系统资源管理

GPU适用场景

  • 深度学习训练和推理
  • 图形渲染
  • 大规模矩阵运算
  • 并行数据处理
  • 科学计算

参考链接:“既然 GPU 这么好,那为什么我们还要用 CPU?”

NVIDIA GPU系列对比

参考链接:英伟达 V100、A100/800、H100/800 GPU 对比

参考链接:Nvidia 系列显卡

GPU架构演进

nvidia架构演进:Kepler → Maxwell → Pascal → Volta → Turing → Ampere → Hopper → Blackwell

参考链接:这篇GPU学习笔记,详细整理了其工作原理、编程模型和架构设计

参考链接

计算精度

  • 一文了解模型精度(FP16、FP8等)、所需显存计算以及量化概念

GPU池化

  • GPU池化技术详解

资源调度

  • AI 智算平台-基石智算
  • AI 时代 Kubernetes GPU 调度器怎么选?最佳实践告诉你
  • 知乎盐选 | 7.2 人工智能业务下 GPU 资源调度的工程化方案
  • 一文读懂 GPU 资源动态调度-腾讯云开发者社区-腾讯云

GPU硬件

  • 995万元,4台H100:深圳大学
  • “既然 GPU 这么好,那为什么我们还要用 CPU?”
  • 英伟达 V100、A100/800、H100/800 GPU 对比
  • Nvidia 系列显卡
  • 这篇GPU学习笔记,详细整理了其工作原理、编程模型和架构设计
http://www.lryc.cn/news/576967.html

相关文章:

  • Hive SQL 快速入门指南
  • 从理论到实战:解密大型语言模型的核心技术与应用指南
  • 理解 Confluent Schema Registry:Kafka 生态中的结构化数据守护者
  • 算法-基础算法-递归算法(Python)
  • 【C++11】异常
  • 【python】~实现工具软件:QQ邮件即时、定时发送
  • 预期功能安全SOTIF基本介绍
  • Kafka中的消费者偏移量是如何管理的?
  • 华为云Flexus+DeepSeek征文|基于华为云Flexus云服务快速搭建Dify-LLM应用开发平台详细教程
  • Springboot 集成 SpringState 状态机
  • Linux下的调试器-gdb(16)
  • Tcpdump 网络抓包工具使用
  • ali PaddleNLP docker
  • Vivado关联Vscode
  • BUCK电感电流检测电路current sense-20250603
  • 逆向工程恢复信息的方法
  • JVM中的垃圾收集(GC)
  • 【个人纪录】vscode配置clangd
  • 节点小宝:告别公网IP,重塑你的远程连接体验
  • Vue列表渲染与数据监测原理
  • word换行居中以后 前面的下划线不显示
  • Python中的序列化和反序列化
  • 2个任务同时提交到YARN后2个都卡住(CDH)
  • CNN, RNN, LSTM
  • 四大WordPress模板资源网站
  • 【QT】信号和槽(1) 使用 || 定义
  • 数据结构复习4
  • stm32之测量周期
  • GPT,GPT-2,GPT-3 论文精读笔记
  • 各种常用的串口助手工具分享