当前位置：首页 > news >正文

AI算力综述和资料整理

news 2025/6/30 12:36:01

总体介绍

AI算力是人工智能系统的核心基础设施，涵盖了从计算精度、传输协议到硬件架构的完整技术栈。

计算精度

混合精度训练

原生满血版 DeepSeek 671B 是 FP8 精度。

FP16在训练计算力占比有80-90%，FP32占比10%-20%。大模型训练中通常会用到 FP16（半精度浮点数），但并不是只使用FP16，而是采用**混合精度训练（Mixed Precision Training）**的方式。

在模型的前向传播和反向传播中，使用 FP16 来加速矩阵运算，同时减少显存占用。这是因为FP16相比FP32占用内存更少，计算速度更快，尤其是在支持Tensor Cores的硬件（如NVIDIA GPU）上表现尤为明显。

在权重更新、梯度累积和损失函数计算等关键步骤中，则使用 FP32（单精度浮点数），以保证数值的稳定性和精度，避免数值溢出或下溢的问题。

优势：混合精度训练既能显著提升训练速度，又能保持模型的收敛性和准确性。

推理计算力分配

大模型推理的计算力分配以低精度（FP16/BF16/INT8）为主，结合硬件加速和模型结构优化（如MoE、MoD）实现效率与精度的平衡。

未来趋势包括更低比特量化（如4-bit）、专用硬件设计（针对Prefill/Decode阶段）及端-云协同的分布式推理。

参考链接：一文了解模型精度（FP16、FP8等）、所需显存计算以及量化概念

传输协议

网络协议对比

IB与NVLink：前者是跨节点高速网络，后者是单机GPU互联协议，两者在AI集群中协同工作
IB的性能优势：在延迟、带宽、稳定性上领先，但成本高、生态封闭
RoCE的定位：以成本优势和以太网生态弥补性能差距，成为中大规模集群的性价比之选

技术选型建议

超算/千卡级训练：优先选择IB（如NVIDIA Quantum-2交换机）
中等规模/混合云：采用RoCE（如阿里云弹性RDMA）
单机多卡：依赖NVLink（如DGX H100）

协议层次关系

IB和RoCE：是网络协议层的高性能传输技术，前者为专用协议，后者基于以太网扩展，两者通过RDMA优化数据传输效率
RJ45：是物理接口标准，与协议无关，仅提供设备间的物理连接支持
协同关系：RoCE可通过RJ45接口部署在以太网中，而IB需独立组网，三者共同构成网络系统的不同层级（协议层与物理层）

GPU池化

GPU池化技术实现了GPU资源的统一管理和动态分配。

参考链接：GPU池化技术详解

资源调度

AI智算平台

参考链接：AI 智算平台-基石智算

GPU调度技术

参考链接：AI 时代 Kubernetes GPU 调度器怎么选？最佳实践告诉你

参考链接：知乎盐选 | 7.2 人工智能业务下 GPU 资源调度的工程化方案

参考链接：一文读懂 GPU 资源动态调度-腾讯云开发者社区-腾讯云

CUDA技术

核心组件

nvidia-smi：nvidia-smi（NVIDIA System Management Interface）是一个命令行工具，用于管理和监控NVIDIA GPU设备。

CUDA Toolkit：nvcc（NVIDIA CUDA Compiler）是 CUDA Toolkit 的核心组件之一，是NVIDIA CUDA编译器，用于编译CUDA程序。CUDA是一种由NVIDIA推出的并行计算平台和编程模型，用于利用NVIDIA GPU进行通用计算（即GPGPU）。nvcc 将CUDA代码（通常是.cu文件）编译成可以在NVIDIA GPU上执行的机器码。

技术栈

CUDA之上有cuDNN训练、TensorRT训练。

WSL环境配置

wsl安装cuda步骤：

wsl update更新内核版本
windows上安装nvidia驱动、cuda
wsl安装nvcc
验证：python -c "import torch; print(torch.cuda.is_available())"

GPU硬件

硬件采购

高校采购案例

深圳大学H100采购项目（2024年12月）：

预算金额：996万元
中标金额：995.7万元
供应商：中国联合网络通信有限公司深圳市分公司
品牌型号：超微SYS-821GE-TNHR

技术规格要求：

处理器：支持≥2颗X86可扩展处理器，单颗处理器≥48核，基本主频≥2.1GHz
内存：配置≥2048GB（≥32PCS*≥64GB, DDR5 ≥4800Hz）
硬盘：配置≥2块≥480GB SATA SSD，≥2块≥7.68TB NVME SSD 2.5in
IB卡：配置≥4个ConnectX7 NDR 400G（单端口，含光模块），≥2个ConnectX6 HDR 200G（单端口，含光模块）
GPU：配置≥8个GPU卡，每个GPU卡的性能要求：FP32≧60TFLOPS，FP16≥1900TFLOPS，单卡GPU显存≥80G，任意两卡间互联带宽不低于900GB/s
网卡：配置≥1个≥25G光口（双端口），≥1个≥1Gb(带内管理）
电源：配置≥4个热插拔电源模块
服务器结构：机架式服务器，高度=8U

参考链接：995万元，4台H100：深圳大学