AI算力综述和资料整理
目录
- 总体介绍
- 计算精度
- 传输协议
- GPU池化
- 资源调度
- CUDA技术
- GPU硬件
- 参考链接
总体介绍
AI算力是人工智能系统的核心基础设施,涵盖了从计算精度、传输协议到硬件架构的完整技术栈。
计算精度
混合精度训练
原生满血版 DeepSeek 671B 是 FP8 精度。
FP16在训练计算力占比有80-90%,FP32占比10%-20%。大模型训练中通常会用到 FP16(半精度浮点数),但并不是只使用FP16,而是采用**混合精度训练(Mixed Precision Training)**的方式。
在模型的前向传播和反向传播中,使用 FP16 来加速矩阵运算,同时减少显存占用。这是因为FP16相比FP32占用内存更少,计算速度更快,尤其是在支持Tensor Cores的硬件(如NVIDIA GPU)上表现尤为明显。
在权重更新、梯度累积和损失函数计算等关键步骤中,则使用 FP32(单精度浮点数),以保证数值的稳定性和精度,避免数值溢出或下溢的问题。
优势:混合精度训练既能显著提升训练速度,又能保持模型的收敛性和准确性。
推理计算力分配
大模型推理的计算力分配以低精度(FP16/BF16/INT8)为主,结合硬件加速和模型结构优化(如MoE、MoD)实现效率与精度的平衡。
未来趋势包括更低比特量化(如4-bit)、专用硬件设计(针对Prefill/Decode阶段)及端-云协同的分布式推理。
参考链接:一文了解模型精度(FP16、FP8等)、所需显存计算以及量化概念
传输协议
网络协议对比
- IB与NVLink:前者是跨节点高速网络,后者是单机GPU互联协议,两者在AI集群中协同工作
- IB的性能优势:在延迟、带宽、稳定性上领先,但成本高、生态封闭
- RoCE的定位:以成本优势和以太网生态弥补性能差距,成为中大规模集群的性价比之选
技术选型建议
- 超算/千卡级训练:优先选择IB(如NVIDIA Quantum-2交换机)
- 中等规模/混合云:采用RoCE(如阿里云弹性RDMA)
- 单机多卡:依赖NVLink(如DGX H100)
协议层次关系
- IB和RoCE:是网络协议层的高性能传输技术,前者为专用协议,后者基于以太网扩展,两者通过RDMA优化数据传输效率
- RJ45:是物理接口标准,与协议无关,仅提供设备间的物理连接支持
- 协同关系:RoCE可通过RJ45接口部署在以太网中,而IB需独立组网,三者共同构成网络系统的不同层级(协议层与物理层)
GPU池化
GPU池化技术实现了GPU资源的统一管理和动态分配。
参考链接:GPU池化技术详解
资源调度
AI智算平台
参考链接:AI 智算平台-基石智算
GPU调度技术
参考链接:AI 时代 Kubernetes GPU 调度器怎么选?最佳实践告诉你
参考链接:知乎盐选 | 7.2 人工智能业务下 GPU 资源调度的工程化方案
参考链接:一文读懂 GPU 资源动态调度-腾讯云开发者社区-腾讯云
CUDA技术
核心组件
nvidia-smi:nvidia-smi(NVIDIA System Management Interface)是一个命令行工具,用于管理和监控NVIDIA GPU设备。
CUDA Toolkit:nvcc(NVIDIA CUDA Compiler)是 CUDA Toolkit 的核心组件之一,是NVIDIA CUDA编译器,用于编译CUDA程序。CUDA是一种由NVIDIA推出的并行计算平台和编程模型,用于利用NVIDIA GPU进行通用计算(即GPGPU)。nvcc 将CUDA代码(通常是.cu文件)编译成可以在NVIDIA GPU上执行的机器码。
技术栈
CUDA之上有cuDNN训练、TensorRT训练。
WSL环境配置
wsl安装cuda步骤:
- wsl update更新内核版本
- windows上安装nvidia驱动、cuda
- wsl安装nvcc
- 验证:
python -c "import torch; print(torch.cuda.is_available())"
GPU硬件
硬件采购
高校采购案例
深圳大学H100采购项目(2024年12月):
- 预算金额:996万元
- 中标金额:995.7万元
- 供应商:中国联合网络通信有限公司深圳市分公司
- 品牌型号:超微SYS-821GE-TNHR
技术规格要求:
- 处理器:支持≥2颗X86可扩展处理器,单颗处理器≥48核,基本主频≥2.1GHz
- 内存:配置≥2048GB(≥32PCS*≥64GB, DDR5 ≥4800Hz)
- 硬盘:配置≥2块≥480GB SATA SSD,≥2块≥7.68TB NVME SSD 2.5in
- IB卡:配置≥4个ConnectX7 NDR 400G(单端口,含光模块),≥2个ConnectX6 HDR 200G(单端口,含光模块)
- GPU:配置≥8个GPU卡,每个GPU卡的性能要求:FP32≧60TFLOPS,FP16≥1900TFLOPS,单卡GPU显存≥80G,任意两卡间互联带宽不低于900GB/s
- 网卡:配置≥1个≥25G光口(双端口),≥1个≥1Gb(带内管理)
- 电源:配置≥4个热插拔电源模块
- 服务器结构:机架式服务器,高度=8U
参考链接:995万元,4台H100:深圳大学
GPU vs CPU
GPU和CPU在AI算力中扮演不同的角色,各有其独特的优势和应用场景。
性能对比
TFLOPS指标对比:Nvidia的A100 GPU可以达到9.7 TFLOPS(每秒9.7万亿次运算),而最新的Intel 24核处理器只能达到0.33 TFLOPS。这意味着,即便是中等配置的GPU,其速度也至少是顶级CPU的30倍以上。
程序类型与处理器匹配
顺序程序:所有指令必须一个接一个、按部就班地依次执行。这类程序适合CPU处理,因为CPU拥有少量的大核心,能够高效处理复杂的逻辑和决策。
并行程序:多个指令可以同时执行,因为它们之间不存在依赖关系。这类程序适合GPU处理,因为GPU包含大量的小核心(例如NVIDIA H100 GPU有数千个核心),可以同时对不同的数据执行相同的操作。
混合程序:大多数实际应用都是由顺序和并行代码混合组成的。例如,一个程序可能50%可并行化,即一半的指令可以独立执行。
处理器设计差异
CPU设计特点:
- 拥有少量的大核心(如Apple M3有8个核心)
- 擅长处理复杂的顺序处理和决策制定
- 能够处理随机事件和不可预测的任务
- 适合运行操作系统和协调多个应用程序
GPU设计特点:
- 包含大量的小核心(数千个核心)
- 专为高度并行计算优化
- 在重复性计算任务中表现出色
- 适合图形渲染、矩阵运算等并行密集型任务
实际应用场景
CPU适用场景:
- 操作系统管理
- 应用程序协调
- 复杂逻辑处理
- 随机事件响应
- 系统资源管理
GPU适用场景:
- 深度学习训练和推理
- 图形渲染
- 大规模矩阵运算
- 并行数据处理
- 科学计算
参考链接:“既然 GPU 这么好,那为什么我们还要用 CPU?”
NVIDIA GPU系列对比
参考链接:英伟达 V100、A100/800、H100/800 GPU 对比
参考链接:Nvidia 系列显卡
GPU架构演进
nvidia架构演进:Kepler → Maxwell → Pascal → Volta → Turing → Ampere → Hopper → Blackwell
参考链接:这篇GPU学习笔记,详细整理了其工作原理、编程模型和架构设计
参考链接
计算精度
- 一文了解模型精度(FP16、FP8等)、所需显存计算以及量化概念
GPU池化
- GPU池化技术详解
资源调度
- AI 智算平台-基石智算
- AI 时代 Kubernetes GPU 调度器怎么选?最佳实践告诉你
- 知乎盐选 | 7.2 人工智能业务下 GPU 资源调度的工程化方案
- 一文读懂 GPU 资源动态调度-腾讯云开发者社区-腾讯云
GPU硬件
- 995万元,4台H100:深圳大学
- “既然 GPU 这么好,那为什么我们还要用 CPU?”
- 英伟达 V100、A100/800、H100/800 GPU 对比
- Nvidia 系列显卡
- 这篇GPU学习笔记,详细整理了其工作原理、编程模型和架构设计