当前位置: 首页 > news >正文

NCCL、HCCL、通信、优化

文章目录

    • 从硬件PCIE、NVLINK、RDMA原理到通信NCCL、MPI原理!
    • 通信实现方式:机器内通信、机器间通信
    • 通信实现方式:通讯协调
    • 通信实现方式:机器内通信:PCIe
    • 通信实现方式:机器内通信:NVLink
    • 通信实现方式:机器间通信:RDMA(直连模式)
    • 通信协调:软件篇
    • 通信协调:软件篇:MPI
    • 通信协调:软件篇:NCCL
    • 点对点通信、集合式通信

从硬件PCIE、NVLINK、RDMA原理到通信NCCL、MPI原理!

通信实现方式:机器内通信、机器间通信

计算机通网络通讯中最重要的两个衡量指标是:带宽、延迟

在这里插入图片描述

内存共享:比如 多个应用共享手机里面的同一块内存
PCIe:最明显的方式就是 gpu 与 cpu 之间的通信,大部分都通过之间的PCIe插槽进行的
NVLink(直连模式):GPU 与 GPU 之间进行一个互通

在这里插入图片描述
Q:不同机柜之间的GPU的访问,不是通过NVSwitch进行全互联的吗。那这个机器间的通信,都传输什么信息呢?通讯、互传数据、等待和同步相关的问题,这些信息是走什么传输的呢?
---- 如果是NVLink通信的话,它应该还是属于 机器内通信,而不是机器间通讯(TCP/IP、RDMA)

蓝色的线:通过网线进行连接
AI集群里面,可能更多的用到 RDMA 的网络模型通信


通信实现方式:通讯协调

在这里插入图片描述

通信实现方式:机器内通信:PCIe

在这里插入图片描述

通信实现方式:机器内通信:NVLink

在这里插入图片描述


通信实现方式:机器间通信:RDMA(直连模式)

在这里插入图片描述
在这里插入图片描述
(1)左边的图是TCP/IP,右边的是RDMA
(2)左边的几个蓝色方框,在传递的时候 需要经过好几次的用户的内存拷贝,对大数据执行起来会非常的缓慢,数据量越大的时候,这个延迟是很难去接受的!
(3)而RDMA新的协议,就是用户直接跳过kernel层,直接传到远端的服务器,数据绕过CPU,直接通过RDMA设备,对远端的虚拟内存直接进行访问读和写;

(4)既然是机器间通信,那么不同机器间是通过以太网连接的
(5)Q:RDMA是通过网线连接的吗?
在这里插入图片描述


通信协调:软件篇

在这里插入图片描述


通信协调:软件篇:MPI

在这里插入图片描述


通信协调:软件篇:NCCL

在这里插入图片描述
(1)对网络拓扑进行一个感知,topo是长什么样子的,回环是怎么组织的
(2)对网络拓扑进行一个搜索,找到一个最好的通信的策略
(3)使能CUDA的kernel 对数据进行通信

在这里插入图片描述


点对点通信、集合式通信

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


在这里插入图片描述

http://www.lryc.cn/news/530603.html

相关文章:

  • unity学习21:Application类与文件存储的位置
  • 17 一个高并发的系统架构如何设计
  • Spring Boot 实例解析:配置文件
  • pytorch图神经网络处理图结构数据
  • 计算机网络一点事(23)
  • (9)下:学习与验证 linux 里的 epoll 对象里的 EPOLLIN、 EPOLLHUP 与 EPOLLRDHUP 的不同。小例子的实验
  • DeepSeek-R1模型1.5b、7b、8b、14b、32b、70b和671b有啥区别?
  • 一、html笔记
  • AI大模型开发原理篇-2:语言模型雏形之词袋模型
  • 基于微信小程序的实习记录系统设计与实现(LW+源码+讲解)
  • 【LLM】DeepSeek-R1-Distill-Qwen-7B部署和open webui
  • 【Elasticsearch】 Intervals Query
  • DeepSeek技术深度解析:从不同技术角度的全面探讨
  • Docker 部署 Starrocks 教程
  • 【LLM-agent】(task6)构建教程编写智能体
  • 29.Word:公司本财年的年度报告【13】
  • 14 2D矩形模块( rect.rs)
  • 【Unity3D】实现2D角色/怪物死亡消散粒子效果
  • Linux - 进程间通信(3)
  • 3、C#基于.net framework的应用开发实战编程 - 实现(三、三) - 编程手把手系列文章...
  • C++编程语言:抽象机制:泛型编程(Bjarne Stroustrup)
  • Python面试宝典13 | Python 变量作用域,从入门到精通
  • 基于最近邻数据进行分类
  • DeepSeek V3 vs R1:大模型技术路径的“瑞士军刀“与“手术刀“进化
  • 一、TensorFlow的建模流程
  • 指导初学者使用Anaconda运行GitHub上One - DM项目的步骤
  • 7层还是4层?网络模型又为什么要分层?
  • C++:抽象类习题
  • C++ 泛型编程指南02 (模板参数的类型推导)
  • 音视频入门基础:RTP专题(5)——FFmpeg源码中,解析SDP的实现