当前位置: 首页 > news >正文

至强6搭配美光CZ122,证明CXL可以提高生成式AI的性能表现

最近发现了英特尔官网公布的一项最新测试报告,报告显示,将美光的CZ122 CXL内存模块放到英特尔至强6平台上,显著提升了HPC和AI工作负载的内存带宽,特别是在采用基于软件的交错配置(interleave configuration)时,性能优化潜力诱人。

实验中,将12根DDR5内存组成NUMA0,将另外8个美光CXL DDR4内存模组组成CXL NUMA1,考虑到性能差异可能会带来的问题,相关研究者已经在Linux内核(6.11.6)层面进行了优化。

上图清晰展示了在高负载条件下,通过将DRAM和CXL内存组合使用,可以显著提升系统带宽并降低延迟。DRAM + CXL 的优化交错配置(interleaving strategy) 实现了内存资源的高效利用,特别是对于带宽密集型工作负载。

测试人员还发现,DRAM和CXL在不同读写比例下,带宽的表现会有明显差异。其中,DRAM在写的比例更多时,内存带宽会下降。而CXL利用了PCIe双向传输的能力,在写的比例越来越高的时候,带宽会越来越高。

DRAM的延迟较低,但是带宽部分其实不如CXL,在高负载场景下,DRAM的带宽瓶颈会导致性能迅速下降。CXL内存虽然内存延迟比较高,但凭借优秀的双向读写能力,能提供额外的带宽扩展,缓解系统内存压力。

这意味着,在实际应用中,如果想更好地利用CXL的优势,还得看具体场景对延迟和带宽的需求。从操作层面来看,就需要用户根据工作负载来调整使用的DRAM和CXL内存的配比。

接下来看,在实测数据中,DDR5 DRAM搭配DDR4 CXL内存模组是如何提高性能的。

在大语言模型推理任务中,研究人员使用了Intel PyTorch 扩展(IPEX),该开源工具对英特尔硬件进行了专门优化。通过采用3:1 DRAM与CXL内存比例,LLAMA3-8B-Instruct 的推理速度相比仅使用 DRAM 提升了17%。

FAISS 是由 Facebook AI 开发的高效相似性搜索库,用于密集向量的聚类和搜索。在 2:1 DRAM与CXL比例下,FAISS 工作负载的查询时间降低,性能提升了 23%。

说完了大家都比较关心的AI场景,接下来说HPC场景的价值。

OpenFOAM 是一款开源计算流体力学(CFD)软件,用于模拟各种流体动力学场景。采用5:2 DRAM:CXL比例时,OpenFOAM工作负载的执行时间缩短了22%。

HPCG基准测试侧重于稀疏线性系统的求解,强调内存访问模式和数据移动,反映真实科学和工程应用的行为。在3:1 DRAM:CXL 比例 下,HPCG 基准测试实现了 27% 的性能提升。

Xcompact3D基准测试用于评估计算系统在求解不可压缩Navier-Stokes方程时的效率,尤其适用于流体动力学模拟,如3D Taylor-Green涡流。在5:2 DRAM:CXL比例下,Xcompact3D基准测试性能提升达25%。

POT3D基准测试模拟三维Poisson方程,主要用于评估系统在科学与工程计算中的性能,尤其是在分子动力学和计算物理领域。采用 5:2 DRAM:CXL 比例 时,POT3D 工作负载性能提升了27%。

总之,CXL内存的引入使得系统能够有效地扩展内存带宽,解决了传统内存架构的带宽瓶颈,尤其是在大规模AI训练和高性能计算等应用中。通过DRAM和CXL内存搭配,能够根据不同负载的需求,灵活调整内存资源的分配比例,最大化带宽利用率。

实验还表明,随着CXL内存技术的逐步成熟,未来的计算系统将能更好地满足AI、大数据处理以及其他计算密集型应用对内存带宽和容量的要求。通过合理配置内存比例,系统能够更加高效地处理高读写比率的混合负载,提升计算性能和响应速度。

http://www.lryc.cn/news/517049.html

相关文章:

  • 一文理解ssh,ssl协议以及应用
  • 电子应用设计方案87:智能AI收纳箱系统设计
  • BloombergGPT: A Large Language Model for Finance——面向金融领域的大语言模型
  • LeetCode - #180 Swift 实现连续数字查询
  • 为什么ip属地一会河南一会江苏
  • 使用最广泛的FastAPI项目结构推荐,命名规范等
  • [大模型开源]SecGPT 网络安全大模型
  • android 启动页倒计时页面编写
  • nuxt3路由及路由拦截
  • git版本管理
  • 382M 雨晨 19045.5247 Win10PE 网络版
  • 在二维数组中列优先存放是怎么进行的
  • Unity【Colliders碰撞器】和【Rigibody刚体】的应用——小球反弹效果
  • CES 2025:ROG打造极致游戏体验
  • 英伟达 RTX 5090 显卡赋能医疗大模型:变革、挑战与展望
  • Windows 11 上配置VSCode 使用 Git 和 SSH 完整步骤
  • [读书日志]从零开始学习Chisel 第二篇:Scala的变量与函数(敏捷硬件开发语言Chisel与数字系统设计)
  • Unity:删除注册表内的项目记录
  • 【记录】东南大学研究生24-25秋季 学位英语考试
  • LabVIEW四边形阻抗继电器
  • 计算机网络(第8版)第3章课后习题--透明传输
  • 极限学习机 (Extreme Learning Machine, ELM) 算法详解与PyTorch实现
  • Hbuilder ios 离线打包sdk版本4.36,HbuilderX 4.36生成打包资源 问题记录
  • 实验四 数组和函数
  • 基于安卓14 的ANR dump信息原理
  • C++ volatile(八股总结)
  • SQL从入门到实战
  • Redis源码阅读-源码阅读方式
  • 若依框架简介
  • MOE怎样划分不同专家:K-Means聚类算法来实现将神经元特征聚类划分