当前位置: 首页 > news >正文

xAI巨无霸超级计算机上线:10万张H100 GPU,计划翻倍至20万张

在短短四个多月的时间里,埃隆·马斯克的X公司(前身为Twitter)推出了世界上最强劲的人工智能训练系统。名为Colossus的超级计算机使用了多达10万张NVIDIA H100 GPU进行训练,并计划在未来几个月内再增加5万张H100和H200 GPU。

“本周末,xAI团队启动了我们的Colossus 10万张H100训练集群,”埃隆·马斯克在X平台上写道,“从头到尾只用了122天。Colossus是世界上最强大的AI训练系统。而且,它将在几个月内规模翻倍,达到20万张(其中5万张为H200)。”

根据高科技巨头戴尔公司的负责人迈克尔·戴尔的说法,戴尔迅速开发并组装了Colossus系统。这表明服务器制造商在近几年的人工智能热潮中积累了相当丰富的部署AI服务器的经验。

埃隆·马斯克及其公司的超级计算机布局

近期,埃隆·马斯克和他的公司一直在频繁发布有关超级计算机的消息。8月底,特斯拉宣布推出其Cortex AI集群,其中包括5万张NVIDIA H100 GPU和2万片特斯拉自家的Dojo AI晶圆级芯片。在此之前,7月末,X公司启动了名为Memphis的超级集群用于AI训练,该集群包含10万张液冷H100 GPU。据估计,这一超级计算机至少需要消耗150兆瓦的电力,因为10万张H100 GPU大约需要70兆瓦的电力。

尽管所有这些集群在形式上已经投入运营并开始训练AI模型,但实际上有多少集群真正上线却并不清楚。首先,调试和优化这些超级集群的设置需要一定的时间。其次,X公司需要确保它们有足够的电力供应,尽管埃隆·马斯克的公司已经在使用14台柴油发电机为Memphis超级计算机供电,但仍然不足以满足所有10万张H100 GPU的电力需求。

xAI的LLM训练与资源需求

xAI正在训练Grok版本2大型语言模型(LLM),这需要多达2万张NVIDIA H100 GPU。马斯克预测,未来的版本,如Grok 3,将需要更多的资源,可能需要大约10万张NVIDIA H100处理器来进行训练。为此,xAI需要其庞大的数据中心来训练Grok 3,并在此模型上运行推理。

技术与规模挑战
  • 调试与优化:即使是顶级的超级计算机集群,也需要经历调试和优化的过程。这不仅仅是为了确保硬件能够正常工作,也是为了优化软件和硬件之间的协同工作,从而实现最佳性能。
  • 能源供应:对于如此大规模的计算需求,能源供应是一个巨大的挑战。现有的电力基础设施可能无法完全满足如此大规模的集群,这也促使公司探索新的供电方案,比如使用备用电源或者寻找可再生能源解决方案。
  • 冷却技术:随着GPU数量的增加,散热问题变得越来越严重。液冷技术的应用不仅提高了冷却效率,还降低了噪音污染,这对于大规模数据中心的可持续发展至关重要。
  • 未来展望:随着AI模型复杂度的不断提高,所需的计算资源也随之增加。未来的超级计算机不仅要解决硬件和能源的问题,还需要在软件层面做出改进,以更好地支持大规模的分布式计算任务。

总之,埃隆·马斯克及其团队通过推出Colossus超级计算机,展示了他们在人工智能领域的雄心壮志。随着技术的进步和需求的增长,未来的超级计算机将面临更多的挑战,同时也将迎来更多的发展机遇。

http://www.lryc.cn/news/431079.html

相关文章:

  • python集合
  • 算法打卡 Day29(回溯算法)-复原 IP 地址 + 子集 + 子集 Ⅱ
  • LeetCode 热题100-17 缺失的第一个正数
  • 基于CloudflareSpeedTest项目实现git clone加速
  • 对与单纯post方法写项目的修改成baseservlet方法
  • 北京地铁换乘站人流量监控与图像识别技术优化
  • Day16_0.1基础学习MATLAB学习小技巧总结(16)——元胞数组
  • C#自定义控件的放置与拖动
  • python circular import python循环导入问题
  • kafka集群安装
  • SQL通用语法、SQL分类以及DDL
  • 静态链接和动态链接
  • 构建智能门禁安防系统:树莓派 4B、OpenCV、SQLite 和 MQTT 的应用(代码示例)
  • 基于 Konva 实现Web PPT 编辑器(二)
  • 【开源免费】基于SpringBoot+Vue.JS在线竞拍系统(JAVA毕业设计)
  • Qt TabWidget添加多个窗口,实现分页窗体布局
  • HarmonyOS开发实战( Beta5版)合理使用动画丢帧规范实践
  • 基于BiLSTM-CRF的医学命名实体识别研究(下)模型构建
  • 5.sklearn-朴素贝叶斯算法、决策树、随机森林
  • VMWARE VCENTER6.7 VCSA通过Web5480进行版本升级
  • GIT使用常见问题
  • 内核链表
  • 行空板上YOLO和Mediapipe视频物体检测的测试
  • 【Spring Boot 3】【Web】ProblemDetail
  • 市占率最高的显示器件,TFT_LCD的驱动系统设计--Part 1
  • Linux基础 -- 获取CPU负载信息
  • Django 中的用户界面 - 创建速度计算器
  • spring security 如何解决跨域的
  • 日志系统前置知识
  • 【Spring Boot 3】【Web】全局异常处理