当前位置: 首页 > news >正文

Grok-4 发布会图文总结

文章目录

  • 00:00 - Grok-4:以“全球最智能 AI”之名突破性登场
  • 06:41 - 推理能力的大幅飞跃:100 倍训练量铸就的“博士级”大脑
  • 13:25 - 工具使用能力的革新:从“原始”到深度整合
  • 20:06 - 直面强化学习的挑战与 AI 的终极测试
  • 26:45 - 应用演示:在浏览器中模拟黑洞碰撞
  • 33:29 - 基准测试霸榜:全面超越所有对手
  • 40:16 - 语音交互与 API:更自然、更开放
  • 46:53 - 赋能开发者:从商业策略到游戏创作
  • What is next? - 通往视频生成和通用智能的加速之路
  • 总结


7 月 9 日,xAI 举办了一场定义下一代人工智能的发布会,正式推出其号称“全球最智能 AI”的旗舰模型 Grok-4。发布会通过一系列令人震撼的现场演示和全面的基准测试数据,证明了 Grok-4 在超人级别的推理、复杂的工具使用和长远战略规划方面的卓越能力。从 4 小时制作一款游戏到在模拟商业中收益翻倍,Grok-4 展示的不仅仅是技术的飞跃,更是通往一个由 AI 深度赋能的未来的清晰路线图。

下面我们就按照时间顺序复盘一下Grok-4这48分钟的发布会都有什么亮点。

00:00 - Grok-4:以“全球最智能 AI”之名突破性登场

  • 智能的飞跃:埃隆·马斯克开场便直接宣布 Grok-4 是“世界最智能的 AI”,并强调其学习速度“远超任何人类”。他指出,Grok-4 面对 SAT 考试能次次获得满分,甚至在各学科的研究生入学考试(GRE)中都能取得近乎完美的成绩,其学识水平已达到“所有学科的研究生级别”。
  • 超人级推理:针对“AI 无法推理”的说法,马斯克明确反驳:“不,它可以在超人级别上进行推理 (it can reason at superhuman levels)”。
    请添加图片描述

06:41 - 推理能力的大幅飞跃:100 倍训练量铸就的“博士级”大脑

  • 指数级增长:Grok-4 的训练计算量是 Grok-2 的整整 100 倍。团队不仅在“预训练”上投入巨大算力,更在“推理强化学习 (RL)”上投入了比任何其他模型多 10 倍的计算资源。
    请添加图片描述* 挑战极限基准:发布会重点介绍了“人类最后的大考 (Humanity’s Last Exam)”这一极难基准,其问题难度均为博士或前沿研究级别。马斯克评价道:“没有任何人类能在这个测试中取得高分”。
    在这里插入图片描述
    在这里插入图片描述
    请添加图片描述
  • “全科博士”:马斯克反复强调一个惊人的事实:“Grok-4 在每个学科上都优于博士水平,无一例外 (Grok is better than PhD level in every subject no exceptions)”。他预测,Grok-4 最快可能在今年晚些时候发现新技术,明年发现新物理。

13:25 - 工具使用能力的革新:从“原始”到深度整合

  • 更原生的工具使用:与 Grok-3 依赖泛化能力不同,Grok-4 在训练中就直接整合了工具使用,使其在调用工具时更加可靠和强大。
    在这里插入图片描述
  • 承认“原始”阶段:马斯克坦言,相较于特斯拉或 SpaceX 使用的“有限元分析”等高级工业工具,Grok-4 目前的工具使用仍处于“相当原始的阶段 (fairly primitive tool use)”。但他承诺,今年晚些时候会为其提供这些强大的公司级工具。

20:06 - 直面强化学习的挑战与 AI 的终极测试

  • 数据瓶颈:xAI 团队坦诚,随着模型越来越智能,为其寻找足够有“挑战性的问题”已成为新的“数据瓶颈”。
  • 现实是终极的试金石:马斯克提出了一个核心观点:“最终的推理测试是现实 (the ultimate reasoning test is reality)”。因为“物理是法则,其他一切都是建议”。AI 是否强大,最终要看它能否创造出有用的新技术、新药物,能否让火箭进入轨道。
    在这里插入图片描述

26:45 - 应用演示:在浏览器中模拟黑洞碰撞

  • 复杂的物理模拟:现场演示了 Grok-4 生成两个黑洞碰撞的可视化过程,完整覆盖了旋近 (inspiral)、合并 (merger) 和衰减 (ringdown) 三个阶段。
    在这里插入图片描述
  • 严谨的科学态度:模型在思考过程中明确指出,为了可视化,它夸大了引力波的尺度,并使用的是“后牛顿近似法 (post-Newtonian approximations)”而非完整的广义相对论计算,同时参考了本科教材和真实世界数据。

33:29 - 基准测试霸榜:全面超越所有对手

  • 商业预测能力:在现场演示中,Grok-4 Heavy 版本花了约 4.5 分钟分析了大量赔率网站和市场数据,计算出洛杉矶道奇队赢得世界大赛的概率为 21.6%
    在这里插入图片描述
  • 全方位领先:在所有关键推理基准上,Grok-4 都大幅领先于 GPT-4o、Gemini 2.5 Pro 和 Claude 3 Opus 等对手。它在 AIME (美国数学邀请赛) 上获得满分,在 GPQA (研究生水平问题解答) 等测试中也遥遥领先
    在这里插入图片描述
  • 未来的测试:马斯克预言,未来 AI 会强大到能指出“问题本身有什么毛病”,届时人类设计的考试将失去意义。

40:16 - 语音交互与 API:更自然、更开放

  • 自然的语音体验:现场演示了全新的语音模式,延迟相比之前降低了一半。新声音“Eve”展现了极其自然流畅的对话、低语乃至歌剧演唱能力。在与竞品的对比测试中,Grok 的对话更平稳、不打断。
    在这里插入图片描述

  • API 全面开放:Grok-4 和 Grok-4 Heavy 版本已通过 API 发布,为开发者提供前所未有的能力。在 ARGI 基准测试中,Grok-4 的准确率达到了 15.8%,是第二名 Claude 3 Opus 的两倍。
    在这里插入图片描述

46:53 - 赋能开发者:从商业策略到游戏创作

  • AI 运营公司:在 AI 商业模拟“Vending Bench”中,Grok-4 制定并执行了长期策略,最终创造的净资产是之前第一名的两倍,证明了其强大的商业规划能力。
    请添加图片描述
  • 4 小时制作 FPS 游戏:游戏设计师 Denny 利用 Grok-4,在 4 小时内就制作了一款第一人称射击游戏。Grok-4 最大的贡献是自动化了“资产获取 (asset sourcing)” 这一游戏开发中最繁琐的环节。
    请添加图片描述

What is next? - 通往视频生成和通用智能的加速之路

发布会最后,xAI 公布了清晰的路线图,展现了其惊人的迭代速度:

  1. 专业编码模型:一个兼具速度与智能的专业编码模型将在几周内发布。
  2. 多模态智能体:正在训练的 Version 7 基础模型将解决目前视觉理解能力偏弱的短板,带来图像、视频和音频理解能力的“阶跃式提升 (step function improvement)”。
  3. 进军视频生成:xAI 计划在未来 3-4 周内,使用超过 10 万块 GB200 芯片开始训练其视频模型。马斯克预计,今年能看到“半小时可观看的 AI 电视节目”,明年能看到“第一部可观看的 AI 电影”。
    请添加图片描述

总结

这次发布会不仅仅是一次产品更新,更是 xAI 对其技术实力和发展速度的一次全面展示。Grok-4 已经证明,AI 正在从一个“聪明的工具”转变为一个能够在各领域进行深度思考、规划和创造的“智能体”。正如马斯克所言,我们正处在“智能大爆炸 (intelligence big bang)”的奇点时刻。
在这里插入图片描述

http://www.lryc.cn/news/584976.html

相关文章:

  • 苹果UI 设计
  • SLICEGPT: COMPRESS LARGE LANGUAGE MODELSBY DELETING ROWS AND COLUMNS
  • Deepseek-如何从零开始开发需要专业知识的prompt
  • 8155平台SPI学习笔记
  • 从零实现一个GPT 【React + Express】--- 【4】实现文生图的功能
  • 深入剖析Spring Bean生命周期:从诞生到消亡的全过程
  • 英文国际期刊推荐:MEDS Chinese Medicine,中医药方向可发
  • 47-RK3588 用瑞芯微官方提供recovery进行OTA升级
  • Auto-GPT 简易教程
  • 前端抓包(不启动前端项目就能进行后端调试)--whistle
  • UI前端与数字孪生融合新领域:智慧环保的垃圾分类与回收系统
  • Windos服务器升级MySQL版本
  • 中国银联豪掷1亿采购海光C86架构服务器
  • 如何查看自己本地的公网IP地址?内网环境网络如何开通服务器公网ip提供互联网访问?
  • 电力分析仪的“双语对话”:CCLinkIE与Modbus TCP的无缝连接
  • 从《哪吒 2》看个人IP的破局之道|创客匠人
  • 【实用IP查询工具】IP数据云-IP地址查询离线库使用方案
  • 服务器机柜与网络机柜各自的优势
  • 解决Linux绑定失败地址已使用(端口被占用)的问题
  • python的卷烟营销数据统计分析系统
  • AIStarter新版重磅来袭!永久订阅限时福利抢先看
  • Spring Cloud Gateway介绍 - -基础概念,简单工作原理和配置示例
  • Element Plus和Ant Design Vue深度对比分析与选型指南
  • 飞算 JavaAI:开启 Java 开发新时代
  • C++——构造函数的补充:初始化列表
  • TypeScript---泛型
  • WD0407 40V 7A 超级肖特基二极管,应用于开关汽车工业控制
  • 企业级配置:Azure 邮件与 Cloudflare 域名解析的安全验证落地详解
  • 大数据在UI前端的应用深化:用户行为数据的跨渠道整合分析
  • 拼数(字符串排序)