当前位置: 首页 > news >正文

OpenAI开发的一款实验性大型语言模型(LLM),在2025年国际数学奥林匹克竞赛(IMO)中达到了金牌水平

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

界最具声望的数学竞赛——国际数学奥林匹克中取得金牌水平的表现。”

据介绍,该模型的评估完全按照人类参赛者的标准进行,包括两场各4.5小时的测试、不允许使用工具或连接互联网,并且需要针对IMO官方试题书写详细证明过程。最终,该模型成功解答了6道题中的5道,获得了42分中的35分。每道题由三位前IMO金牌得主独立评分,最终成绩在一致认同下确定。

IMO竞赛题目被广泛认为是竞赛数学领域中最具挑战性的题目,往往需要参赛者进行长时间、极具创造性的推理。对此,Wei指出,这是AI在推理基准测试上逐步取得突破的延续:“从GSM8K(人类大约0.1分钟解答)→ MATH基准(1分钟)→ AIME(10分钟)→ IMO(100分钟),我们已经走了很长一段路。”

他进一步指出,IMO题目的难度要求模型具备前所未有的持续创造性思维能力,该成果也反映出“通用强化学习与测试时计算扩展”方面的进展。

尽管取得了突破性的表现,该模型在短期内不会向公众开放。Wei表示:“这款获得IMO金牌的LLM是一个实验性研究模型,近期内不会发布任何具备这种数学能力的系统,至少还需几个月时间。”

与此并行,OpenAI计划很快推出GPT-5,但IMO竞赛能力模型属于另一个研究方向。“GPT-5即将发布,我们对此感到非常兴奋。”Wei透露。

与此同时,Hyperbolic Labs联合创始人Yuchen Jin也在X上暗示,GPT-5的发布可能已经迫在眉睫。据他透露,GPT-5并非单一模型,而是由多个专用模型构成的系统,并配备有一个动态路由器,可以根据任务在擅长推理、非推理以及工具使用的模型间智能切换。

Jin指出,这种架构可能正是OpenAI首席执行官Sam Altman此前所说的“修正模型命名”的原因,因为用户将无需手动选择具体模型,系统会自动将提示指向最合适的模型。

此外,Jin还透露,GPT-6目前已经进入训练阶段,并希望该过程不会因为更多的安全测试而被延迟。

Wei也提及了此次突破的更深层意义:“这进一步说明AI在近年发展速度之快。2021年,导师Jacob Steinhardt让我预测到2025年7月AI在数学上的进展,当时我预测的是MATH基准的正确率达到30%……而如今,我们已经实现了IMO金牌。”

在这一成果背后,Sheryl Hsu、Noam Brown等研究人员也被特别提及并给予了高度评价。

而在去年,谷歌DeepMind旗下的AlphaProof与AlphaGeometry 2也曾在国际数学奥林匹克中解出6题中的4题,获得相当于银牌选手的得分,显示出AI数学能力正在多个维度快速提升。

http://www.lryc.cn/news/594610.html

相关文章:

  • 什么是商业智能BI数据分析的指标爆炸?
  • 悬镜安全将受邀参加2025开放原子开源生态大会
  • “融合进化,智领未来”电科金仓引领数字化转型新纪元
  • FFmpeg:数字媒体的终极瑞士军刀
  • ssms(SQL 查询编辑器) 添加快捷键 Ctrl+D(功能等于Ctrl+C + Ctrl+V),一步到位
  • 【PTA数据结构 | C语言版】列出连通集
  • 第三章自定义检视面板_创建自定义编辑器类_如何自定义预览窗口(本章进度5/9)
  • C++基于libmodbus库实现modbus TCP/RTU通信
  • 个人中心产品设计指南:从信息展示到用户体验的细节把控
  • 第三章自定义检视面板_创建自定义编辑器类_编扩展默认组件的显示面板(本章进度3/9)
  • Jenkins 不同节点间文件传递:跨 Job 与 同 Job 的实现方法
  • 修复echarts由4.x升级5.x出现地图报错echarts/map/js/china.js未找到
  • 人形机器人CMU-ASAP算法理解
  • QGIS、ArcMap、ArcGIS Pro中的书签功能、场景裁剪
  • ruoyi-flowable-plus Excel 导入数据 Demo
  • 现在希望用git将本地文件test目录下的文件更新到远程仓库指定crawler目录下,命名相同的文件本地文件将其覆盖
  • 自动驾驶中各传感器的优缺点
  • 一个月掌握数据结构与算法:高效学习计划
  • uni-app 鸿蒙平台条件编译指南
  • vxe-table 通过配置 ajax 方式自动请求数据,适用于简单场景的列表
  • 网络基础1-11综合实验(eNSP):vlan/DHCP/Web/HTTP/动态PAT/静态NAT
  • MTSC2025参会感悟:大模型 + CV 重构全终端 UI 检测技术体系
  • C语言:深入理解指针(3)
  • cocos中实现3d人物角色头顶信息跟随功能,UI跟随3D/2D对象移动,例如昵称血条跟随人物移动
  • 【VASP】机器学习势概述
  • 智能合约安全 - 重入攻击 - 常见漏洞(第一篇)
  • taro微信小程序的tsconfig.json文件说明
  • Taro 本地存储 API 详解与实用指南
  • Typecho目录树插件开发:从后端解析到前端渲染全流程
  • 使用pymongo进行MongoDB的回收