当前位置: 首页 > news >正文

ChatGPT最新版本“o3”的概要

o3简介

o3于2024年12月20日发布——也就是OpenAI 12天直播的最后一天。目前处于安全性测试阶段。它是o1的继任者,旨在处理更复杂的推理任务。o3特别针对数学、科学和编程等领域进行了优化。

o3在多项基准测试中表现出色。例如,在ARC-AGI基准测试中,它的准确率是o1的三倍,并在Frontier Math测试中超越了其他模型。另外,在SWE-Bench Verified等软件工程测试中也表现出高水平。

名称由来:选择“o3”这个名字是为了避免与英国电信公司O2的商标冲突,OpenAI为避免法律问题,跳过了o2。


o3被视为最接近AGI(通用人工智能)的模型之一,它在推理能力和多任务处理上的表现受到关注。


o3性能测试详情

  • SWE-Bench Verified:这项测试评估软件问题解决能力。o3得分71.7%,大大超过o1的48.9%和o1-preview的41.3%。

  • 竞赛编程(Codeforces):o3在Codeforces平台上达到了2727的等级评分,超过了OpenAI的首席研究员的成绩。

  • ARC-AGI基准测试:o3在这项测试中取得了非常高的分数。在低计算模式下得分为75.7%,高计算模式下达到了87.5%。人类的平均表现为85%。

  • Frontier Math:o3展示了解决数学家需要数天才能完成的问题的能力,得分为25.2%,这相比前最佳成绩(State of the Art, SoTA)的2%有了显著提升。

  • AIME和GPQA Diamond:在这些测试中,o3也展示了性能的巨大飞跃,特别是在GPQA Diamond测试中超过了专家的平均水平。

成本

尽管o3提供了高水平的推理能力,但在高计算模式下每任务的成本非常高,对于像ARC-AGI这样的特殊基准测试,执行一次可能达到数千美元的成本。然而,对于日常使用来说,成本不应如此高昂。

http://www.lryc.cn/news/513244.html

相关文章:

  • uniapp——App下载文件,保存、打开文件(二)
  • Postman接口测试05|实战项目笔记
  • 【paddle】初次尝试
  • 01-2023年上半年软件设计师考试java真题解析
  • 一文讲清楚CSS3新特性
  • 系统设计案例:设计 Spotify
  • 太速科技-633-4通道2Gsps 14bit AD采集PCie卡
  • 图片叠加拖拽对比展示效果实现——Vue版
  • 结合长短期记忆网络(LSTM)和无迹卡尔曼滤波器(UKF)的技术在机器人导航和状态估计中的应用前景
  • 【MATLAB APP Designer】小波阈值去噪(第一期)
  • ClickHouse副本搭建
  • K3知识点
  • cocos creator 3.x版本如何添加打开游戏时首屏加载进度条
  • Fama MacBeth两步法与多因子模型的回归检验
  • IDEA 搭建 SpringBoot 项目之配置 Maven
  • node.js之---事件循环机制
  • Python OpenAI 库开发指南:从入门到实战精通
  • flash-attention保姆级安装教程
  • 送给一年编程道路的自己
  • LeRobot(1)
  • C++ 设计模式:组合模式(Composite Pattern)
  • OpenHarmony源码编译后烧录镜像教程,RK3566鸿蒙开发板演示
  • 强化学习(1)
  • 【漏洞复现】金和OA C6 FileDownLoad.aspx 任意文件读取漏洞复现
  • 开源模型应用落地-qwen2-7b-instruct-LoRA微调-Axolotl-单机多卡-RTX 4090双卡(七)
  • Dockerfile 构建继承父镜像的 ENTRYPOINT 和 CMD
  • 46. Three.js案例-创建颜色不断变化的立方体模型
  • Linux系统离线部署MySQL详细教程(带每步骤图文教程)
  • 【数据仓库】hive on Tez配置
  • Kubernetes Gateway API-3-TLS配置