当前位置: 首页 > news >正文

OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首

在 9 月 3 日,Gru.ai 在 SWE-Bench-Verified 评估最新发布的数据中以 45.2% 的高分排名第一。SWE-Bench-Verified 是 OpenAI 联合 SWE 发布测试集,旨在更可靠的评估 AI 解决实际软件问题的能力。该测试集经由人工验证打标,被认为是评估 AI 软件工程能力的最权威标准。

在这里插入图片描述

本次参评登顶的 Coding Agent 是来自 Gru.ai 的 Bug Fix Gru。根据 Gru 团队的博客,他们提供给 Bug Fix Gru 完整的运行环境及丰富的开发工具,这是获取高分的基础,而工作流程,多模态支持,Rag 能力的添加都有效提高了得分。值得关注的是,Gru 团队着重提到了他们有一个评估流程来评估任何改动带来的影响。

Gru.ai 是一家提供软件工程 Agent(智能体)的公司,提供四种 Agent:
Assistant Gru:帮助用户解决独立的技术问题,该产品可直接在网站注册使用。
Test Gru:基于用户代码补全单测的 Agent,目前该产品仅面相企业开放。
Bug Fix Gru:基于 Github Issue,直接提交 Patch,目前该产品仅面向企业开放。
Babel Gru:基于技术文档生成软件,目前该产品仍处于实验室阶段。

Gru 在今年一月披露了一笔 550 万美金的融资,投资方为云九资本和峰瑞资本。在 2023 年到 2024 年两年间,国际上大量的资金涌入代码 Agent 领域,如 Devin、Cosine.sh、Factory、Codium.ai 等,但国内针对软件工程领域 AI 的投资仍然较少。Gru 团队拥有丰富的软件工程和 AI 实践经验,CEO 张海龙曾是开源中国及 Coding.net 创始人。
随着资金和大公司的视线逐步从大模型转向上层应用,AI 行业的主要进步方向已经开始转向处理复杂精密的任务,而非简单的生成文本内容。而 Gru.ai 的成功登顶,标志着国人团队在 Agent 领域的工程技术能力处于第一梯队。

http://www.lryc.cn/news/433601.html

相关文章:

  • 一文读懂SpringMVC的工作原理
  • 【python-斐波那契数列和完美数之间的区别】
  • 【redis】本地windows五分钟快速安装redis
  • arm64高速缓存基础知识
  • 物管王 物业管理系统软件
  • YOLOv10改进:CA注意力机制【注意力系列篇】(附详细的修改步骤,以及代码,目标检测效果优于SE和CBAM注意力)
  • 使用go语言获取海南七星彩历史开奖记录并打印输出
  • 使用Spring Boot集成Spring Data JPA和单例模式构建库存管理系统
  • 记录ssl epoll的tcp socket服务端在客户端断开时崩溃的问题
  • ubuntu任何版本 卡死 解决办法
  • 算法-合并区间(56)
  • 港科夜闻 | 叶玉如校长出席2024科技+新质生产力高峰论坛发表专题演讲,贡献国家科技强国战略...
  • 一文读懂IPv6v6地址的配置方式
  • 【设计模式】设计模式的八大原则
  • 【Github项目推荐】DataLoom
  • 重磅!布拉德皮特移居法国?据称与他和安吉丽娜朱莉生养的6个孩子有关!皮特一直为自己与孩子们如此亲近却又如此遥远而苦恼
  • .net MAUI应用生命周期
  • Nginx 安装教程
  • vue axios发送post请求跨域解决
  • MIT线性代数
  • 打工人自救指南!2024年数据恢复工具,清空回收站也能秒回数据
  • MyBatis 缓存机制
  • 10个神级Python自动化脚本助力轻松工作
  • EasyExcel模板导出与公式计算(下)
  • Golang序言全面学习-前序
  • Python世界:文件自动化备份实践
  • PTA 6-10 阶乘计算升级版(详讲)
  • 软件开发人员从0到1实现物联网项目:项目架构的思考
  • Java--集合进阶 Collection,迭代器,lambda表达式
  • STM32G474之DAC