当前位置: 首页 > news >正文

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

近日,智源研究院推出全球首个中文大模型辩论平台FlagEval Debate,旨在通过引入模型辩论这一竞争机制对大语言模型能力评估提供新的度量标尺。该平台是智源模型对战评测服务FlagEval大模型角斗场的延展,将有助于甄别大语言模型的能力差异。

FlagEval Debate官网:https://flageval.baai.org/#/debate

大模型对战被广泛认为是能够公平且有效的反应用户喜好倾向的一种大模型评估方式。但现有的大模型对战普遍存在如下几个问题:

  1. 1 大部分模型对战胜率趋于平局,无法有效区分模型之间的差异;

  2. 2 测试内容完全依赖用户,需要大量用户参与投票才能保证评测结果的准确性和稳定性;

  3. 3 在现有的对战方式下,模型之间缺乏交互,无法反映模型之间的协作性和交互性。

为了优化以上问题,智源研究院尝试使用大模型辩论的形式对大模型进行评估。辩论是一项通过逻辑推理、语言表达和现实论据来论证己方观点、驳斥对方观点、说服中立第三方的语言类智力活动和综合性表达游戏,具备明确的竞技性,能够体现人的逻辑思维、语言组织、信息分析与处理能力,以及在对立观点中寻找平衡与突破的能力。模型辩论能够展现大模型在信息理解、知识整合、逻辑推理、语言生成和对话能力,同时,还能测试其在复杂语境中信息的处理深度和迁移应变能力,反映其学习与推理的进步水平。

在对大模型辩论的技术路径与对战结果有效性进行初步分析之后,智源研究院发现通过辩论这种交互性对战形式,能够凸显模型之间的差距,并可基于少量的数据样本计算模型有效排名,故推出基于众测的中文大模型辩论平台FlagEval Debate。

大模型辩论平台FlagEval Debate,支持两个模型分别以正反方身份围绕辩题开展辩论。辩题由FlagEval Debate从辩题库中随机抽取,辩题库主要由热搜话题改编、FlagEval评测专家以及顶级辩论专家命制的辩题构成。为提高用户体验,更好地触达大众及专业评审,所有用户均可在FlagEval Debate平台对每场辩论进行评判。目前Flageval Debate已上线海外主流闭源以及众多开源模型。

每场模型辩论由正方先发表意见,反方后发表意见,正反双方共发表5轮意见,FlagEval Debate平台页面同时展示双方每轮对话的观点,然后由人类用户判断哪方获胜。为了有效避免正反方位置带来的偏差,每一辩题下两个模型均会各做一次正方一次反方。当模型正反方身份互换后,将再次按照正反方顺序进行相同数量的轮次对话。每个大模型会与其他模型进行多场辩论,最终根据获胜的积分计算模型排名。

模型辩论对战将采取开放性众测和专家评测两种方式,其中专家评审团由专业辩论赛的选手和评委组成(包括世界冠军团队),开放性众测观众可自由鉴赏和投票。

开放性众测观众报名链接:https://jwolpxeehx.feishu.cn/share/base/form/shrcnanu35NqOKaefVMUJKv6JYg

大模型辩论的对战赛程以及规划如下图所示。初步实验表明,参与辩论的大模型经过prompt调优后表现会有很大的提升,欢迎各模型厂商扫描图中二维码或发送邮件至flageval@baai.ac.cn报名参与模型辩论评测,智源将提供免费的模型辩论调试服务。

未来,智源研究院将持续探索模型辩论的技术路径与应用价值,坚持科学、权威、公正、开放四大原则,不断完善FlagEval大模型评测体系,为大模型评测生态提供新的洞察与思考。

http://www.lryc.cn/news/450788.html

相关文章:

  • python实用脚本(二):删除xml标签下的指定类别
  • vue3 父子组件调用
  • 线性模型到神经网络
  • 【架构】前台、中台、后台
  • Stable Diffusion 蒙版:填充、原图、潜空间噪声(潜变量噪声)、潜空间数值零(潜变量数值零)
  • ffmpeg录制视频功能
  • 【LeetCode】每日一题 2024_10_1 最低票价(记忆化搜索/DP)
  • [C++] 小游戏 征伐 SLG DNF 0.0.1 版本 zty出品
  • 黑马头条day7-app端文章搜索
  • 嵌入式必懂微控制器选型:STM32、ESP32、AVR与PIC的比较分析
  • Python selenium库学习使用实操二
  • 基于Hive和Hadoop的电信流量分析系统
  • 访问docker容器中服务的接口,报错提示net::ERR_CONNECTION_REFUSED
  • 【mysql相关总结】
  • uniapp 微信小程序 微信支付
  • CSS 效果:实现动态展示双箭头
  • Linux 创建开发用的账户
  • 检查一个CentOS服务器的配置的常用命令
  • Redis 简单的消息队列
  • C++:继承和多态,自定义封装栈,队列
  • Python多个set中的交集
  • 百度百科 X-Bk-Token 算法还原
  • RUST语言的初印象-从一个模拟登陆谈起-slint+reqwest+aes
  • HBase批量写入优化
  • 江协科技STM32学习- P19 TIM编码器接口
  • 文件上传、重定向、Gin路由
  • 躺平成长:微信小程序运营日记第二天
  • 三分钟速览:Node.js 版本差异与关键特性解析
  • git创建新分支
  • Chip-seq数据分析处理流程