当前位置: 首页 > news >正文

著名大模型评测榜单(不同评测方式)

在评估大语言模型的性能时,一种主流的途径就是选择不同的能力维度并且构建对应的评测任务,进而使用这些能力维度的评测任务对模型的性能进行测试与对比。由大型机构或者研究院所排出榜单。

评测指标

不同评测任务有不同的评指标,衡量模型的能力,也需要使用不同的评测方法。常见评测指标如下:

评测方法

根据评测方式及指标的不同,就需要不同评测方法。例如在偏高和排序类任务中,衡量的使用模型在候选者中的相对水平,模型之间做比较,那么就需要人类参与,真人评估。因此针对上述能力维度的评估方法可以分为三种方式:

  • 基于评测基准评估
  • 基于人类评估
  • 基于模型评估
评测方法以及典型评测工作

这三种评测方法都有知名的评测榜单。

评测需要考核题目也就是数据集。有面向知识的评测数据集如MMLU、C-Eval侧重于评估大语言模型对现实世界知识的理解和应用;有面向推理的评测数据集如GSM8K、BBH和MATH考察模型在解决复杂推理问题时的表现。此外,一些综合评测体系如OpenCompass平台尝试将这两类评测任务相结合,更全面地评估大语言模型的综合能力。数据集详细介绍可查看大模型评测方法(三)_知识库大模型测试集-CSDN博客

基于评测基准评估

评估方式

在进行基准评估时,首先将每个评测任务的具体样本转化为模型可以理解的提示语,引导模型生成相应的结果文本。然后,利用编写好的规则或自动化脚本对生成的结果文本进行解析和处理,以提 取出模型针对每个问题的预测答案。最后,将预测答案与真实答案进行对比,并借助准确率等定量指标来评估模型的性能。

评估榜单

https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard

基于人类评估

评估方式

这类评测任务通常采用开放式指令或对话形式,并邀请人类评估员对模型 生成的回复进行质量评估。评估员的评分方法主要有两种:成对比较法和单一评分法。

成对比较法

在成对比较法中,评估员从两个不同模型生成的答案中选择更优的一个。Chatbot Arena项目搭建了一个众包平台,允许用户与两个匿名的聊天大语言模型进行对话,通过根据成对的比较结果来计算不同模型的Elo评分。

单一评分法

在单一评分法中,评估员则独立地对每个模型的回复进行打分,最后得到每个模型的平均得分。HELM综合评测体系让评估员对摘要和虚假信息任务进行直接打分。

评估榜单

Chatbot Arena   
Holistic Evaluation of Language Models (HELM) 

基于模型评估

评估方式

考虑到人工评测的成本高昂且耗时较长,一些研究工作使用强大的闭源大语言模型如ChatGPT来替代人类评估员,对大模型的输出进行自动评分或比较。

AlpacaEval排行榜基于由大语言模型合成的人类需求指令作为评测任务,然后收集待评估大模型的回应,并采用GPT-4等大语言模型作为评测员,将待评估大语言模型的输出与参考输出进 行成对比较。此榜单更新较慢。

评估榜单

AlpacaEval Leaderboard

上述三种评测方式有对应的榜单,实际评测过程中可能会将三种方法结合起来使用,以更快的达成评测目的,如FlagEval等平台。

http://www.lryc.cn/news/533403.html

相关文章:

  • 国内知名Deepseek培训师培训讲师唐兴通老师讲授AI人工智能大模型实践应用
  • 【AIGC】冷启动数据与多阶段训练在 DeepSeek 中的作用
  • 如何打造一个更友好的网站结构?
  • 【ROS2】RViz2自定义面板插件(rviz_common::Panel)的详细步骤
  • 漏洞分析 Spring Framework路径遍历漏洞(CVE-2024-38816)
  • 《手札·避坑篇》2025年传统制造业企业数字化转型指南
  • MySQL中DDL操作是否支持事务
  • GWO优化决策树回归预测matlab
  • 掌握Spring @SessionAttribute:跨请求数据共享的艺术
  • python读取Excel表格内公式的值
  • 第三十八章:阳江自驾之旅:挖蟹与品鲜
  • C++小等于的所有奇数和=最大奇数除2加1的平方。
  • 设置IDEA的内存大小,让IDEA更流畅: 建议设置在 2048 MB 及以上
  • Ranger Hive Service连接测试失败问题解决
  • 车机音频参数下发流程
  • 大模型推理——MLA实现方案
  • redis之GEO 模块
  • 21.2.7 综合示例
  • 使用Docker + Ollama在Ubuntu中部署deepseek
  • 【C语言标准库函数】三角函数
  • CNN-day9-经典神经网络ResNet
  • 淘宝分类详情数据获取:Python爬虫的高效实现
  • 机器学习 —— 深入剖析线性回归模型
  • 33.日常算法
  • #渗透测试#批量漏洞挖掘#微商城系统 goods SQL注入漏洞
  • 【翻译+论文阅读】DeepSeek-R1评测:粉碎GPT-4和Claude 3.5的开源AI革命
  • Vision Transformer学习笔记(2020 ICLR)
  • 一步一步生成音乐类小程序的详细指南,结合AI辅助开发的思路
  • 25/2/8 <机器人基础> 阻抗控制
  • golang 开启HTTP代理认证