当前位置: 首页 > news >正文

中文大模型评估数据集——C-Eval

C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models



https://arxiv.org/pdf/2305.08322v1.pdf
https://github.com/SJTU-LIT/ceval
https://cevalbenchmark.com/static/leaderboard.html

Part1 前言

怎么去评估一个大语言模型呢?

  • 在广泛的NLP任务上进行评估。
  • 在高级LLM能力上进行评估,比如推理、解决困难的数学问题、写代码。

在英文中,已经有不少评测基准:

  • 传统英语基准:GLUE,是NLU任务的的评测基准。
  • MMLU基准(Hendrycks等人,2021a)提供了从真实世界的考试和书籍中收集的多领域和多任务评价。
  • BIG
http://www.lryc.cn/news/102606.html

相关文章:

  • Unity 四元素
  • 如何入门python爬虫
  • 深入学习 Redis - 基于 Jedis 通过 Java 客户端操作 Redis
  • 019 - STM32学习笔记 - Fatfs文件系统(一) - FatFs文件系统初识
  • Selenium开发环境搭建
  • 解决 The ‘more_itertools‘ package is required
  • 手把手教你在云环境炼丹(部署Stable Diffusion WebUI)
  • pytorch-gpu 极简安装
  • 有道云笔记迁移到自建服务器Joplin
  • qt源码--事件系统之QAbstractEventDispatcher
  • 深入了解Python中的os.path.join函数
  • Node.js:execSync执行一个shell命令
  • 《入门级-Cocos2d 4.0塔防游戏开发》---第二课:游戏加载界面开发
  • 打卡力扣题目十二
  • QT服务器练习
  • Vcenter 创建 虚拟机配置 Thin Provision 模式 disk
  • 初识mysql数据库之事务的概念及操作
  • MPL-2.0(Mozilla Public License 2.0)
  • Qt+OpenCV+VTK在VS2017中配置路径
  • 线性代数(应用篇):第五章:特征值与特征向量、第六章:二次型
  • Java8实战-总结9
  • 大数据开发面试必问:Hive调优技巧系列一
  • Jupyter Notebook 7重磅发布,新增多个特性!
  • linux V4L2子系统——v4l2架构(1)之整体架构
  • Qt信号与槽机制的本质
  • Linux:入门学习知识及常见指令
  • K8s:Kubernetes 故障排除方法论
  • TCP 三次握手四次挥手浅析
  • 【软件安装】MATLAB_R2021b for mac 安装
  • 电脑维护:10妙招,让你的电脑更加稳定!