当前位置：首页 > news >正文

中文大模型评估数据集——C-Eval

news 2025/8/8 2:47:44

C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

https://arxiv.org/pdf/2305.08322v1.pdf
https://github.com/SJTU-LIT/ceval
https://cevalbenchmark.com/static/leaderboard.html

Part1 前言

怎么去评估一个大语言模型呢？

在广泛的NLP任务上进行评估。
在高级LLM能力上进行评估，比如推理、解决困难的数学问题、写代码。

在英文中，已经有不少评测基准：

传统英语基准：GLUE，是NLU任务的的评测基准。
MMLU基准（Hendrycks等人，2021a）提供了从真实世界的考试和书籍中收集的多领域和多任务评价。
BIG

http://www.lryc.cn/news/102606.html

相关文章：

Unity 四元素

如何入门python爬虫

深入学习 Redis - 基于 Jedis 通过 Java 客户端操作 Redis

019 - STM32学习笔记 - Fatfs文件系统（一） - FatFs文件系统初识

Selenium开发环境搭建

解决 The ‘more_itertools‘ package is required

手把手教你在云环境炼丹（部署Stable Diffusion WebUI）

pytorch-gpu 极简安装

有道云笔记迁移到自建服务器Joplin

qt源码--事件系统之QAbstractEventDispatcher

深入了解Python中的os.path.join函数

Node.js：execSync执行一个shell命令

《入门级-Cocos2d 4.0塔防游戏开发》---第二课：游戏加载界面开发

打卡力扣题目十二

QT服务器练习

Vcenter 创建虚拟机配置 Thin Provision 模式 disk

初识mysql数据库之事务的概念及操作

MPL-2.0（Mozilla Public License 2.0）

Qt+OpenCV+VTK在VS2017中配置路径

线性代数(应用篇)：第五章:特征值与特征向量、第六章:二次型

Java8实战-总结9

大数据开发面试必问：Hive调优技巧系列一

Jupyter Notebook 7重磅发布，新增多个特性！

linux V4L2子系统——v4l2架构（1）之整体架构

Qt信号与槽机制的本质

Linux：入门学习知识及常见指令

K8s：Kubernetes 故障排除方法论

TCP 三次握手四次挥手浅析

【软件安装】MATLAB_R2021b for mac 安装

电脑维护：10妙招，让你的电脑更加稳定！