当前位置: 首页 > article >正文

AI大模型应用之评测篇

在看到公司对于AI 工程师 的岗位要求 :“能够熟练使用各种自动化评测工具与方法,对AI 模型的输出进行有效评估” 时,其实比较疑惑,这个是对大模型能力例如像Deepseek ,GPT-4 ,千问,LLAMA这些模型的能力评测,还是对Agent 类应用结合实际业务的应用输出能力的评测,带着这个问题探寻一下,大概感觉是包含这两者,评测应该是一个泛指的概念,针对AI 领域相关的应用落地效果的评估。

1. 什么是大模型的评测技术

看下Deepseek怎么说 ?

感觉DeepSeek给出了比较官方的阐述:

AI 领域的评测是指通过系统化的方法和工具对人工智能技术的性能,可靠性,适用性及伦理性进行全面评估的过程,其核心目标是验证AI 在不同场景下的实际效果,确保其技术价值与社会需求相匹配。

感觉其实就是回到开篇所说的,评测其实涉及了多个方面:技术性能,硬件评测,应用场景评测,伦理与安全评测等。在网上搜索了一轮和跟着deepseek学习了一轮后,发现了flageval,openCompass 这两个比较专业的评测平台,其实关于大模型评测相关的内容可以在这两个网站上看到比较专业全面的内容。

2. 评测框架

市面上对于AI 大模型评估的平台涉及了性能,伦理,安全,效率等维度,常见的平台有下面这些,看起来有些没有UI 页面的,还是要使用python 写脚来进行评测。 不同的评测需求选择的评测平台各不一样,评测的选型也不一样。

deepseek给出的关于评测的选型:

  1. 研究需求:学术研究优先选择开源工具(如LM Evaluation Harness),企业需合规报告则选Scale AI。
  2. 任务类型
    • NLP:Hugging Face Leaderboard、OpenAI Evals。
    • 多模态:VALSE、MMBench。
    • 代码生成:HumanEval、CodeX。
  1. 资源限制:本地部署用EleutherAI工具,云端评测用W&B或SaaS服务。

3. 大模型评测工具实践

3.1. EleutherAI 综合评测

EleutherAI LM Evaluation Harness 开源的统一评价框架,支持对GPT、T5、BERT等模型在语言理解,推理,知识检索等任务上的标准化评估。

开源链接:

GitHub - EleutherAI/lm-evaluation-harness: A framework for few-shot evaluation of language models.

1、环境准备:

# 创建虚拟环境
conda create -n eval-harness python=3.9
conda activate eval-harness# 安装核心库
pip install lm-eval==0.4.0
pip install torch transformers# 命令行执行
lm-eval \--model hf-causal \--model_args pretrained=EleutherAI/gpt-j-6B \--tasks lambada \--device cuda:0 \--batch_size 16# 输出示例
| lambada | Accuracy | 68.5% |  #准确率
|         | Perplexity | 12.3 | #模型疑惑度,越低越好,说明模型对提问的意外程度 

在本地mac 部署的过程中,pip install lm-eval==0.4.0,安装依赖总是装不成功,公司电脑又有软件安装限制,最终没有跑成功~

3.2. OpenCompass

主页 :OpenCompass司南

OpenCompass 上海AI Lab开发的大模型评测平台,这个社区里面还是有很多个各种维度的评测工具合集,还是蛮全的。 分了几大类的排行,deepseek还是遥遥领先呀,还有多模态的和对战邦兴

openCompass 使用文档:

安装 — OpenCompass 0.4.2 documentation

可以自己本地运行命令 ,也可以直接平台运行评测任务,还是蛮方便的。

3.3. FlagEval

主页: FlagEval

国内的评测平台 ,涉及到了自然语言处理(NLP) ,多模态(MultiModal) , 计算机视觉(CV), 语音(Audio)四大评测领域

评测流程:

4. 大模型评测基准

常见的大模型平常指标有MMLU(Massive Multitask Language Understanding) ,C-EVAL (Chinese Evaluation Benchmark) ,superCLUE (Super Chinese Language Understanding Evaluation) ,这些其实是一些测评的数据集。

三者的对比与选型,区分有中英文理解。

CMMLU评测代码:GitHub - haonan-li/CMMLU: CMMLU: Measuring massive multitask language understanding in Chinese

C-Eval评测代码:GitHub - hkust-nlp/ceval: Official github repo for C-Eval, a Chinese evaluation suite for foundation models [NeurIPS 2023]

知乎里面有一个关于评测的数据集的相关的介绍:

https://zhuanlan.zhihu.com/p/658725797

除了上面三者,还有其他一些评测指标:

可能的指标包括:

1. **推理与逻辑**:Big-Bench Hard(BBH)、DROP

2. **伦理与安全**:ToxiGen、RealToxicityPrompts

3. **多模态**:VQA、MMBench

4. **代码生成**:HumanEval、MBPP

5. **效率与资源消耗**:训练吞吐量、推理延迟

6. **语言生成质量**:Perplexity、BLEU、ROUGE

7. **特定任务**:GLUE、SuperGLUE

8. **交互与对话**:Chatbot Arena、DSTC

9. **数学能力**:MATH、GSM8K

10. **真实性与事实性**:TruthfulQA、FACTOR

评测的选型需要结合3-5项核心指标+ 1-2 项垂直领域指标

5. 主流大模型评测结果

看到b站上有一个播放量最多的对各大模型的评测结果(此时deepseek还没出来),也开源了,从 10个维度进行评测:基础能力,发散创作,日常创作,逻辑问题,文学创作,数据能力,代码,知识理解,时效问题啊,多模态 几大类型进行了一个深度评测,评测结果如下图:

评测的问题:GitHub - Turing-Project/LLMScenarioEval: Scenario-based Evaluation dataset for LLM (beta)

6. 智能体(Agent)评测

对于基于AI 大模型的智能体(Agent)和大模型的评测又有些许不同,Agent需要结合任务导向性,交互性和环境适应性机芯工评估, 需要在任务完成能力,多步推理能力,工具调用能力,交互质量,安全与伦理,资源效率等多个维度进行评估。评测推荐使用 自然指标(任务成功率)+人工评分(对话自然度)自行进行评估。

评测的工具还是蛮多的,deepseek也给出了很多工具及其详细用法,哎,科技发展进步神速的同事,人的想法,创新能力感觉都要用尽废退了,只要当个执行者就行了,哎,纯当一个不用脑子的执行者其实和人类我思故我在的思想是相悖的,反人性~~此时不免又来灵魂拷问。

7. RAG 系统评测

除去agent 的应用,那些基于RAG的系统评测又需要考虑哪些方面? 这个其实还是要围绕RAG 的几个模块展开,例如检索质量,生成质量,还有就是系统效率和领域适用性。

相关指标如下,主要指标有准确率域与召回率;生成文本与答案相关性(人工或者模型评分),生成内容虚构比例,检索延迟,端到端延迟等。

关于评测的一些基础内容本篇先到这,后面再深入实践一下~

http://www.lryc.cn/news/2384256.html

相关文章:

  • 力扣小题, 力扣113.路径总和II力扣.111二叉树的最小深度 力扣.221最大正方形力扣5.最长回文子串更加优秀的算法:中心扩展算法
  • el-form elform 对齐方式调整
  • JESD204 ip核使用与例程分析(二)
  • Linux shell 正则表达式高效使用
  • 50天50个小项目 (Vue3 + Tailwindcss V4) ✨ | Blurry Loading (毛玻璃加载)
  • C#中的ThreadStart委托
  • GPU加速Kubernetes集群助力音视频转码与AI工作负载扩展
  • LeetCode[222]完全二叉树的节点个数
  • DPDK 技术详解:榨干网络性能的“瑞士军刀”
  • anaconda的c++环境与ros2需要的系统变量c++环境冲突
  • Docker 疑难杂症解决指南大纲
  • 深入解析Spring Boot与Kafka集成:构建高效消息驱动微服务
  • Python 实现web请求与响应
  • 演示:【WPF-WinCC3D】 3D工业组态监控平台源代码
  • 【PostgreSQL数据分析实战:从数据清洗到可视化全流程】1.4 数据库与表的基本操作(DDL/DML语句)
  • CUDA加速的线性代数求解器库cuSOLVER
  • Oracle 物理存储与逻辑管理
  • vscode优化使用体验篇(快捷键)
  • 如何在电脑上登录多个抖音账号?多开不同IP技巧分解
  • 【东枫科技】usrp rfnoc 开发环境搭建
  • 【JAVA资料,C#资料,人工智能资料,Python资料】全网最全编程学习文档合集,从入门到全栈,保姆级整理!
  • [IMX] 05.串口 - UART
  • 使用Tkinter写一个发送kafka消息的工具
  • MongoDB 与 EF Core 深度整合实战:打造结构清晰的 Web API 应用
  • JAVA|后端编码规范
  • 重写B站(网页、后端、小程序)
  • 文档债务拖累交付速度?5大优化策略文档自动化
  • 【数据结构与算法】LeetCode 每日三题
  • 基于深度学习的电力负荷预测研究
  • 篇章十 消息持久化(二)