当前位置: 首页 > news >正文

微软等开源评估ChatGPT、Phi、Llma等,统一测试平台

微软亚洲研究院、中国科学院自动化研究所、中国科学技术大学和卡内基梅隆大学联合开源了,用于评估、分析大语言模型的统一测试平台——PromptBench。

Prompt Bench支持目前主流的开源、闭源大语言模型,例如,ChatGPT、GPT-4、Phi、Llma1/2、Gemini、Baichuan、Yi 等。

PromptBench内置了丰富的评估工具,包括提示构建、提示工程、数据集和模型、对抗性提示攻击、性能评测等。用户可以根据实际开发情况灵活配置,非常简单高效。

开源地址:https://github.com/microsoft/promptbench

论文地址:https://arxiv.org/abs/2312.07910

图片

对大型语言模型进行评估、分析是理解其真实输出、减少潜在风险的重要开发环节。

研究人员表示,目前多数大型语言模型对文本提示非常敏感,容易受到对抗性提示攻击,同时易受到数据污染的影响,这给安全和隐私带来了巨大挑战

虽然有很多类似lm-eval-harness的评估框架,但其评估模块和功能较少,无法满足飞速发展的大语言模型领域。

所以,微软等研究人员希望开发一个统一的评估平台,帮助开发者提升测试效率,同时减少大模型的非法内容输出。

PromptBench简单介绍

PromptBench可以从多个维度对大语言模型进行评估,涵盖多个任务、评估协议、对抗性提示攻击和提示工程技术、数据集等。

评估协议是PromptBench的核心模块之一,主要定义了评估大语言模型性能的方法和流程。

图片

PromptBench支持多种评估协议,包括静态评估和动态评估。静态评估是,通过提供预定义的提示来测试大语言模型的性能;

动态评估,则允许在交互过程中动态生成和修改提示。这种灵活性使研究人员能够更全面地评估大语言模型的能力和鲁棒性。

对抗性提示攻击,是评估大语言模型安全性的重要方法之一。PromptBench提供了多种对抗性提示攻击的测试方法,包括,字符级修改、词级替换、句级添加和语义级改写等攻击。有效模拟了提示使用中可能遇到的各类偏差情况,检验了模型的攻击鲁棒性。

数据集是评估大语言模型性能的关键部分。PromptBench提供了20多个公开的评估数据集,涵盖了文本分类、语法纠错、句子相似度判定、自然语言推理、多任务问答、阅读理解、翻译、数学推理、逻辑推理等,可以充分测试大语言模型在不同场景下的表现和能力。

支持哪些大语言模型

PromptBench支持目前市面上主流的开源、闭源大语言模型,包括Flan-T5-large、Dolly系列、Cerebras-13B 、Llama系列、Vicuna 、GPT-NEOX;

Flan-UL2、Phi 、PaLM 2、ChatGPT、GPT-4、Gemini、Mistral、Mixtral、Baichuan、Yi等。

图片

研究人员表示,未来会持续更新对大语言模型的支持,将打造成一个涵盖模型最多、评估功能最全的统一测试平台。

本文素材来源PromptBench论文,如有侵权请联系删除

END

http://www.lryc.cn/news/278810.html

相关文章:

  • DDNS-GO配置使用教程
  • flex弹性盒子常用的布局属性详解
  • 2023年Gartner® DevOps平台魔力象限发布,Atlassian被评为“领导者”
  • kylin集群使用nginx反向代理
  • 小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值
  • 汽车销售领域相关专业术语
  • 代币合约 ERC20 Token接口
  • 判断回文字符串—C语言
  • 如何在Docker本地搭建流程图绘制神器draw.io并实现公网远程访问
  • Web前端篇——el-timeline+el-scrollbar时间轴数据刷新后自动显示滚动条
  • Flutter 监听前台和后台切换的状态
  • 图解Kubernetes的服务(Service)
  • facebook广告素材制作要注意哪些
  • Android 应用流量监控实践
  • 并发前置知识一:线程基础
  • 计算机网络 物理层
  • 浅谈轻量级Kubernetes—K3s
  • Web APIs知识点讲解
  • Python商业数据挖掘实战——爬取网页并将其转为Markdown
  • 初识 Elasticsearch 应用知识,一文读懂 Elasticsearch 知识文集(1)
  • StampedLock详解
  • Linux中DCHP与时间同步
  • 国产系统-银河麒麟桌面版V10安装字体-wps安装字体
  • python 10常用自动化脚本收藏好
  • java物品检验管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目
  • Pandas实战100例 | 案例 2: 数据探索 - 查看和理解数据
  • c++qt-基本组件
  • SpringBoot多环境配置Maven Profile组
  • 服务器配置 ssh 密钥登录
  • 使用递归将list转换成tree