当前位置: 首页 > news >正文

评估大型语言模型:综述


论文地址:https://arxiv.org/pdf/2310.19736v2.pdf

github: tjunlp-lab/awesome-llms-evaluation-…

发表团队:Tianjin University


摘要

  1. 将LLM评估划分三点:知识和能力评估、一致性评估和安全性评估。
  2. 特定领域化评估
  3. benchmark
  4. 评估机构
  5. 评估数据集

目标

知识和能力评估、一致性评估和安全性评估。除了对这三个方面的评估方法和基准进行全面梳理外,我们还整理了LLM在专业领域的评估概要,并讨论了涵盖LLM能力、一致性、安全性评估的综合评估平台的构建和适用性。

背景

大型语言模型 (LLM) 在广泛的任务中表现出了卓越的能力。它们引起了极大的关注并被部署在众多下游应用中。然而,就像一把双刃剑一样,法学硕士也存在潜在的风险。它们可能会遭受私人数据泄露或产生不适当、有害或误导性内容。此外,法学硕士的快速进步引发了人们对在没有足够保障的情况下可能出现的超级智能系统的担忧。为了有效发挥法学硕士能力并确保其安全、有益的发展,对法学硕士进行严格、全面的评估至关重要。这项调查致力于为法学硕士的评估提供一个全景视角。

方法

  1. 知识和能力评估
    1. QA
    2. 知识填空
    3. 推理
      1. 常识
      2. 逻辑
      3. 多跳
      4. 数学
    4. 工具使用
  2. 一致性评估
    1. 伦理道德
    2. 偏见
    3. 毒性
  3. 安全性评估
    1. 鲁棒性评估
      1. Prompt
      2. Task 任务
      3. 一致性
    2. 风险评估
      1. 行为风险
      2. Agent 评估
  4. 领域化评估、
    1. 生物&医学
    2. 教育
    3. 法考
    4. 计算机
    5. 金融

结论

LLM的发展速度令人震惊,在众多任务上取得了显着进展。然而,尽管迎来了人工智能的新时代,我们对这种新颖的智能形式的理解仍然相对有限。

划定这些LLM的能力界限、了解他们在各个领域的表现并探索如何更有效地发挥他们的潜力至关重要。这就需要一个全面的基准框架来指导法学硕士的发展方向。 这项调查系统地阐述了LLM的核心能力,包括知识和推理等关键方面。此外,我们深入研究一致性评估和安全性评估,包括道德问题、偏见、毒性和真实性,以确保LLM的安全、可信和道德应用。

同时,我们探索LLM在不同领域的潜在应用,包括生物学、教育、法律、计算机科学和金融。最重要的是,我们提供一系列流行的基准评估,以帮助研究人员、开发人员和从业者理解和评估法学硕士的表现。

我们预计这项调查将推动LLM评估的发展,为引导这些模型的可控发展提供明确的指导。这将使LLM能够更好地为社区和世界服务,确保他们在各个领域的应用程序安全、可靠和有益。我们怀着热切的期待,迎接LLM发展和评估的未来挑战。

http://www.lryc.cn/news/220735.html

相关文章:

  • 设计模式之工厂模式(Factory)
  • 2023/11/6 JAVA学习
  • Android-JobService
  • GraphQL入门与开源的GraphQL引擎Hasura体验
  • Javascript知识点详解:this关键字的指向问题
  • 数据库的备份和恢复
  • DS图—图非0面积/bfs【数据结构】
  • Wnmp服务安装并结合内网穿透实现公网远程访问——“cpolar内网穿透”
  • 2023版Pycharm关闭一直显示closing project,正在关闭项目
  • Gradle笔记 二 Gradle的基础Groovy
  • 浅谈剩余电流动作继电器在电动伸缩门的应用
  • stable diffusion安装踩坑之clip安装、git报错
  • colmap gpu服务器安装
  • linux内的循环
  • 强化学习(RL)的学习笔记
  • 2023世界传感器大会开幕,汉威科技多领域创新产品引瞩目
  • 什么是机器学习中的正则化?
  • PostgreSQL JDBC连接详解(附DEMO)
  • 学习视频剪辑:巧妙运用中画、底画,制作画中画,提升视频效果
  • Android Studio代码无法自动补全
  • 从零开始搭建微服务
  • HF Hub 现已加入存储区域功能
  • linux下实现电脑开机后软件自启动
  • 【C/PTA】循环结构进阶练习(二)
  • Visual Studio 2010 软件安装教程(附下载链接)——计算机二级专用编程软件
  • 大促来袭 零点价格如何监测
  • python 之 正则表达式模块re
  • vue项目npm install报错解决
  • ubuntu挂载共享目录的方法
  • 累计概率分布、概率分布函数(概率质量函数、概率密度函数)、度量空间、负采样(Negative Sampling)