当前位置: 首页 > news >正文

A Close Look into the Calibration of Pre-trained Language Models

本文是LLM系列文章,针对《A Close Look into the Calibration of Pre-trained Language Models》的翻译。

预训练语言模型的校准研究

  • 摘要
  • 1 引言
  • 2 背景
  • 3 评测指标
  • 4 PLM是否学会了校准?
  • 5 现有方法的效果如何?
  • 6 结论
  • 局限性与未来工作

摘要

预训练语言模型(plm)可能无法给出预测不确定性的可靠估计。我们仔细研究了这个问题,旨在回答两个问题:(1)plm是否在训练过程中学会了校准?(2)现有校准方法的有效性如何?对于第一个问题,我们进行细粒度控制实验,研究PLMs在训练过程中校准性能的动态变化。我们考虑六个因素作为控制变量,包括数据集难度、可用训练样本、训练步骤、可调参数数量、模型规模和预训练。我们观察到校准性能在六个因素中的一致变化。我们发现,无论预测是否正确,plm都不会在训练中学会校准,这可以通过信心的持续增长来证明。我们强调,我们的发现在某种程度上与两个既定结论相矛盾:(a)更大的plm更精确;(b)预训练改进了模型校准。接下来,我们研究了现有校准方法在缓解过度置信度问题方面的有效性。除了不可学习的校准方法(如标签平滑),我们改编并扩展了最近提出的两种可学习的方法,直接收集数据来训练模型以获得合理的置信度估计。实验结果表明,可学习方法显著降低了PLMs对错误预测的置信度。代码可在https://github.com/lifan-yuan/PLMCalibration上获得。

1 引言

2 背景

3 评测指标

4 PLM是否学会了校准?

5 现有方法的效果如何?

6 结论

我们仔细研究了plm的校准,激励我们回答两个核心问题:(1)plm是否在训练过程中学会了校准?(2)现有校准方法的有效性如何?我们进行了全面的实证研究,包括各种决定性因素的分析和具体的校准方法。除了支持现有结论的发现外,我们还提供了扩展或矛盾的发现对某些既定结论的论证。

局限性与未来工作

我们在工作中发现了两个需要进一步调查和改进的局限性。首先,在我们的工作中只提出了实证结果。对PLMs校准的理论认识仍然缺乏。展望未来,我们有动力从特征学习的角度来研究这个问题。从特征学习的角度来看,我们看到了将人工智能安全中的几个问题统一起来的巨大潜力,包括虚假相关性,鲁棒性,后门学习和校准。其次,在现有标定方法的基础上,提出了三种简单的扩展标定方法。在我们的实验中,我们评估了现有的校准方法和我们的校准方法的校准性能。我们假设我们有一个大型的验证集,可以用作校准任务的训练数据集。在这种理想情况下,我们证明了可学习校准方法的有效性。然而,在实践中,在给定有限的训练样本的情况下,我们需要决定如何分配主任务和校准任务的数据。

http://www.lryc.cn/news/196377.html

相关文章:

  • 【控制台】报错:Uncaught ReferenceError: process is not defined
  • Android自定义AppGlideModule,DataFetcher ,ModelLoaderFactory,ModelLoader,Kotlin(1)
  • uni-app--》基于小程序开发的电商平台项目实战(五)
  • 新型的终端复用器 tmux
  • 标准化后端向前端传来的Json数据
  • java 两个list比较,删除相同的元素
  • 7-3 zust-sy4-10 回文诗
  • 【数据结构】排序--插入排序(希尔排序)
  • “探寻服务器的无限潜能:从创意项目到在线社区,你会做什么?”
  • 5年经验之谈 —— 深入了解性能测试:方法、工具和最佳实践!
  • 动态加载sprite是multiple模式(即该sprite包含了很多小图)里的小图
  • 大数据 DataX 详细安装教程
  • 微信小程序开发之会议oa(首页搭建)
  • 了解主启动类怎么运行
  • 【LeetCode】31. 下一个排列
  • 支持语音与视频即时通讯项目杂记(一)
  • 文档:htm格式转txt
  • 电子邮件地址注册过程详解
  • 深度学习——卷积神经网络(CNN)基础二
  • R语言进度条:txtProgressBar功能使用方法
  • Maven实战-声明周期和插件
  • ebpf的快速开发工具--libbpf-bootstrap
  • 万界星空科技/生产制造执行MES系统/开源MES/免费MES
  • 螺纹快速接头在卫浴行业中的应用提高产量降低生产成本
  • 通达OA 2016网络智能办公系统 handle.php SQL注入漏洞
  • parameter的各种用法以及localparam的用法
  • 网络社区挖掘-图论部分的基本知识笔记
  • Vue Router - 路由的使用、两种切换方式、两种传参方式、嵌套方式
  • mysql为什么会选错索引,以及优化器是如何选择索引的
  • vue基础知识十七:你知道vue中key的原理吗?说说你对它的理解