当前位置: 首页 > news >正文

NLP论文速读(NeurIPS 2024)|BERT作为生成式上下文学习者BERTs are Generative In-Context Learners

论文速读|BERTs are Generative In-Context Learners 

论文信息:

简介:

      本文探讨了在自然语言处理(NLP)领域中,上下文学习(in-context learning)的能力,这通常与因果语言模型(如GPT系列)相关联。然而,作者指出,这种能力也出现在掩蔽语言模型(如BERT及其变体)中。在GPT-3引入上下文学习后,这种能力使得模型能够从提示和示例中推断并执行任务,而无需特定的任务训练数据和深度学习专业知识,这使得这类模型在实际应用中更为实用。这种优势导致许多研究者和实践者放弃了掩蔽语言模型,转而支持GPT风格的架构。本文挑战了这种普遍的假设,即上下文学习的能力仅限于因果语言模型,并展示了掩蔽语言模型同样能够展现出这种能力。

      本文的动机在于挑战现有的假设,即上下文学习的能力是因果语言模型独有的。作者认为,上下文学习是一个更普遍的现象,不应该只与单一的预训练目标相关联。此外,由于掩蔽语言模型被认为在生成性上下文学习方面能力有限,这导致了它们在某些应用中的过时。本文旨在证明,掩蔽语言模型也能够发展出上下文学习的能力,并且它们在某些任务上的表现可能出人意料地好。

论文方法:

      本文提出了一种简单的推理技术,可以将掩蔽语言模型(MLM)转换为生成性模型,而无需进一步的训练。

      具体方法如下:将[MASK]标记附加到输入提示后,让模型预测第一个掩蔽标记后的下一个标记。通过循环重复此过程,以生成文本,类似于因果语言模型。

      为了适应现有的掩蔽语言模型,作者提出了两个修改:包含特殊的序列结束标记[SEP]。

      在[SEP]标记前添加额外的[MASK]标记,以减少序列结束的概率。

      排名(Ranking):许多评估大型语言模型(LLMs)的任务可以被表述为分类任务,模型需要从多个选项中选择正确答案。

      作者提出了一种改进的伪对数似然(PLL)分数计算方法,通过在右侧上下文中额外掩蔽两个标记来减少局部依赖的影响,同时考虑全局的双向上下文。

      长度泛化(Length generalization):通过“针堆”测试来衡量DeBERTa对更长序列的泛化能力,结果表明DeBERTa能够处理比训练时更长的序列。

论文实验:

      根据Table 1的内容,该论文的实验部分主要关注了自然语言理解任务的性能比较,特别是针对掩蔽语言模型DeBERTa和因果语言模型GPT-3在SuperGLUE基准测试上的表现。

      SuperGLUE是一个集合了多个NLP任务的数据集,用于评估模型在不同自然语言理解方面的性能。

      以下是实验部分的具体描述:

      在0-shot设置下,DeBERTa在多数任务上的表现超过了GPT-3,尤其是在BoolQ和CB任务上。

      在1-shot设置下,DeBERTa同样在多数任务上表现更好,尤其是在CB任务上,DeBERTa的准确率比GPT-3高出近30个百分点。

      在few-shot设置下,DeBERTa的性能进一步提升,在COPA任务上达到了90.4%的准确率,远高于GPT-3。

论文链接:

https://arxiv.org/pdf/2406.04823
http://www.lryc.cn/news/512496.html

相关文章:

  • 亚马逊云科技 | Amazon Nova:智能技术新势力
  • Kali 自动化换源脚本编写与使用
  • 【已解决】PDF文档有密码怎么办(2024新)免费在线工具PDF2Go
  • 华为ensp-BGP联盟
  • ArcGIS中怎么进行水文分析?(思路介绍)
  • LabVIEW中实现多个Subpanel独立调用同一个VI
  • 【SpringMVC】Bean 加载控制
  • Socket编程中关于服务器端监听端口与新连接端口的深入剖析
  • 如何通过HTTP API更新Doc
  • Qt5 中 QGroupBox 标题下沉问题解决
  • [OpenGL]使用glsl实现smallpt
  • elementui的默认样式修改
  • mysql的主从配置
  • CPO-CNN-GRU-Attention、CNN-GRU-Attention、CPO-CNN-GRU、CNN-GRU四模型多变量时序预测对比
  • 深入了解PINN:物理信息神经网络(Physics-Informed Neural Networks)
  • 人形机器人全身运动规划相关资料与文章
  • 使用uWSGI将Flask应用部署到生产环境
  • 微服务监控工具Grafana
  • 用户界面的UML建模06
  • 【力扣刷题第一天】63.不同路径Ⅱ
  • 如何优化Python网络爬虫的数据清洗流程,以提升数据质量并有效应对网站反爬虫机制?
  • svn 相关应用与管理
  • THM:Mouse Trap[WriteUP]
  • Nginx详细安装配置过程
  • 目标检测入门指南:从原理到实践
  • 2024 高通边缘智能创新应用大赛智能边缘计算赛道冠军方案解读
  • tcpdump 网络数据包分析工具
  • 鱼眼相机模型与去畸变实现
  • 【Unity功能集】TextureShop纹理工坊(七)魔棒工具
  • ASP.NET Core Web API Hangfire