当前位置: 首页 > article >正文

RAG:面向知识密集型自然语言处理任务的检索增强生成

摘要

大型预训练语言模型已被证明能够在其参数中存储事实性知识,并在下游自然语言处理(NLP)任务的微调中取得了最先进的结果。然而,它们访问和精准操作知识的能力仍然有限,因此在知识密集型任务中,其表现落后于针对特定任务设计的架构。此外,如何为它们的决策提供出处(可追溯性)以及如何更新其世界知识仍是开放的研究问题。到目前为止,带有可微分访问机制以利用显式非参数存储的预训练模型仅在抽取式下游任务中进行了探索。我们探索了一种通用的微调方案——检索增强生成(Retrieval-Augmented Generation, RAG),这类模型结合了预训练的参数化和非参数化记忆,用于语言生成。我们提出的RAG模型中,参数化记忆是一个预训练的序列到序列(seq2seq)模型,非参数化记忆是一个通过预训练神经检索器访问的维基百科密集向量索引。我们比较了两种RAG的实现方式,一种是在整个生成序列中条件于同一批检索到的文本段落,另一种则可以为每个生成的词使用不同的文本段落。我们在多种知识密集型NLP任务上对模型进行微调和评估,在三个开放域问答任务中创造了新的最先进成绩,超过了参数化seq2seq模型和特定任务的检索-抽取架构。对于语言生成任务,我们发现RAG模型生成的语言比最先进的仅参数化seq2seq基线更加具体、多样且符合事实。

1 引言

预训练的神经语

http://www.lryc.cn/news/2396054.html

相关文章:

  • MVVM、MVC的区别、什么是MVVM
  • 网页自动化部署(webhook方法)
  • 线性代数入门:轻松理解二阶与三阶行列式的定义与理解
  • AU6825集成音频DSP的2x32W数字型ClaSSD音频功率放大器(替代TAS5825)
  • 华为云Flexus+DeepSeek征文|DeepSeek-V3/R1商用服务体验全流程
  • Go语言的原子操作
  • Visual Studio 2022 插件推荐
  • 【深度学习-pytorch篇】3. 优化器实现:momentum,NAG,AdaGrad,RMSProp,Adam
  • C# NX二次开发-查找连续倒圆角面
  • 今天遇到的bug
  • Go语言字符串类型详解
  • 长安链智能合约命令解析(全集)
  • 一、OpenCV的基本操作
  • 裂缝仪在线监测装置:工程安全领域的“实时守卫者”
  • 【论文精读】2024 ECCV--MGLD-VSR现实世界视频超分辨率(RealWorld VSR)
  • SpringBoot简单体验
  • 【系统架构设计师】2025年上半年真题论文回忆版: 论系统负载均衡设计方法(包括解题思路和参考素材)
  • 2025年通用 Linux 服务器操作系统该如何选择?
  • Azure devops 系统之五-部署ASP.NET web app
  • Hadoop是什么
  • 学习路之PHP--easyswoole_panel安装使用
  • 结合 AI 编程,让前端开发更简单:趋势、方法与实践
  • 【拓扑排序】P6560 [SBCOI2020] 时光的流逝|普及+
  • SSRF 接收器
  • 【设计模式】责任链
  • unix/linux source 命令,其高级使用
  • 邮件验证码存储推荐方式
  • Allegro 输出生产数据详解
  • FastAPI MCP 快速入门教程
  • uni-app学习笔记二十一--pages.json中tabBar设置底部菜单项和图标