当前位置: 首页 > news >正文

KILM: Knowledge Injection into Encoder-Decoder Language Models

本文是LLM系列文章,针对《KILM: Knowledge Injection into Encoder-Decoder Language Models》的翻译。

KILM:知识注入到编码器-解码器语言模型

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 方法
  • 4 实验
  • 5 讨论
  • 6 结论
  • 局限性

摘要

大型预训练语言模型(PLMs)已被证明在其参数内保留隐含知识。为了增强这种隐性知识,我们提出了知识注入语言模型(KILM),这是一种通过持续预训练生成知识填充目标将实体相关知识注入编码器-解码器plm的新方法。这无需对plm进行架构修改或添加额外参数即可完成。在一系列知识密集型任务上的实验结果表明,KILM使模型能够在保留一般NLU和NLG任务的原始性能的同时保留更多的知识和更少的幻觉。KILM还在实体消歧等任务上展示了改进的零样本性能,优于具有30倍以上参数的最先进模型。

1 引言

2 相关工作

3 方法

4 实验

5 讨论

6 结论

在本文中,我们提出了一种新的方法,KILM,通过持续的预训练将实体相关知识注入大型plm。我们的方法提高了原始plm在知识密集型任务上的性能,特别是在零样本和小样本设置中,同时不会造成灾难性的后果原始plm中知识的遗忘。所提出的实体知识的独特结构能够灵活地探测不同背景下注入的知识。

局限性

在本文中,我们提出了一种持续预训练的方法,将知识注入到大型预训练的语言模型中。每次预训练实验使用8个V100 gpu,初级设置下,基本尺寸模型预训练5天,大尺寸模型预训练13天。在数据升级设置中,这些数字明显更大(大尺寸模型为30天)。尽管它在减少推理时间的资源需求方面具有优势,但在训练时间内,KILM既耗时又消耗计算资源。
与任何基于模型的生成系统类似,KILM可能容易生成关于实体的事实不正确的陈述。这些陈述也可能有基于种族、种族和性取向的偏见。

http://www.lryc.cn/news/197097.html

相关文章:

  • 205、使用消息队列实现 RPC(远程过程调用)模型的 服务器端 和 客户端
  • C++中的函数
  • java操作时间的方式
  • 上网冲浪发现多处XSS
  • 机器学习的打分方程汇总
  • 一文了解数据管理框架以及数据战略制定方法
  • 智能管家“贾维斯”走进现实?AI Agent或成2023科技领域新风向标
  • 【广州华锐互动】VR高层小区安全疏散演练系统
  • 用Python做一个文件夹整理工具
  • Tortoise SVN 察看本地缓存密码
  • MSP430F5529晶振配置
  • [架构之路-237]:目标系统 - 纵向分层 - 网络通信 - DNS的递归查询和迭代查询
  • vue2 集成 Onlyoffice
  • 天锐绿盾透明加密、半透明加密、智能加密这三种不同加密模式的区别和适用场景——@德人合科技-公司内部核心文件数据、资料防止外泄系统
  • 六、DHCP实验
  • N沟道场效应管 FDA69N25深度图解 工作原理应用
  • Python爬虫入门教程
  • 使用正则前瞻检查密码强度
  • react+ts手写cron表达式转换组件
  • 民安智库(第三方市民健康素养调研)居民健康素养调查的重要性及实施步骤
  • Linux | vim的入门手册
  • B053 项目部署
  • 视觉Slam面试题(不定时更新)
  • 从入门到进阶 之 ElasticSearch 节点配置 集群篇
  • UE4中无法保存项目问题
  • 解剖—顺序表相关OJ练习题
  • NAT网关在阿里云的应用
  • 操作系统体系结构和OS
  • Flutter ☞ 常量
  • C++ 配置VSCode开发环境