当前位置: 首页 > news >正文

A Survey on Knowledge-Enhanced Pre-trained Language Models

摘要

自然语言处理(NLP)已经通过使用BERT等预训练语言模型(plm)发生了革命性的变化。尽管几乎在每个NLP任务中都创造了新的记录,但plm仍然面临许多挑战,包括可解释性差,推理能力弱,以及在应用于下游任务时需要大量昂贵的注释数据。通过将外部知识集成到plm中,知识增强预训练语言模型(keplm)具有克服上述限制的潜力。本文通过一系列的研究,对KEPLMs进行了系统的考察。具体而言,我们概述了KEPLMs中常见的知识类型和不同的知识格式,详细介绍了现有的构建和评估KEPLMs的方法,介绍了KEPLMs在下游任务中的应用,并讨论了未来的研究方向。研究人员将从这项调查中受益,获得该领域最新发展的快速和全面的概述。

1.介绍

重新训练的语言模型(plm)首先在一个大数据集上进行训练,然后直接转移到下游任务,或者在另一个小数据集上进一步微调以用于特定的NLP任务。早期的plm,如Skip-Gram[1]和GloVe[2],是浅层神经网络,它们的词嵌入(从窗口大小的上下文中学习)是静态语义向量,这使得它们无法处理动态环境中的多义词问题。随着深度学习的发展,研究人员试图利用深度神经网络通过动态语义嵌入来提高任务的性能。起初,人们仍然局限于监督学习的范式,认为如果没有足够的标记数据,就很难释放深度学习的潜力。然而,随着自监督学习的出现,BERT[3]等大型语言模型可以通过预测预先被掩盖的标记,从大规模未标记的文本数据中学习到大量知识。因此,他们在一些下游NLP任务上取得了突破性进展。此后,许多大型模型开始采用Transformer[4]结构和自监督学习来解决NLP问题,plm逐渐进入快速发展阶段。plm的最新成功是OpenAI的ChatGPT1。</

http://www.lryc.cn/news/149043.html

相关文章:

  • SQL求解用户连续登录天数
  • 掌握逻辑漏洞复现技术,保护您的数字环境
  • windows系统服务器在不解锁屏幕不输入密码的前提下,电脑通电开机启动程序。
  • spring cloud seata集成
  • HTTP 常⻅的状态码有哪些,以及适⽤场景
  • 后端给前端传参数忽略空属性
  • SPSS教程:如何绘制带误差的折线图
  • 积分商城小程序如何精细化运营
  • 企业网络日志管理:EventLog Analyzer的卓越之处
  • Python算法——滑动窗口问题
  • 使用 MATLAB 和 Simulink 对雷达系统进行建模和仿真
  • Linux 中的 sysctl 命令及示例
  • Mybatis批量更新数据及其优化
  • 包含文心一言在内的首批国产大模型 全面开放
  • Linux运维工程师面试题集锦
  • 深度学习——感受野以及与图像修复的问题
  • 微服务容错 Resilience4j 接口服务-容错原理
  • OceanBase 4.x改装:另一种全链路追踪的尝试
  • springCloudAlibaba详解
  • python通过docker打包执行
  • 实现公网远程访问:Windows本地快速搭建SFTP文件服务器并配置端口映射
  • 获取文件路径
  • 如何自己实现一个丝滑的流程图绘制工具(八) 创建节点的文本标签
  • Spring Boot多数据源配置运行报错:No operations allowed after connection closed连接异常的解决
  • 3、QT 的基础控件的使用
  • 爬虫逆向实战(二十六)--某某学堂登录
  • leetcode分类刷题:哈希表(Hash Table)(四、前缀和 处理连续子数组)
  • 如何处理生产环境中的数据倾斜问题?
  • 【WSN无线传感器网络恶意节点】使用 MATLAB 进行无线传感器网络部署研究
  • C# 实现浏览器控件设置