当前位置: 首页 > news >正文

[论文笔记]UNILM

引言

今天带来论文Unified Language Model Pre-training for Natural Language Understanding and Generation的笔记,论文标题是 统一预训练语言模型用于自然语言理解和生成。

本篇工作提出了一个新的统一预训练语言模型(Unifield pre-trained Language Model,UniLM),可以同时用于自然语言理解和生成任务的微调。

该模型基于三种语言建模任务来预训练:单向、双向和seq-to-seq预测。统一建模是通过使用共享的Transformer网络和特定的自注意力掩码控制预测所依赖的上下文来实现的。

总体介绍

image-20231001113449239

预训练语言模型(LM)通过在大量文本数据上基于上下文预测单词的方式来学习上下文文本表征。不同的预测任务和训练目标被用于预训练语言模型,如表1。

ELMo学习两个单向的LM:一个前向的LM从左到右读取文本,一个反向LM从右到左。GPT使用一个左到右的Transformer来逐单词地预测文本序列。反之,BERT使用双向的Transformer编码器去融合左向和右向的上下文来预测被mask的单词,但它的双向特性使它很难应用于文本生成任务。

http://www.lryc.cn/news/179880.html

相关文章:

  • LLM之Colossal-LLaMA-2:Colossal-LLaMA-2的简介、安装、使用方法之详细攻略
  • 国庆作业2
  • fork仓库的代码如何同步主仓库代码
  • 【Axure】元件库和母版、常见的原型规范、静态原型页面制作
  • 在设备树中描述中断
  • ccf_csp第一题汇总
  • uniapp 实现下拉筛选框 二次开发定制
  • 实现单行/多行文本溢出
  • Spring Boot中的Binder类
  • leetcode之打家劫舍
  • 走进Spring的世界 —— Spring底层核心原理解析(一)
  • 快看看你的手机有没有:谷歌Android全面封杀此类软件!
  • spark ui 指南
  • 【分布式事务】
  • linux 清除卸载jenkins
  • 番外4:VMware安装
  • Oracle 19.20 patch 注意事项
  • ElementUI之增删改及表单验证
  • 【Java 进阶篇】深入理解 JDBC:Java 数据库连接详解
  • Web开发-session介绍
  • 基于Qt Creator开发的坦克大战小游戏
  • 小说推文和短剧推广以及电影达人带货电影票
  • 朴素贝叶斯分类(下):数据挖掘十大算法之一
  • 9.30作业
  • [GWCTF 2019]枯燥的抽奖
  • vue3中sync修饰符的使用
  • Qt全屏显示与退出
  • OpenCV之直线曲线拟合
  • 2023年哪款PDF虚拟打印机好用?
  • Redis各数据类型特定的命令和用法 1.0版本