当前位置: 首页 > news >正文

研究LLMs之前,不如先读读这五篇论文!

目标:了解 LMM 背后的主要思想

▪️ Neural Machine Translation by Jointly Learning to Align and Translate
▪️ Attention Is All You Need
▪️ BERT
▪️ Improving Language Understanding by Generative Pre-Training
▪️ BART

在这里插入图片描述

  1. Neural Machine Translation by Jointly Learning to Align and Translate

论文链接:https://arxiv.org/pdf/1409.0473.pdf

提出Encoder-Decoder的经典seq2seq结构,对文本生成,文本摘要、翻译等生成式人物起到重要影响

  1. Attention Is All You Need

论文链接:https://arxiv.org/pdf/1706.03762.pdf

在这里插入图片描述
前两年火爆的论文:transformer

  1. BERT: Pre-training of Deep Bidirectional Transformers for Language

    预训练模型经典之作

论文链接:https://arxiv.org/pdf/1810.04805.pdf

  1. Improving Language Understanding By Generative Pre-Training

在这里插入图片描述
本论文探索一种基于半监督解决语言理解任务方法,使用无监督预训练和监督微调。目标是从大量未标注语料库学习一种普遍的表征,不要求目标任务与未标注语料库在相同领域。

论文链接:https://gwern.net/doc/www/s3-us-west-2.amazonaws.com/d73fdc5ffa8627bce44dcda2fc012da638ffb158.pdf

  1. BART: Denoising Sequence-to-Sequence Pre-training for NaturalLanguage Generation, Translation, and Comprehension

BART:Bidirectional and Auto-Regressive Transformers ,字面意思为双向自回归Transformer,依旧是基于Transformer改造出的模型。在GPT分走了Transformer的解码器部分,BERT分走了Transformer的编码器部分之后,BART终于将“老父亲”的所有“家产”一起打包带走。

论文链接:https://arxiv.org/pdf/1910.13461.pdf

http://www.lryc.cn/news/60794.html

相关文章:

  • 认识BASH这个Shell
  • 用SQL语句操作Oracle数据库——数据更新
  • 二维码+互联网云技术在中建二局施工项目管理中的应用实践
  • 扩散模型原理记录
  • Metasploit高级技术【第九章】
  • RK3568平台开发系列讲解(调试篇)IS_ERR函数的使用
  • TouchGFX界面开发 | TouchGFX软件安装
  • 使用 IDEA 远程 Debug 调试
  • 红黑树和平衡二叉树的优缺点及应用场景
  • 软文推广:真实有效提升软文排名与收录的三大方法!
  • SElinux的介绍及配置
  • vscode-python环境配置
  • 问卷调查样本量的确定方法
  • ios客户端学习笔记(三):学习Swift的设计模式
  • 406. 根据身高重建队列
  • ESP32使用ESP-NOW协议实现一对多通信和MAC地址存储
  • Qt 学生信息数据库管理
  • 相量的加减乘除计算
  • JavaScript 代码整洁之道
  • socket 及 字节序转换(嵌入式学习)
  • Java之~ Aop自定义注解日志
  • 编译原理个人作业--第四章
  • 学习笔记:数据库简介
  • day18_集合
  • Go面试必会基础题
  • 发送封包协议实现XXZ批量秒分解装备
  • Spring学习——Nginx
  • 记录 vue-cli 安装过程
  • 含氢微网优化调度模型matlab
  • 【springcloud开发教程】路由网关——zuul