当前位置: 首页 > news >正文

notes_NLP

RNN > LSTM, GRU

model特点
RNN
LSTMinput+forget+putput;
GRUreset+update;参数比LSTM少,计算效率更高;

循环神经网络(RNN/LSTM/GRU)
人人都能看懂的GRU

transformer > self-attention

  1. 根据Query和Key计算权重系数
    1.1 根据Query和Key计算两者的相似性或者相关性
    1.2 对第一阶段的原始分值进行归一化处理
  2. 根据权重系数对Value进行加权求和

Transformerattention机制和LSTMgate机制都通过加权方法控制了信息的流动;当前时刻的输出依赖于历史(单向模型)或者历史和未来的信息(双向模型)。
不同点:

modelattentiongate
激活函数sigmoidsoftmax
操作对象全局元素
可作用范围any有限

Attention weights和LSTM/GRU中的gate机制有何不同?
超详细图解Self-Attention
熬了一晚上,我从零实现了Transformer模型,把代码讲给你听

预训练语言模型

预训练:在模型参数初始化时使用已经在一些任务上预先训练完的、而非随机的参数。在后续具体任务上,可以冻结(fronzen)微调(fine-tune)参数。

预训练语言模型:在以word2vec(2013)为代表的第一代预训练语言模型中,一个单词的词向量是固定不变的,无法区分单词的不同语义。ELMo(2018)考虑了上下文的信息,较好地解决了多义词的表示问题,开启了第二代预训练语言模型的时代,即预训练+微调的范式。

自回归模型可以类比为早期的统计语言模型,也就是根据上文预测下一个单词,或者根据下文预测前面的单词。包括ELMoGPTXLNet等。
自编码模型可以在输入中随机掩盖一个单词(相当于噪声),在预训练过程中,根据上下文预测被掩码词,因此可以认为是一个降噪(denosing)的过程。包括BERTERINERoBERTa等。

MLM (Masked Language Modeling) 是一种预训练语言模型的方法,通过在输入文本中随机掩盖一些单词或标记,并要求模型预测这些掩盖的单词或标记。主要目的是训练模型来学习上下文信息,以便在预测掩盖的单词或标记时提高准确性。

一文了解预训练语言模型!
预训练模型与10种常见NLP预训练模型
Masked Language Modeling

ProtBERT

… …

http://www.lryc.cn/news/204427.html

相关文章:

  • 内存分段、分页
  • Python-pptx教程之一从零开始生成PPT文件
  • k8s 使用ingress-nginx访问集群内部应用
  • 企业数据泄露怎么办?
  • GoLong的学习之路(一)语法之变量与常量
  • Go-Python-Java-C-LeetCode高分解法-第十一周合集
  • 封装axios的两种方式
  • 【自然语言处理】NLTK库的概念和作用
  • Python爬虫如何解决提交参数js加密
  • 云数据库及RDS数据库介绍
  • c语言进阶部分详解(详细解析自定义类型——枚举,联合(共用体))
  • 使用 Requests 库和 PHP 的下载
  • ConcurrentHashMap底层具体实现知道吗?实现原理是什么
  • Go语言“Go语言:掌握未来编程的利器“
  • 达梦管理工具报错“结果集不可更新,请确认查询列是否出自同一张表,并且包含值唯一的列。”
  • TensorFlow2从磁盘读取图片数据集的示例(tf.keras.utils.image_dataset_from_directory)
  • Unity开发过程中的一些小知识点
  • 大语言模型(LLM)综述(一):大语言模型介绍
  • 在Ubuntu上安装和挂载NFS
  • Python 实现的简易数据库管理系统 (DBMS)
  • 1.初识MySQL
  • 【列存储学习总结】
  • 小记java正则表达式中matcher.find() 和 matcher.matches() 的区别
  • 当中国走进全球化的“深水区”,亚马逊云科技解码云时代的中国式跃升
  • 零基础Linux_21(多线程)页表详解+轻量级进程+pthread_create
  • nodejs+wasm+rust debug及性能分析
  • IP证书针对公网IP签发
  • SpringBoot-集成Minio
  • 【ML】cheatsheet
  • 【字符串】【将字符数组转为字符串】Leetcode 122 路径加密