当前位置: 首页 > news >正文

浅谈wor2vec,RNN,LSTM,Transfermer之间的关系

浅谈wor2vec,RNN,LSTM,Transfermer之间的关系

今天博主谈一谈wor2vec,RNN,LSTM,Transfermer这些方法之间的关系。

首先,我先做一个定位,其实Transfermer是RNN,LSTM,和word2vec的一种“提升版”。这里的提升并不是说他们是一种迭代版本,而是说Transfermer它解决了RNN,LSTM,和word2vec的一些缺点。

下面我们先说一下RNN,LSTM,和word2vec主要i的缺点。
下面是RNN的模型示意图。我们可以很显然的发现,RNN在做一些任务的时候,是一个个的输入一个句子的单词,这样的计算方式,会导致忽略句子内单词之间的内在联系。虽然RNN,和LSTM有这种记忆,可以记忆之前句子留下来的信息,但是这种单向不并行计算方式,还是很大程度上不能考虑句子单词之间的内在联系。
在这里插入图片描述

同样word2vec其实也是如此,word2vec生成的词向量是固定的,这很大的限制了词向量的灵活性、表达能力。同时,我们知道word2vec其实只是从集合的角度去考虑句子内单词之间的联系,没有考虑单词间位置的关系。而且不能根据特定任务去灵活的发挥词向量的表达能力。

所以这两类模型的问题,渐渐的使得研究者去思考更好的模型,transfermer也因此诞生。

在transfermer论文中,作者说过,其实transfermer很大程度上是为了解决长句子的句子间因为有些词语距离太远,当时的很多模型不能很好的去学习词语间的联系这一问题。

transfermer则可以较好的解决这一问题。

那么对于transfermer 其自注意力机制,很特别的一个地方,就是对于一个句子,先对词向量进行一次提取,每一个词语先经过一个V矩阵进行一次提取。然后呢,其再用一个Q矩阵个一个K矩阵对x进行两次信息提取,提取完之后,得到的 q向量和k向量乘积作为V矩阵提取信息的权值。所以,其充分利用了神经网络的强大表征能力。但是也存在冒险,在学习的时候,神经网络需要自己知道Q K矩阵是为了权值而学习的,而V矩阵则是对数据进行最后的信息提取而学习的。我们可以给与transfermer更多的提示,让其对于这三个矩阵的学习更加具有目的性,这样或许可以更好的提升transfermer的学习能力,否则直接让其再目标函数的驱动下去学习这三个矩阵,目的性较弱,且会局限于数据初始化。

http://www.lryc.cn/news/183206.html

相关文章:

  • 【11】c++设计模式——>单例模式
  • 深度学习-卷积神经网络-AlexNET
  • 人机关系不是物理关系也不是数理关系
  • <html dir=ltr>是什么意思?
  • 工厂模式:简化对象创建的设计思想 (设计模式 四)
  • 【2023最新】微信小程序中微信授权登录功能和退出登录功能实现讲解
  • 复习 --- C++运算符重载
  • 复习 --- select并发服务器
  • 程序三高的方法
  • 全志ARM926 Melis2.0系统的开发指引⑦
  • 全志ARM926 Melis2.0系统的开发指引⑧
  • 区别对比表:阿里云轻量服务器和云服务器ECS对照表
  • 【做题笔记】多项式/FFT/NTT
  • 网课搜题 小猿题库多接口微信小程序源码 自带流量主
  • centos安装conda python3.10
  • 解密京东面试:如何应对Redis缓存穿透?
  • #力扣:1. 两数之和@FDDLC
  • 【小沐学Python】各种Web服务器汇总(Python、Node.js、PHP、httpd、Nginx)
  • 【AI视野·今日Robot 机器人论文速览 第四十六期】Tue, 3 Oct 2023
  • macOS三种软件安装目录以及环境变量优先级
  • 嵌入式Linux裸机开发(一)基础介绍及汇编LED驱动
  • 企业微信机器人对接GPT
  • 【数据结构】排序(1) ——插入排序 希尔排序
  • Python 列表推导式深入解析
  • 信息学奥赛一本通-编程启蒙3103:练18.3 组别判断
  • C++ primer plus--探讨 C++ 新标准
  • 2023版 STM32实战6 输出比较(PWM)包含F407/F103方式
  • 选择排序算法:简单但有效的排序方法
  • 安卓教材学习
  • C++设计模式-生成器(Builder)