当前位置: 首页 > news >正文

Transformer的前世今生 day02(神经网络语言模型、词向量)

神经网络语言模型

  • 使用神经网络的方法,去完成语言模型的两个问题,下图为两层感知机的神经网络语言模型:
    在这里插入图片描述
  • 假设词典V内有五个词:“判断”、“这个”、“词”、“的”、“词性”,且要输出P(w_next | “判断”、“这个”、“词”、“的”)的概率,即要解决哪一个词放在这句话后面的概率最大的问题。
  • 输入为:W1、W2、W3、W4(前四个单词的独热编码),分别乘随机矩阵,再将结果拼接起来得到C,如下:
    在这里插入图片描述
  • 再经过两层隐藏层,最后通过一个softmax函数,得到输出结果为词库中所有词,分别填在这个位置的概率。得出最大概率的就是最后一个词“词性”,如下:
    在这里插入图片描述

词向量

  • 用一个向量表示一个单词,独热编码也属于词向量,但是独热编码有两个缺点:尺寸大,不好计算相似度。
  • 但是词向量通过随机矩阵Q可以解决这两个缺点。
  • 获得词向量的过程如下:
    在这里插入图片描述
  • 假设c1的计算过程如下:
    在这里插入图片描述
  • 由于之前我们拿独热编码来表示单词,但是我们将独热编码乘Q(随机矩阵)得到的一个向量,也可以表示这个单词
  • 且由于我们的Q矩阵是一个参数,可以学习,即随着模型训练的越来越好,通过Q得到的向量也就越能准确的代表这个单词。
  • 同时我们可以通过矩阵Q来控制输出向量的大小
  • 如上图,c1就是“判断”这个词的词向量
  • 同时,由于两个词的独热编码之间不好计算相似度(有很多0),如采用余弦相似度,结果也为0。但是我们转换成词向量后,结果不再是0,那么就可以一定程度上描述两个词之间的相似度,例如下图:
    在这里插入图片描述

以下为预备知识

单层感知机

  • 单层感知机是一个线性模型,可以用下图来表示:输入经过全连接层(可以有一层或多层,但是多层线性函数最后可以看作是一层线性函数)得到输出,即Y=Wx+b
    在这里插入图片描述
  • 线性层 / 全连接层 / 稠密层:最好叫他为全连接层,因为有时层内会包含非线性函数
  • 假设输入有n个,输出有m个,则w、b、y的个数如下:
    在这里插入图片描述

多层感知机

  • 多层感知机使用了隐藏层和激活函数,是非线性模型
    • 隐藏层是对于输出层来说的,只有最后一层全连接层对于输出层是可见的,且最后一层的全连接层一般不带激活函数,所以其他全连接层叫隐藏层
    • 激活函数是放在隐藏层中,用来拟合非线性的,常用的激活函数是Sigmoid,Tanh,ReLU,下图为有一层隐藏层的多层感知机:
      请添加图片描述

独热编码

  • 目的是让计算机认识单词
  • 用矩阵的形式,存储所有单词。且在矩阵中,每一个元素都代表一个单词,这就要求矩阵的行列等于单词数,如下图:
    在这里插入图片描述
  • 独热编码有两个缺点:
    • 矩阵的尺寸很容易过大,因为他需要行列等于单词数
    • 相似单词之间的独热编码没有任何关联,通常使用余弦相似度来计算文本之间的相似度,但是现实世界中相似单词之间是有关联的

参考文献

  1. 05 神经网络语言模型(独热编码+词向量的起源)
http://www.lryc.cn/news/322888.html

相关文章:

  • 【Linux】多线程编程基础
  • 【地图】腾讯地图 - InfoWindow 自定义信息窗口内容时,内容 html 嵌套混乱问题
  • Vue3、element-plus和Vue2、elementUI的一些转换
  • Go语言gin框架中加载html/css/js等静态资源
  • #鸿蒙生态创新中心#揭幕仪式在深圳湾科技生态园举行
  • flask 继续学习
  • DockerFile遇到的坑
  • 并网型风光储微电网日前优化调度(MATLAB实现)
  • MATLAB环境下基于振动信号的轴承状态监测和故障诊断
  • 流畅的 Python 第二版(GPT 重译)(十二)
  • 【Python 48小时速成 2】关键字
  • 小程序socket 全局代码
  • 数据挖掘|数据集成|基于Python的数据集成关键问题处理
  • Linux-网络层IP协议、链路层以太网协议解析
  • 后端开发辅助
  • 插件电阻的工艺结构原理及选型参数总结
  • 视频私有云,HDMI/AV多硬件设备终端接入,SFU/MCU视频会议交互方案。
  • mac os 配置两个github账号
  • 【SpringBoot】登录校验之会话技术、统一拦截技术
  • Cohere发布大模型Command-R:35B参数,128K上下文,高性能 RAG 功能,支持中文
  • vue+element 前端实现增删查改+分页,不调用后端
  • 浅谈如何自我实现一个消息队列服务器(2)——实现 broker server 服务器
  • html5cssjs代码 039 元素尺寸
  • Lucene的lukeall工具的下载和使用图解
  • 【题目】【网络系统管理】2019年全国职业技能大赛高职组计算机网络应用赛项H卷
  • OpenRewrite框架原理解析
  • LeetCode_Java_递归系列(题目+思路+代码)
  • c++ 编译为WebAssembly时,怎么判断是release/debug环境?
  • 信号处理--基于正则化聚合的共空间模态(CSP)脑电信号分类
  • 【2024年5月备考新增】《软考真题分章练习(含答案解析) - 11 项目风险管理(高项)》