当前位置: 首页 > news >正文

【Pytorch】学习记录分享8——PyTorch自然语言处理基础-词向量模型Word2Vec

【Pytorch】学习记录分享7——PyTorch自然语言处理基础-词向量模型Word2Vec

      • 1. 词向量模型Word2Vec)
        • 1. 如何度量这个单词的?
        • 2.词向量是什么样子?
        • 3.词向量对应的热力图:
        • 4.词向量模型的输入与输出![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/5ab5dc810a724ae883574a8bc58aeff8.png)
      • 2.如何构建训练数据
        • 2.1 构建训练数据
        • 2.2 不同模型对比(传入中间词预测上下文,传入上下文,预测中间词汇)
      • 3.如何训练
        • 3.1 如何设计驯联网络
        • 3.2 改进方案:加入一些负样本(负采样模型)
        • 3.3 词向量训练过程

1. 词向量模型Word2Vec)

1. 如何度量这个单词的?

在这里插入图片描述

2.词向量是什么样子?

在这里插入图片描述

3.词向量对应的热力图:

在这里插入图片描述
在这里插入图片描述

4.词向量模型的输入与输出在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

2.如何构建训练数据

2.1 构建训练数据

类似wiki与合乎说话逻辑的文本均可以作为训练数据
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.2 不同模型对比(传入中间词预测上下文,传入上下文,预测中间词汇)

CBOW:

在这里插入图片描述
在这里插入图片描述
Skip-gram模型所需训练数据集 :
在这里插入图片描述
在这里插入图片描述

3.如何训练

3.1 如何设计驯联网络

如果一个语料库稍微大一些,可能的结果简直太多了,最后一层相当于softmax,计算起来十分耗时,有什么办法来解决嘛?
在这里插入图片描述
初始方案:输入两个单词,看他们是不是前后对应的输入和输出,也就相当于一个二分类任务,但是这样做之后

在这里插入图片描述
在这里插入图片描述
出发点非常好,但是此时训练集构建出来的标签全为1,无法进行较好的训练

3.2 改进方案:加入一些负样本(负采样模型)

在这里插入图片描述

3.3 词向量训练过程

1.初始化词向量矩阵
在这里插入图片描述
在这里插入图片描述
2.通过神经网络返向传播来计算更新,此时不光更新权重参数矩阵W,也会更新输入数据
在这里插入图片描述

http://www.lryc.cn/news/270801.html

相关文章:

  • 【Kotlin 】协程
  • 用Xshell连接虚拟机的Ubuntu20.04系统记录。虚拟机Ubuntu无法上网。本机能ping通虚拟机,反之不能。互ping不通
  • 人机对话--关于意识机器
  • 八股文打卡day16——计算机网络(16)
  • Java Object浅克隆深克隆
  • 概率的 50 个具有挑战性的问题 [8/50]:完美的桥牌
  • 自动驾驶学习笔记(二十四)——车辆控制开发
  • 【起草】【第十二章】定制ChatGPT数字亲人
  • MySQL数据库索引
  • 【LLM 】7个基本的NLP模型,为ML应用程序赋能
  • 数字人私人定制
  • CollectionUtils
  • 很想写一个框架,比如,spring
  • Java集合/泛型篇----第五篇
  • ACES 增强版不丹水稻作物地图(2016-2022 年)
  • 【Spark精讲】一文讲透Spark宽窄依赖的区别
  • nacos2.3.0配置中心问题处理
  • Apollo自动驾驶系统:实现城市可持续交通的迈向
  • 【WPF.NET开发】附加事件
  • java浅拷贝BeanUtils.copyProperties引发的RPC异常 | 京东物流技术团队
  • 【pynput】鼠标行为追踪并模拟
  • docker小白第十天
  • Apache SSI 远程命令执行漏洞
  • 阿里云30个公共云地域、89个可用区、5个金融云和政务云地域
  • Linux驱动开发之杂项设备注册和Linux2.6设备注册
  • javafx写一个文档编辑器
  • PHP与Angular详细对比 帮助你选择合适的项目技术
  • 基于立锜RTQ7882,支持全协议及DP显示功能的PD快充方案
  • 2023-12-25 LeetCode每日一题(不浪费原料的汉堡制作方案)
  • JavaScript 基础通关