当前位置: 首页 > news >正文

自然语言处理-词向量模型-Word2Vec

通常数据的维度越高,能提供的信息也就越多,从而计算结果的可靠性就更值得信赖

如何来描述语言的特征呢,通常都在词的层面上构建特征,Word2Vec就是要把词转换成向量

假设现在已经拿到一份训练好的词向量,其中每一个词都表示为50维的向量

如果在热度图中显示,结果如下

在结果中可以发现,相似的词在特征表达中比较相似,也就是说词的特征是有意义的!

在词向量模型中,输入和输出分别是什么?

数据从哪来?

构建训练数据

不同模型对比

CBOW模型

Skip-gram模型

Skip-gram模型所需训练数据集

如何进行训练?

如果一个语料库稍微大一些,可能的结果简直太多了,最后一层相当于softmax,计算起来十分耗时,有什么别的方法吗?

初始方案:输入两个单词,看他们是不是前后对应的输入输出,也就相当于一个二分类任务

出发点非常好,但是此时训练集构建出来的标签全为1,无法进行较好的训练

改进方案。加入一些负样本(负采样模型)

词向量训练过程

初始化词向量矩阵

通过神经网络反向传播来计算更新,此时不光更新权重参数,还更新输入数据

http://www.lryc.cn/news/163693.html

相关文章:

  • List知识总结
  • 代码随想录day32
  • 2.8 PE结构:资源表详细解析
  • Python数据类型的相互转换
  • 阿里云云主机免费试用三个月
  • OpenHarmony 使用 ArkUI Inspector 分析布局
  • Axes3D绘制3d图不出图解决办法【Python】
  • Idea中 css 、js 压缩插件会自动生成xxx.min.css、xxx.min.js文件
  • win11无法加载文件,因为在此系统上禁止运行脚本
  • Spring Boot将声明日志步骤抽离出来做一个复用类
  • RabbitMQ实现数据库与ElasticSearch的数据同步和分享文件过期处理
  • PyCharm集成开发环境安装、启动与设置
  • 算法与设计分析--实验一
  • ElementUI浅尝辄止28:Dropdown 下拉菜单
  • jupyter 格式化与快捷键
  • Spring以及SpringBoot/SpringCloud注解
  • vim常用操作
  • Serverless Framework 亚马逊云(AWS)中国地区部署指南
  • 【Spring Cloud系统】- 轻量级高可用工具Keepalive详解
  • 【JAVA-Day05】深入理解Java数据类型和取值范围
  • “JSR303和拦截器在Java Web开发中的应用与实践“
  • 第六章 图 六、最小生成树(Prim算法、Kruskal算法)
  • 机器学习笔记 - 什么是 MLOps?
  • 初阶扫雷(超详解)
  • 计算机视觉CV:1000字总结介绍
  • JavaScript 之 Symbol 数据类型
  • 在Docker中运行PostgreSQL数据库
  • 实现Spring Boot集成MyBatis
  • 关于算法的时间复杂度(度量算法执行时间的两种方法、渐进时间复杂度、时间复杂度的几个性质、渐进估算、常见的渐进时间复杂度排序)
  • SpringBoot项目--电脑商城【显示商品详情功能】