当前位置：首页 > news >正文

自然语言处理-词向量模型-Word2Vec

news 2025/7/15 9:48:28

通常数据的维度越高，能提供的信息也就越多，从而计算结果的可靠性就更值得信赖

如何来描述语言的特征呢，通常都在词的层面上构建特征，Word2Vec就是要把词转换成向量

假设现在已经拿到一份训练好的词向量，其中每一个词都表示为50维的向量

如果在热度图中显示，结果如下

在结果中可以发现，相似的词在特征表达中比较相似，也就是说词的特征是有意义的！

在词向量模型中，输入和输出分别是什么？

数据从哪来？

构建训练数据

不同模型对比

CBOW模型

Skip-gram模型

Skip-gram模型所需训练数据集

如何进行训练？

如果一个语料库稍微大一些，可能的结果简直太多了，最后一层相当于softmax，计算起来十分耗时，有什么别的方法吗？

初始方案：输入两个单词，看他们是不是前后对应的输入输出，也就相当于一个二分类任务

出发点非常好，但是此时训练集构建出来的标签全为1，无法进行较好的训练

改进方案。加入一些负样本（负采样模型）

词向量训练过程

初始化词向量矩阵

通过神经网络反向传播来计算更新，此时不光更新权重参数，还更新输入数据

http://www.lryc.cn/news/163693.html

相关文章：

List知识总结

代码随想录day32

2.8 PE结构：资源表详细解析

Python数据类型的相互转换

阿里云云主机免费试用三个月

OpenHarmony 使用 ArkUI Inspector 分析布局

Axes3D绘制3d图不出图解决办法【Python】

Idea中 css 、js 压缩插件会自动生成xxx.min.css、xxx.min.js文件

win11无法加载文件，因为在此系统上禁止运行脚本

Spring Boot将声明日志步骤抽离出来做一个复用类

RabbitMQ实现数据库与ElasticSearch的数据同步和分享文件过期处理

PyCharm集成开发环境安装、启动与设置

算法与设计分析--实验一

ElementUI浅尝辄止28：Dropdown 下拉菜单

jupyter 格式化与快捷键

Spring以及SpringBoot/SpringCloud注解

vim常用操作

Serverless Framework 亚马逊云(AWS)中国地区部署指南

【Spring Cloud系统】- 轻量级高可用工具Keepalive详解

【JAVA-Day05】深入理解Java数据类型和取值范围

“JSR303和拦截器在Java Web开发中的应用与实践“

第六章图六、最小生成树（Prim算法、Kruskal算法）

机器学习笔记 - 什么是 MLOps？

初阶扫雷（超详解）

计算机视觉CV：1000字总结介绍

JavaScript 之 Symbol 数据类型

在Docker中运行PostgreSQL数据库

实现Spring Boot集成MyBatis

关于算法的时间复杂度（度量算法执行时间的两种方法、渐进时间复杂度、时间复杂度的几个性质、渐进估算、常见的渐进时间复杂度排序）

SpringBoot项目--电脑商城【显示商品详情功能】