当前位置: 首页 > news >正文

工智能基础知识总结--词嵌入之Word2Vec

  1. 词嵌入要解决什么问题

    在自然语言系统中,词被看作最为基本的单元,如何将词进行向量化表示是一个很基本的问题,词嵌入(word embedding)就是把词映射为低维实数域向量的技术。

    下面先介绍几种词的离散表示技术,然后总结其缺点,最后介绍词的分布式表示及其代表技术(word2vec)。

  2. 词的离散表示

    • One-hot表示

      根据语料构造一个大小为V的词汇表,并为每一个词分配一个id。

      每个词都可以表示为一个V维向量,除了该词id对应的维度为1外,其余维度为0。

    • n-gram

      与One-hot类似,只是统计单元由单个的词变成了连续的几个词,如2-gram是统计连续的两个单词构造词典。

    • 离散表示的缺点

      • 词向量维度随着词汇表大小的增长而增长带来的内存问题;
      • 词向量过于稀疏,浪费内存,丢失信息;
      • 无法衡量词和词之间的关系。
  3. 词的分布式表示

    词的分布式表示的核心思想是:一个词是由这个词的周边词汇一起来构成精确的语义信息,因此可以用一个词附近的其他词来表示该词。词的分布式表示有以下几种代表方法:

    • 共现矩阵

      使用固定大小的滑窗统计词与词在窗口内的共现次数,然后将每个词表示为一个大小为V的矩阵,每个维度为该词与该维度对应词的共现次数。

      共现矩阵方法仍然会存在内存问题以及稀疏性问题。

    • Word2Vec

      谷歌2013年提出的Word2Vec是目前最常用的词嵌入模型之一,它实

http://www.lryc.cn/news/278451.html

相关文章:

  • redis stream restTemplate消息监听队列框架搭建
  • 【期末不挂科-C++考前速过系列P1】大二C++第1次过程考核(3道简述题&7道代码题)【解析,注释】
  • 游戏开发中,你的游戏图片压缩格式使用ASTC了吗
  • 【PostgreSQL】数据查询-概述
  • element input组件自动失去焦点问题解决
  • 鸿蒙Harmony--状态管理器-@Observed装饰器和@ObjectLink装饰器详解
  • pytorch安装
  • GBASE南大通用系统目录表
  • RPCMS跨站脚本漏洞(xss)
  • Linux进阶命令使用
  • 重定位,进程的创建,线程相关
  • Java填充Execl模板并返回前端下载
  • ChatGPT本地部署,学习记录
  • Find My游戏手柄|苹果Find My技术与手柄结合,智能防丢,全球定位
  • 2024美赛数学建模思路 - 复盘:光照强度计算的优化模型
  • 【Deep Dive: AI Webinar】开放 ChatGPT - 人工智能开放性运作的案例研究
  • Devops相关问题及答案(2024)
  • 掌握Python设计模式,SQL Alchemy打破ORM与模型类的束缚
  • 性能分析与调优: Linux 磁盘I/O 观测工具
  • Could not erase files or folders:
  • 算法训练营第四十四天|动态规划:完全背包理论基础 518.零钱兑换II 377. 组合总和 Ⅳ
  • 探索计算机网络:应用层的魅力
  • MySQL 按日期流水号 条码 分布式流水号
  • 前端导出Excel文件,部分数字前面0消失处理办法
  • 零基础学Python网络爬虫案例实战 全流程详解 高级进阶篇
  • 第十二届“中关村青联杯”全国研究生数学建模竞赛-A题:水面舰艇编队防空和信息化战争评估模型(续)(附MATLAB代码实现)
  • bmp图像文件格式超详解
  • Unity Meta Quest 一体机开发(十三):【手势追踪】自定义交互事件 EventWrapper
  • 13、Redis高频面试题
  • Koa学习笔记