当前位置: 首页 > news >正文

深度学习:自然语言处理的基本原理

概念:

        自然语言处理(Natural Language Processing,简称NLP)是人工智能和语言学领域的一个分支,它致力于研究如何让计算机能够理解、解释和生成人类语言,以及如何实现人与计算机之间的有效通信。自然语言处理的目的是缩小人类语言和计算机之间的差距。

语言转换方法:统计语言模型,神经语言模型

统计语言模型的问题:

1、参数空间爆炸式增长,无法处理(N>3)的数据(只能最高处理两个数据)

2、无法处理词与词的内在联系

神经语言模型:词嵌入embedding

在处理自然语言时,通常将词语或者字做向量化

如何解决唯独灾难问题:

通过神经网络训练,将每个词都映射到一个较短的词向量上来。

例如:                    转换短的词向量

0 0 0 0 0 0 1         0.62 0.23 0.12  0

0 0 0 0 0 1 0         0.22 0.43 1       0

0 0 0 0 1 0 0         0.11 0.25 0.02  0

0 0 0 1 0 0 0          0.65 0.28 0.12 0

这种将高维度的词表示转换为低维度的词表示的方法,我们称之为词嵌入。

word2vec

        一种用于生成词嵌入(word embeddings)的模型,它能够将词汇映射到高维空间中的向量,这些向量能够捕捉词汇之间的语义关系。

1、CBOW:以上下文词汇预测当前词,即用ωt−2、ωt−1、 ωt+1、 ωt+2预测ωt

2、skipgram:以当前词预测其上下文词汇,即用ωt预测ωt−2、ωt−1、 ωt+1、 ωt+2

模型的训练过程:

1、当前词的上下文词语的one-hot编码输入到输入层。

2、这些词分别乘以同一个矩阵ωV*N后分别得到各自的1*N 向量。

3、将多个这些1*N 向量取平均为一个1*N 向量。

4、将这个1*N 向量乘矩阵 ω’N*V ,变成一个1*V 向量。

5、将1*V 向量softmax归一化后输出取每个词的概率向量1*V

6、将概率值最大的数对应的词作为预测词。

7、将预测的结果1*V 向量和真实标签1*V 向量(真实标签中的V个值中有一个是1,其他是0)计算误差

8、在每次前向传播之后反向传播误差,不断调整 ωV*N和ω’N*V矩阵的值。

http://www.lryc.cn/news/447209.html

相关文章:

  • Win10 Chrome浏览器被强制绑定主页的解决办法
  • 【UE5】将2D切片图渲染为体积纹理,最终实现使用RT实时绘制体积纹理【第四篇-着色器投影-接收阴影部分】
  • Shell脚本基础——实训项目任务
  • Eclipse Memory Analyzer (MAT)提示No java virtual machine was found ...解决办法
  • 【C++篇】深度剖析C++ STL:玩转 list 容器,解锁高效编程的秘密武器
  • 植物大战僵尸杂交版V2.5.1下载(最新版)
  • 基于nodejs+vue的游戏陪玩系统
  • SVN文件不显示修改状态图标
  • GB28181语音对讲协议详解
  • JavaScript 数据可视化:前端开发的核心工具
  • [Redis][哨兵][上]详细讲解
  • 如何展开浏览器开发者模式的Fetch/XHR
  • Pydantic 是一个强大的 Python 库
  • 每日OJ题_牛客_NC40链表相加(二)_链表+高精度加法_C++_Java
  • Dubbo快速入门(一):分布式与微服务、Dubbo基本概念
  • jmeter性能测试---csv数据文件设置
  • 交换基础【计算机网络】
  • Android12的netd分析
  • OpenCV图像文件读写(6)将图像数据写入文件的函数imwrite()的使用
  • JVM(HotSpot):方法区(Method Area)
  • JWT的基础与使用
  • 处理 VA02修改行项目计划行(SCHEDULE LINES )报错:不可能确定一个消耗帐户
  • 【AI基础】pytorch lightning 基础学习
  • 高通量测序技术--组蛋白甲基化修饰、DNA亲和纯化测序,教授(优青)团队指导:从实验设计、结果分析到SCI论文辅助
  • [极客大挑战 2019]RCE ME1
  • 计算机毕业设计 中医院问诊系统的设计与实现 Java实战项目 附源码+文档+视频讲解
  • FME辅助规划选址
  • Unity中的GUIStyle错误:SerializedObject of SerializedProperty has been Disposed.
  • 实战篇 | WSL迁移Linux系统到非系统盘(完整实操版)
  • 增量式编码器实现原理