当前位置：首页 > news >正文

NLP 之词的表示与语言模型

news 2025/8/23 6:39:26

表示的基本原理：

机器无法理解文字，却能进行复杂的数学运算——神经网络只要够深、够复杂，就能拟合足够复杂的数学模式。把文字嵌入（embed）到一个向量空间中去。

词表示（Word Representation）分为4代

1.独热（One hot）编码

基本原理：

假设中文字典有n个词元，那么第i（i=1,2,3,...,n）个词元的编码为一个长度为n的向量，它的第i位为1，其他为0。独热编码实现了对文本的向量化嵌入。

问题：

第一，向量的维度太长了，文本的表示过于稀疏；

第二，词向量与词向量之间完全正交，不具有相关性。

2.词频-逆文档词频（Term Frequency-Inverse Term Frequency, TF-IDF）

根据Zipf's Law，在给定的自然语言语料库中，任何一个词的频率与它在频率表中的排名成反比。

3.语境无关（Context-free/Non-contextual）的词表示：Word2vec

它对每一个词生成一个相同的词表示，不考虑同一个词在不同语境下含义的差别。

连续词袋法：

用一个浅层神经网络，依次遮住句子中的每一个词，然后用它的上下文来预测它

跳元法：

我们用一个k元词组来预测它的上下文

自监督预训练:

通过“破坏”句子的一部分，让模型预测它，从而实现对词的更精确的表示.

4.语境相关（Context-dependent/Contextual）的词表示：BERT

语言的多义性是人类自然语言的重要特点。

BERT考虑了三层嵌入：词嵌入、位置嵌入（词在句子中的位置）和句子嵌入，并把它们加起来作为最后的嵌入表示。

BERT使用WordPiece分词器（tokenizer），借鉴了自监督训练的思想，在两个任务上进行预训练：下句预测（Next Sentence Prediction）和掩码语言建模（Masked Language Modeling）。

下句预测是一个二分类任务：给定一个句子，判定另一个句子是否是它的下一句；

掩码语言建模任务随机掩盖其中15%的单词，并训练模型来预测被掩盖的单词，为了预测被掩盖的单词，模型从两个方向阅读该句并进行预测。

查看全文

http://www.lryc.cn/news/418557.html

每天一个数据分析题（四百七十一）- 假设检验

《系统架构设计师教程（第2版）》第13章-层次式架构设计理论与实践-04-数据访问层设计

【视觉SLAM】十四讲ch7习题

K-近邻算法（二）

WPF学习（2）-UniformGrid控件（均分布局）+StackPanel控件（栈式布局）

ANTSDR E310

MySQL 5.7 DDL 与 GH-OST 对比分析

【Python】爬取网易新闻今日热点列表数据并导出

软件设计之HTML5

CnosDB 元数据集群 – 分布式时序数据库的大脑

白骑士的Matlab教学进阶篇 2.5 Simulink

linux安装anaconda

python装饰器作用和使用场景

Apache Tomcat 7下载、安装、环境变量配置详细教程

SQL注入实例（sqli-labs/less-20）

Linux Shell面试题大全及参考答案（3万字长文）

速盾：cdn优化静态资源加载速度机制

04.C++类和对象（中）

【代码随想录训练营第42期 Day23打卡回溯Part2 - LeetCode 39. 组合总和 40.组合总和II 131.分割回文串

书生.浦江大模型实战训练营——（三）Git基本操作与分支管理

数据可视化Axure大屏原型制作分享

Python3安装

基于Python的数据科学系列（4）：函数

高频焊接设备配电系统无源滤波系统的设计

模拟退火的

为什么有的地方笔记本经常连不上wifi，而手机可以？

组件化开发

java学习--文件

k8s—Prometheus+Grafana+Altermaneger构建监控平台

Dijkstra算法求解最短路径自写代码

1.独热（One hot）编码

3.语境无关（Context-free/Non-contextual）的词表示：Word2vec

4.语境相关（Context-dependent/Contextual）的词表示：BERT

相关文章：