当前位置: 首页 > news >正文

牛津大学xDeepMind 自然语言处理(1)

牛津大学xDeepMind 自然语言处理 Natural Language Processing

词向量与词汇语义学 Word Vectors and Lexical Semantics
  1. 词语表示的基本问题与分布语义思想
    1. 传统词语表示(如独热向量)存在稀疏、正交、语义弱的问题,无法表达语义相似性。
    2. 分布语义核心思想:“观其伴而知其词”,即基于词语的上下文 / 使用场景生成稠密向量表示,主要方法分为基于计数、基于预测和基于任务三类。
  2. 基于计数的方法
    1. 核心流程:定义上下文词汇基C和窗口大小w,统计在语料库中,每个目标词的每个实例左右w个词范围内,上下文词汇基的出现次数,基于这些计数,形成目标词的向量表示。
    2. 相似性度量:常用内积或余弦相似度(余弦对范数不敏感,更优)。
    3. 优化:需区分信息量高的计数和高频噪声,常用 TF-IDF、PMI 等归一化方法,但存在上下文基选择等问题。
  3. 神经嵌入模型
    1. 通用思路:收集词语实例及其上下文,定义可微的分数函数和损失,通过优化得到嵌入矩阵 E。
    2. 典型模型:
      1. C&W 模型(conv+MLP):通过卷积和 MLP 处理句子嵌入,用干扰句和铰链损失训练,能捕捉相邻表示信息,但模型深、训练成本高。
      2. CBoW 模型(Transform+softmax):将上下文词嵌入相加后投影到词汇表,用 softmax 和负对数似然训练,全线性、速度快,有负采样等变体。
      3. Skip-gram 模型(Transform+softmax):用目标词预测上下文词,嵌入目标词后投影,效率高,需在效率和上下文结构化之间权衡。
  4. 神经模型与基于计数模型的比较
    1. 核心思想一致,Word2Vec 等价于基于计数模型的 PMI 矩阵分解。
    2. 经适当超参数优化后,两者性能相当。
  5. 神经方法的优势
    1. 易于学习,支持高度并行(小批量、GPU、分布式训练)。
    2. 可预测上下文的离散(如词性)和连续(如图像)特征,避免计数方法的稀疏性问题。
  6. 词表示的评估
    1. 内在评估:通过 WordSim-353、SimLex-999 等数据集测相似度,词语类比任务(如 “女王 = 国王 - 男人 + 女人”),以及嵌入可视化(T-SNE投影、最近邻)等。
    2. 外在评估:判断嵌入是否能提升其他任务(如分类、情感分析)的性能。
  7. 基于任务的嵌入学习
    1. 核心:将嵌入矩阵 E 作为神经网络参数,与网络其他参数联合训练(可从头学或预训练后微调),使嵌入适应任务需求。
    2. 典型应用:
      1. BoW 分类器:将词向量叠加作为特征,用于情感分析、文档分类等,但无法处理歧义、多义性,语义较浅。
      2. 双语特征学习:通过最大化对齐句子对的相似度(用噪声对比边际损失避免退化),使嵌入反映高层意义,提升跨语言表示能力。
    3. 局限性:任务嵌入仅捕捉任务相关信息,可能缺乏通用语义,可通过多任务学习或预训练 + 任务投影缓解,但存在挑战。
  8. 总结
    1. 词向量是文本神经网络的核心输入,可单独训练、在任务中训练或结合两者。
    2. 迁移学习中,重用预训练词向量适用于数据少或词汇覆盖低的场景;数据充足时,任务内训练嵌入更优,但可重用性降低。
RNN和语言建模
  1. 语言模型基础

    1. 定义:语言模型为词序列分配概率,满足所有可能序列的概率和为 1,可用于比较词序合理性(如翻译、语音识别)。
    2. 核心分解:基于链式法则将联合概率分解为条件概率的乘积,即p(w1,...wN)=∏n=1Np(wn∣w1,...,wn−1)p(w_1,...w_N)=∏^N_{n=1}p(w_n|w_1,...,w_{n-1})p(w1,...wN)=n=1Np(wnw1,...,wn1),核心是学习 “给定历史预测下一词” 的条件分布。
    3. 评估指标:交叉熵(衡量编码文本所需比特数)和困惑度(衡量模型对每个词的惊讶程度,perplexity=2cross−entropyperplexity=2^{cross-entropy}perplexity=2crossentropy)。
    4. 数据注意事项:需区分训练集(过去)和测试集(未来),避免数据泄露;常用数据集包括 Penn Treebank、Billion Word Corpus,WikiText 更优。
  2. 基于计数的 n-gram 语言模型

    1. 马尔可夫假设:用前k-1个词近似历史(k 阶马尔可夫模型),如 2-gram 模型假设p(w1,...,wn)≈p(w1)p(w2∣w1)p(w3∣w2)×...×p(wn∣wn−1)p(w_1,...,w_n)≈p(w_1)p(w_2|w_1)p(w_3|w_2)×...×p(w_n|w_{n-1})p(w1,...,wn)p(w1)p(w2w1)p(w3w2)×...×p(wnwn1)
    2. 概率估计:最大似然估计通过计数计算,如 3-gram 概率p(w3∣w1,w2)=count(w1,w2,w3)/count(w1,w2)p(w_3|w_1,w_2)=count(w_1,w_2,w_3)/count(w_1,w_2)p(w3w1,w2)=count(w1,w2,w3)/count(w1,w2)
    3. 平滑与回退:解决稀疏性问题,如线性插值p(wn∣wn−2,wn−1)=λ3p(wn∣wn−2,wn−1)+λ2p(wn∣wn−1)+λ1p(wn)p(w_n|w_{n-2},w_{n-1})=λ_3p(w_n|w_{n-2},w_{n-1})+λ_2p(w_n|w_{n-1})+λ_1p(w_n)p(wnwn2,wn1)=λ3p(wnwn2,wn1)+λ2p(wnwn1)+λ1p(wn)λ3+λ2+λ1=1λ_3+λ_2+λ_1 = 1λ3+λ2+λ1=1Kneser-Ney 是常用高级方法。
    4. 优缺点:可扩展性强、训练快,但无法捕捉长依赖和语义相似性(如 “cat” 与 “dog”)。
  3. 神经 n-gram 语言模型

    1. 模型结构:用前馈网络处理固定 n-gram 历史(如 trigram 的wn−2,wn−1w_{n-2},w_{n-1}wn2,wn1),通过嵌入层将独热向量转为稠密向量,经隐藏层后用 softmax 输出下一词概率。
    2. 训练:以交叉熵为损失,通过反向传播优化参数,各时间步梯度独立可并行计算。
    3. 优缺点:对未见过的 n-gram 泛化更好,但对已见过的 n-gram 性能略差;模型参数规模小于传统 n-gram,但仍受限于固定 n-gram 长度,无法捕捉长距离依赖,且参数随 n-gram 大小增加而增长。
  4. 循环神经网络语言模型(RNN LM)

    1. 模型结构:抛弃固定 n-gram 历史,通过隐藏状态hn=g(V[xn;hn−1]+c)h_n=g(V[x_n;h_{n-1}]+c)hn=g(V[xn;hn1]+c)压缩整个历史,用y^n=Whn+b\hat{y}_n=Wh_n+by^n=Whn+b和 softmax 输出下一词概率,实现对任意长度历史的建模。
    2. 训练:通过时间反向传播(BPTT)计算梯度,需考虑各时间步梯度的依赖关系;截断时间反向传播(TBPTT)通过固定时间步截断依赖,提高计算效率。
    3. 复杂度与批处理:BPTT 计算量与序列长度线性相关,TBPTT 为常数;批处理在 GPU 上可加速矩阵运算,但序列长度不一致时效率较低。
    4. 优缺点:能表示无限依赖,参数规模不随依赖长度增长(但随隐藏层容量增加);但难以学习长距离依赖,且隐藏层扩大会导致计算和内存成本二次增长。
  5. 偏差与方差权衡

    1. n-gram 模型:偏差高(固定历史近似)但方差低(依赖高频计数)。
    2. RNN 模型:大幅降低偏差(捕捉全历史),但可能增加方差,需通过优化平衡。
  6. 长距离依赖与梯度问题

    1. 核心挑战:简单 RNN 理论上可表示长距离依赖,但实际中因循环权重VhV_hVh的重复乘法导致梯度消失(特征值 <1)或爆炸(特征值> 1),无法有效学习长距离关联。
    2. 非线性影响:激活函数(如 tanh、sigmoid)的导数进一步缩小梯度,加剧问题。
  7. 门控循环网络(LSTM 与 GRU)

    1. LSTM:通过输入门(ini_nin)、遗忘门(fnf_nfn)、输出门(ono_non)和细胞状态cnc_ncn控制信息流动,细胞状态通过加法更新(减轻梯度衰减),隐藏状态hnh_nhn由输出门调制,有效捕捉长依赖。
    2. GRU:简化 LSTM 结构,合并输入门和遗忘门为更新门(znz_nzn),新增重置门(rnr_nrn)控制历史信息的使用,参数更少,计算效率更高。
    3. 优缺点:门控机制显著缓解梯度问题,是神经机器翻译、语音识别等任务的关键;但参数和计算量多于普通 RNN,每个参数的记忆容量较低。
  8. 深度循环神经网络 Deep RNN LMs

    1. 扩展方式:通过增加网络深度(空间维度)或时间维度深度提升表示能力,避免单纯扩大隐藏层导致的二次成本增长。
    2. 典型结构:多层 RNN(空间深度)和循环高速公路网络(时间深度,类似 GRU 的深度单元),在语言建模中表现优异。
  9. 大词汇量处理

    1. 核心瓶颈:softmax 计算p^n=softmax(Whn+b)\hat{p}_n=softmax(Wh_n+b)p^n=softmax(Whn+b)的成本随词汇量VVV线性增长,成为效率瓶颈。
    2. 解决方案:
      1. 短列表与混合模型:高频词用神经 LM,低频词用 n-gram,但损失泛化能力。
      2. 采样与近似梯度:噪声对比估计(NCE)将问题转为二分类,重要性采样(IS)用多分类,降低训练成本但不影响测试。
      3. 词汇分解:一级分类(如布朗聚类)加速V\sqrt{V}V,树结构分解(如二叉树)加速logVlogVlogV,平衡计算效率与性能。
    3. 子词建模:以字符或语素为单位,消除未登录词,捕捉形态特征,但序列更长且依赖距离更远。
  10. 正则化

    Dropout:仅应用于非循环连接,避免循环掩码导致的信息丢失;

    贝叶斯 Dropout 通过绑定循环掩码并在评估时采样,增强泛化。

  11. 总结与核心观点

    1. 长距离依赖:门控网络(LSTM/GRU)是解决梯度问题、捕捉长依赖的主流方案。
    2. 模型扩展:深度 RNN 在空间 / 时间维度扩展,以线性成本提升容量;大词汇量通过分解或采样优化 softmax 效率。
    3. 权衡关系:语言建模需平衡偏差与方差(n-gram vs RNN)、性能与效率(模型容量 vs 计算成本)、泛化与针对性(通用表示 vs 任务适配)。
http://www.lryc.cn/news/625170.html

相关文章:

  • Centos7 使用lamp架构部署wordpress
  • 接口和抽象类的区别(面试回答)
  • 【深度长文】Anthropic发布Prompt Engineering全新指南
  • Java面向对象三大特性:封装、继承、多态深度解析与实践应用
  • ⭐CVPR2025 RigGS:从 2D 视频到可编辑 3D 关节物体的建模新范式
  • 音频分类模型笔记
  • OOP三大特性
  • 【计算机视觉与深度学习实战】05计算机视觉与深度学习在蚊子检测中的应用综述与假设
  • 网络基础——协议认识
  • Pytest项目_day18(读取ini文件)
  • Unity 中控开发 多路串口服务器(一)
  • 深层语义知识图谱:提升NLP文本预处理效果的关键技术
  • C++ 多进程编程深度解析【C++进阶每日一学】
  • 一个基于纯前端技术实现的五子棋游戏,无需后端服务,直接在浏览器中运行。
  • 深度学习篇---softmax层
  • Maven 生命周期和插件
  • 大数据分析-读取文本文件内容进行词云图展示
  • 大厂求职 | 2026海尔校园招聘,启动!
  • Vuex 状态持久化企业级解决方案
  • ​Kali Linux 环境中的系统配置文件与用户配置文件大全
  • MongoDB 从入门到精通:安装配置与基础操作指令详解
  • 计算机组成原理(9) - 整数的乘除法运算
  • 抽象类和接口的区别
  • VLN视觉语言导航(3)——神经网络的构建和优化 2.3
  • qsort函数使用及其模拟实现
  • Android Cutout(屏幕挖孔)详解
  • SpringBoot--Spring MVC 拦截器注入与 new 的区别
  • gdb的load命令和传给opeocd的monitor flash write_image erase命令的区别
  • 优秀开发者的重要认知能力无法被AI替代
  • 在win10/11下Node.js安装配置教程