当前位置: 首页 > news >正文

nlp第九节——文本生成任务

一、seq2seq任务

特点:输入输出均为不定长的序列
自回归语言模型:
由前面一个字预测下一个字的任务
在这里插入图片描述
在这里插入图片描述
encoder-decoder结构:
Encoder-Decoder结构是一种基于神经网络完成seq2seq任务的常用方案
Encoder将输入转化为向量或矩阵,其中包含了输入中的信息
Decoder利用这些信息输出目标值
在这里插入图片描述
在这里,encoder的output和decoder每一个时间层的output拼接,用一个线性层和softmax激活函数计算权重(attention机制),再把权重张量和encoder的output点乘,把这个结果和decoder这个时间层的output拼接,再过一层gru和线性层得到下一个字的概率分布。
attention思想:
从decoder的query和encoder的key结合计算出权重(判断文本的重点),再作用在value上
在这里插入图片描述
soft attention:
在这里插入图片描述
hard attention:
在这里插入图片描述
teacher forcing:在预测下一个字时用输入decoder的正确的字来预测,这样做的问题是在预测时如果一个字错,后面会出现连环反应(就像在平时老师经常把正确答案给学生,在考试时学生答题效果不好);如果用非teacher forcing,会出现在训练模型时,一个字错导致后面出现连环反应。

二、transformer

在这里插入图片描述
在encoder-decoder交互attention阶段,q矩阵由decoder提供,与encoder的output里的key计算出attention矩阵,然后作用在encoder提供的value矩阵上,再过残差机制曾和LN层(使模型更稳定,防止梯度爆炸和梯度消失)
mask attention:
将输入decoder的文本做一次attention,对输出的矩阵进行mask(因为预测的过程中预测下一个字的过程中我们看不到下一个字,所以前一个字对下一个字没有attention)
在这里插入图片描述在这里插入图片描述

通过mask控制训练方式:
在这里插入图片描述

三、采样策略

beamsearch在前文已经介绍过
temperature sample是基于对softmax的改进采样:
在这里插入图片描述
当T越大时,不同样本间的概率差值会减小
top-K采样:从概率最高的K个样本中采样
top-P采样:采样时,先按概率从高到低排序,从累加概率不超过P的范围内选择

http://www.lryc.cn/news/546480.html

相关文章:

  • STM32MP1xx的启动流程
  • wgcloud-server端部署说明
  • 大模型Agent:人工智能的崭新形态与未来愿景
  • 专题二最大连续1的个数|||
  • 【ORACLE】ORACLE19C在19.13版本前的一个严重BUG-24761824
  • 2025国家护网HVV高频面试题总结来了03(题目+回答)
  • CentOS vs Ubuntu - 常用命令深度对比及最佳实践指南20250302
  • SQL命令详解之常用函数
  • IndexError: index 0 is out of bounds for axis 1 with size 0
  • C++学习之C++初识、C++对C语言增强、对C语言扩展
  • k8s面试题总结(八)
  • 《今日-AI-编程-人工智能日报》
  • Koupleless 2024 年度报告 2025 规划展望
  • C与C++中inline关键字的深入解析与使用指南
  • 记录linux安装mysql后链接不上的解决方法
  • Java 大视界 -- Java 大数据在智能金融反欺诈中的技术实现与案例分析(114)
  • 01_NLP基础之文本处理的基本方法
  • (十 六)趣学设计模式 之 责任链模式!
  • 动态规划/贪心算法
  • PH热榜 | 2025-03-04
  • Mybatis-Plus 插件机制与自定义插件实现
  • 开源表单、投票、测评平台部署教程
  • 行为模式---命令模式
  • zabbix配置邮件告警
  • INI和CSV文件保存
  • 汽车智能钥匙中PKE低频天线的作用
  • 计算机等级考试
  • Geotools中获取Shapefile的属性表格字符集编码的一种方法
  • HTTP 与 HTTPS 协议:从基础到安全强化
  • Scrapy爬虫框架介绍