当前位置：首页 > news >正文

机器翻译之创建Seq2Seq的编码器、解码器

news 2025/7/15 15:25:44

1.创建编码器、解码器的基类

1.1创建编码器的基类

from torch import nn#构建编码器的基类
class Encoder(nn.Module):   #继承父类nn.Moduledef __init__(self, **kwargs):   #**kwargs：不定常的关键字参数super().__init__(**kwargs)def forward(self, X, *args):  #*args:不定常的位置参数#若继承了Encoder这个基类，就必须实现forward（），否则就会报下这个错raise  NotImplementedError

1.2创建解码器的基类

#创建解码器的基类
#创建解码器的基类比创建编码器的基类多一个 state的初始化
class Decoder(nn.Module):def __init__(self, **kwargs):super().__init__(**kwargs)#初始化statedef init_state(self, enc_outputs, *args):raise NotImplementedError#前向传播，解码器比编码器多传入一个statedef forward(self, X, state):raise NotImplementedError

1.3合并编码器和解码器的基类

class EncoderDecoder(nn.Module):def __init__(self, encoder, decoder, **kwargs):super().__init__(**kwargs)self.encoder = encoderself.decoder = decoderdef forward(self, enc_X, dec_X, *args):"""enc_X：编码器需传入的数据dec_X：解码器需传入的数据"""enc_outputs = self.encoder(enc_X, *args)dec_state = self.decoder.init_state(enc_outputs, *args)return self.decoder(dec_X, dec_state)

2.基于上述基类，正式创建Seq2Seq编码器与解码器的类

import collections
import math
import torch
import dltools

2.1创建Seq2Seq的编码器类

class Seq2SeqEncoder(Encoder):  #继承父类Encoderdef __init__(self, vocab_size, embed_size, num_hiddens, num_layers, dropout=0, **kwargs):super().__init__(**kwargs)"""vocab_size:词汇表大小embed_size：嵌入层大小num_hiddens：隐藏层的神经元数量num_layers：隐藏层的层数dropout=0 ： 默认所有的神经元参与计算"""#初始化嵌入层self.embedding = nn.Embedding(vocab_size, embed_size)#初始化神经网络层self.rnn = nn.GRU(embed_size, num_hiddens, num_layers, dropout=dropout)def forward(self, X, *args):#在进行embedding之前，X的shape=（batch_size, num_steps, vocab_size）X = self.embedding(X) #X经过embedding处理，X的shape=(batch_size, num_steps, embed_size)X = X.permute(1, 0, 2)  #经过permute调换维度之后，X的shape=(num_steps, batch_size, embed_size)#此时， pytorch 会自动完成隐藏状态的初始化，即0， 不需要手动传入stateoutputs, state = self.rnn(X)#outputs的shape=(num_steps, batch_size, num_hiddens) ,最后一维是神经元的数量#state的shape=(num_layers, batch_size, num_hiddens)return outputs, state

#测试代码
encoder = Seq2SeqEncoder(vocab_size=10, embed_size=8, num_hiddens=32, num_layers=2)
encoder.eval()
# batch_size=4, num_steps=7
X = torch.zeros((4, 7), dtype=torch.long)
outputs, state = encoder(X)print(outputs.shape, state.shape)

torch.Size([7, 4, 16]) torch.Size([2, 4, 16])

2.2 创建Seq2Seq的解码器类

class Seq2SeqDecoder(Decoder):def __init__(self, vocab_size, embed_size, num_hiddens, num_layers, dropout=0, **kwargs):super().__init__(**kwargs)#初始化嵌入层self.embedding = nn.Embedding(vocab_size, embed_size)#初始化神经网络层self.rnn = nn.GRU(embed_size + num_hiddens, num_hiddens, num_layers, dropout=dropout)#初始化输出层self.dense = nn.Linear(num_hiddens, vocab_size)#定义函数：获取状态statedef init_state(self, enc_outputs, *args):#编码器输出的结果有两个，第二个为statereturn enc_outputs[1]#前向传播def forward(self, X, state):#X的原始shape=（batch_size, num_steps, vocab_size）X = self.embedding(X)  #X的shape=（batch_size, num_steps, embed_size）X = X.permute(1, 0, 2)  #调整数据维度， X的shape=（num_steps, batch_size, embed_size）# 把X和state拼接到一起. 方便计算. # X现在的形状(num_steps, batch_size, embed_size) ， # state的形状(batch_size, num_hiddens)# 要把state的形状扩充成三维. 变成(num_steps, batch_size, num_hiddens)context = state[-1].repeat(X.shape[0], 1, 1)  #扩充X.shape[0]=num_steps次，1：所对应的维度不变X_and_context = torch.cat((X, context), 2) #按照索引为2的维度合并#此时，X_and_context的shape=（num_steps, batch_size, embed_size+num_hiddens）#神经网络层outputs, state = self.rnn(X_and_context, state)#输出层outputs = self.dense(outputs).permute(1, 0, 2) #将数据维度重新调换过来#outputs的shape=(batch_size, num_steps, vocab_size)#state的shape=(num_layers, batch_size, num_hiddens)return outputs, state

#测试
decoder = Seq2SeqDecoder(vocab_size=10, embed_size=8, num_hiddens=32, num_layers=2)
decoder.eval()
state = decoder.init_state(encoder(X))
outputs, state = decoder(X, state)
outputs.shape, state.shape

(torch.Size([4, 7, 10]), torch.Size([2, 4, 32]))

3.编码器、解码器理论图

4.知识点个人理解

查看全文

http://www.lryc.cn/news/445201.html

喜报 | 众数信科荣获2024年“火炬瞪羚企业”称号

中央企业数智化薪酬信息系统建设如何实现穿透式监管？

110Redis 简明教程--Redis 数据类型

Spring Data Rest 远程命令执行命令(CVE-2017-8046)

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-18

搜索算法：Fibonacci查找

软件验收测试报告有什么作用?第三方验收测试报告包括哪些内容?

AI大模型教程 Prompt提示词工程 AI原生应用开发零基础入门到实战【2024超细超全，建议收藏】

vue组件（$refs对象，动态组件，插槽，自定义指令）

构建高可用和高防御力的云服务架构第五部分：PolarDB（5/5）

QT窗口无法激活弹出问题排查记录

node.js 版本管理

使用Python实现图形学曲线和曲面的NURBS算法

SpringBoot3

【Text2SQL】领域优质论文分享

2024全国研究生数学建模竞赛（数学建模研赛）ABCDEF题深度建模+全解全析+完整文章

Java-数据结构-二叉树-习题(三) ￣へ￣

SpringBoot+Aop+注解方式实现多数据源动态切换

1.创建编码器、解码器的基类

1.1创建编码器的基类

1.2创建解码器的基类

1.3合并编码器和解码器的基类

2.基于上述基类，正式创建Seq2Seq编码器与解码器的类

2.1创建Seq2Seq的编码器类

2.2 创建Seq2Seq的解码器类

3.编码器 、解码器理论图

4.知识点个人理解

相关文章：

3.编码器、解码器理论图