当前位置：首页 > news >正文

Transformer和BERT的区别

news 2025/9/11 23:37:43

Transformer和BERT的区别比较表：

两者的位置编码：

为什么要对位置进行编码？
Attention提取特征的时候，可以获取全局每个词对之间的关系，但是并没有显式保留时序信息，或者说位置信息。就算打乱序列中token的顺序，最后所得到的Attention结果也不会变，这会丢失语言中的时序信息，因此需要额外对位置进行编码以引入时序信息。

Position Embedding in Transformer
在Transformer中，位置编码是由sin /cos sin/cossin/cos函数生成的固定值。

具体做法：用不同频率的正余弦函数对位置信息进行编码，位置编码向量的维度与文本编码向量的维度相同，即dmodeld_{model}dmodel。因此二者可以直接相加作为token最终的编码向量。

pos表示位置，i 表示所在维度。

即使测试集中某些样本超出了最大文本长度，这种编码方式仍然可以获得有效的相对位置表示。

Position Embedding in BERT
在BERT中，与一般的词嵌入编码类似，位置编码也是随机生成且可训练的，维度为[seq_length, width]，其中seq_length代表序列长度，width代表每一个token对应的向量长度。

从实现上可以看到，BERT中将位置编码创建为一个tensorflow变量，并将其broadcast到与词嵌入编码同维度后相加。

with tf.control_dependencies([assert_op]):full_position_embeddings = tf.get_variable(name=position_embedding_name,shape=[max_position_embeddings, width],initializer=create_initializer(initializer_range))# 这里position embedding是可学习的参数，[max_position_embeddings, width]# 但是通常实际输入序列没有达到max_position_embeddings# 所以为了提高训练速度，使用tf.slice取出句子长度的embeddingposition_embeddings = tf.slice(full_position_embeddings, [0, 0],[seq_length, -1])num_dims = len(output.shape.as_list())# word embedding之后的tensor是[batch_size, seq_length, width]# 因为位置编码是与输入内容无关，它的shape总是[seq_length, width]# 我们无法把位置Embedding加到word embedding上# 因此我们需要扩展位置编码为[1, seq_length, width]# 然后就能通过broadcasting加上去了。position_broadcast_shape = []for _ in range(num_dims - 2):position_broadcast_shape.append(1)position_broadcast_shape.extend([seq_length, width])position_embeddings = tf.reshape(position_embeddings,position_broadcast_shape)output += position_embeddings