当前位置：首页 > news >正文

BERT介绍

news 2025/9/15 21:11:55

引言

BERT（Bidirectional Encoder Representations from Transformers）是由Google于2018年提出的一种预训练语言模型。它在NLP（自然语言处理）领域引发了广泛关注，并在多个任务上刷新了最先进的性能。BERT的创新之处在于其“深度双向”的特性，以及使用Transformer架构进行语言建模。接下来，我将为你详细介绍BERT的背景、核心原理、创新点以及如何在实际中应用。

背景

在BERT之前，NLP领域的大多数语言模型如Word2Vec、GloVe和ELMo，都是基于单向的上下文建模，即从左到右或者从右到左来学习语言的特征。尽管这些模型在许多任务上都取得了不错的效果，但它们忽视了上下文中的双向关系，这意味着它们没有完全理解句子中的复杂语法和语义结构。

而BERT的核心创新就是引入了“深度双向”上下文，允许模型在训练时同时从句子的前后两个方向来理解语言。这种设计使得BERT能够更好地捕捉到句子中的细微语义关系。

Transformer架构

BERT基于Transformer模型架构，Transformer本身在机器翻译任务中表现出色，BERT继承了其强大的特性，包括自注意力机制和多头注意力机制。

自注意力（Self-Attention）

Transformer的核心组件是自注意力机制。传统的RNN（循环神经网络）和LSTM（长短期记忆网络）都依赖于序列化的处理方式，一次处理一个词。与之不同，Transformer通过自注意力机制同时关注句子中所有词语之间的关系，这使得它能够高效地捕捉到长距离依赖。

多头注意力（Multi-Head Attention）

多头注意力机制允许模型在不同的子空间中并行计算多个注意力向量，从而增强了模型在多个方面理解句子的能力。每个注意力头可以看作是一个独立的学习任务，能够从不同的角度提取句子的信息。

BERT的预训练目标

BERT的预训练目标分为两个主要部分：

掩蔽语言模型（Masked Language Model，MLM）

在传统的语言模型中，模型会根据上下文来预测下一个词。而在BERT的预训练中，部分输入词被随机掩蔽（即替换为[MASK]标记），然后模型需要预测这些被掩蔽的词。这个任务让BERT能够从上下文中同时学习到单词的前后依赖关系，提升了其双向理解能力。

下一句预测（Next Sentence Prediction，NSP）

BERT还引入了一个任务，即下一句预测。给定两个句子，BERT的目标是判断第二个句子是否是第一个句子的自然续接。这个任务帮助BERT学习到句子级别的语义关系，提升了其在句子对任务（如问答、文本蕴含等）上的表现。

BERT的模型结构

BERT的基础结构是由多个Transformer编码器层堆叠而成。Google的BERT Base模型包含12个编码器层，每层包含768个隐藏单元，而BERT Large则包含24个编码器层和1024个隐藏单元。

输入表示

BERT的输入是一个由词嵌入（Token Embeddings）、位置嵌入（Position Embeddings）和段落嵌入（Segment Embeddings）构成的向量。位置嵌入用于表示词语在句子中的顺序，而段落嵌入则用于区分句子对（A、B）的输入，帮助BERT理解句子对之间的关系。

输出表示

BERT的输出是一个包含每个输入词的上下文表示（Contextual Representation）的向量。这些向量包含了词语在特定上下文中的含义，能够有效地应用到各种下游任务中。

BERT实战

假设我们使用Hugging Face的transformers库，这个库提供了许多预训练的模型和工具，方便我们在各种NLP任务中应用BERT。下面是一个简单的例子，展示了如何使用BERT进行文本分类。

安装必要的库

首先，确保你已经安装了transformers和torch库：

pip install transformers torch
pip install huggingface_hub[hf_xet]
set HF_HUB_DISABLE_SYMLINKS_WARNING=1

windows环境最好开启开发者模式

reg add "HKLM\SOFTWARE\Microsoft\Windows\CurrentVersion\AppModelUnlock" /t REG_DWORD /f /v "AllowDevelopmentWithoutDevLicense" /d "1"

加载预训练的BERT模型和分词器

我们将使用Hugging Face的BERT模型和分词器。以下代码加载了预训练的bert-base-uncased模型和相应的分词器（注意这里使用的是小写的BERT模型，适合处理小写的文本）。

from transformers import BertTokenizer, BertForSequenceClassification
import torch#import os
#os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'  # 国内镜像地址
#os.environ['TRANSFORMERS_OFFLINE'] = '1'  # 启用离线模式（需已缓存模型）# 加载预训练的BERT分词器和BERT模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)

数据准备

假设我们有一个简单的文本分类任务，我们要根据文本判断其情感是积极（1）还是消极（0）。首先，我们定义一些示例文本和对应的标签。

# 示例文本和标签（0: 消极，1: 积极）
texts = ["I love this product!", "This is the worst experience I've ever had."]
labels = torch.tensor([1, 0])  # 标签：1代表积极，0代表消极

文本编码

BERT模型的输入需要是固定格式的。我们首先将文本数据转化为模型能够理解的输入格式。

# 使用分词器对文本进行编码
inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt")# 输出编码后的输入
print(inputs)

模型推理

现在我们可以将编码后的输入传入BERT模型进行推理。模型输出的是每个文本的标签预测。

# 将输入传入模型进行预测
outputs = model(**inputs)# 获取模型的预测结果
logits = outputs.logits# 计算预测的标签（通过softmax转换为概率，取最大值）
predictions = torch.argmax(logits, dim=-1)# 输出预测结果
print(f"Predictions: {predictions}")

训练模型

如果你想训练BERT模型进行自定义任务，可以使用AdamW优化器和CrossEntropyLoss损失函数来进行训练。以下是一个简单的训练循环示例。

from torch.optim import AdamW
from torch.nn import CrossEntropyLoss# 设置优化器和损失函数
optimizer = AdamW(model.parameters(), lr=1e-5)
loss_fn = CrossEntropyLoss()# 模型训练
model.train()# 正向传播计算损失
optimizer.zero_grad()
outputs = model(**inputs)
loss = loss_fn(outputs.logits, labels)# 反向传播并更新模型参数
loss.backward()
optimizer.step()# 输出训练损失
print(f"Training loss: {loss.item()}")

完整代码示例

将所有部分整合起来，我们就有了一个完整的BERT文本分类的示例：

python

CopyEdit

from transformers import BertTokenizer, BertForSequenceClassification
import torch
from torch.optim import AdamW
from torch.nn import CrossEntropyLoss# 加载预训练的BERT模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)# 示例文本和标签（0: 消极，1: 积极）
texts = ["I love this product!", "This is the worst experience I've ever had."]
labels = torch.tensor([1, 0])  # 标签：1代表积极，0代表消极# 使用分词器对文本进行编码
inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt")# 将输入传入模型进行预测
outputs = model(**inputs)# 获取模型的预测结果
logits = outputs.logits# 计算预测的标签（通过softmax转换为概率，取最大值）
predictions = torch.argmax(logits, dim=-1)# 输出预测结果
print(f"Predictions: {predictions}")# 设置优化器和损失函数
optimizer = AdamW(model.parameters(), lr=1e-5)
loss_fn = CrossEntropyLoss()# 模型训练
model.train()# 正向传播计算损失
optimizer.zero_grad()
outputs = model(**inputs)
loss = loss_fn(outputs.logits, labels)# 反向传播并更新模型参数
loss.backward()
optimizer.step()# 输出训练损失
print(f"Training loss: {loss.item()}")

代码解释

BERT模型与分词器加载： 我们加载了bert-base-uncased模型和对应的分词器。BertForSequenceClassification用于序列分类任务，这里我们指定了num_labels=2表示有两个分类（积极、消极）。
文本编码： 使用分词器对文本进行编码，padding=True和truncation=True确保文本长度一致，return_tensors="pt"表示返回PyTorch张量格式的输入。
模型推理： 将编码后的输入传入BERT模型，输出logits，即未归一化的预测值。通过torch.argmax计算最终的分类结果。
训练： 设置了AdamW优化器和CrossEntropyLoss损失函数，进行简单的训练步骤，更新模型参数。