当前位置：首页 > news >正文

NLP之Bert实现文本多分类

news 2025/8/27 22:06:03

文章目录

代码
代码整体流程解读
debug上面的代码

代码

from pypro.chapters03.demo03_数据获取与处理 import train_list, label_list, val_train_list, val_label_list
import tensorflow as tf
from transformers import TFBertForSequenceClassificationbert_model = "bert-base-chinese"model = TFBertForSequenceClassification.from_pretrained(bert_model, num_labels=32)
model.compile(metrics=['accuracy'], loss=tf.nn.sigmoid_cross_entropy_with_logits)
model.summary()
result = model.fit(x=train_list[:24], y=label_list[:24], batch_size=12, epochs=1)
print(result.history)
# 保存模型(模型保存的本质就是保存训练的参数,而对于深度学习而言还保存神经网络结构)
model.save_weights('../data/model.h5')model = TFBertForSequenceClassification.from_pretrained(bert_model, num_labels=32)
model.load_weights('../data/model.h5')
result = model.predict(val_train_list[:12])  # 预测值
print(result)
result = tf.nn.sigmoid(result)
print(result)
result = tf.cast(tf.greater_equal(result, 0.5), tf.float32)
print(result)

代码整体流程解读

这段代码的目的是利用TensorFlow和transformers库来进行文本序列的分类任务。下面是整体流程的概述和逐步计划：

导入必要的库和数据:
- 从一个叫做 pypro.chapters03.demo03_数据获取与处理 的模块中导入了四个列表：train_list, label_list, val_train_list, val_label_list。这些列表分别包含训练数据、训练标签、验证数据和验证标签。
- 导入TensorFlow和transformers库。
初始化预训练的BERT模型:
- 使用 bert-base-chinese 模型初始化一个用于序列分类的BERT模型。
- 模型被配置为对32个不同的标签进行分类。
编译模型:
- 使用sigmoid交叉熵作为损失函数，并跟踪准确度作为性能指标。
模型摘要:
- 输出模型的概要信息，包括每一层的名称、类型、输出形状和参数数量。
训练模型:
- 使用提供的训练数据和标签（仅取前24个样本）来训练模型。
- 批量大小设置为12，训练仅进行1个时代（epoch），这意味着数据将通过模型传递一次。
输出训练结果:
- 打印训练过程中记录的历史数据，通常包括损失值和准确度。
保存模型权重:
- 将训练后的模型权重保存到本地文件 model.h5。
加载模型权重:
- 初始化一个新的模型结构，并加载之前保存的权重。
模型预测:
- 使用验证数据（仅取前12个样本）进行预测。
激活函数处理:
- 将预测结果通过sigmoid函数处理，转换成0到1之间的值。
转换预测结果:
- 通过比较预测值是否大于或等于0.5来将概率转换为二进制分类结果。

debug上面的代码

下面逐行解释上述代码：

from pypro.chapters03.demo03_数据获取与处理 import train_list, label_list, val_train_list, val_label_list

这行代码从demo03_数据获取与处理模块中导入四个列表。这些列表包含训练数据和标签（train_list, label_list），以及验证数据和标签（val_train_list, val_label_list）。这是数据准备步骤的一部分。
import tensorflow as tf

这行代码导入了TensorFlow库，它是一个广泛用于机器学习和深度学习任务的开源库。
from transformers import TFBertForSequenceClassification

这里导入了transformers库中的TFBertForSequenceClassification类。transformers库包含了许多预训练模型，用于NLP任务，这里特别导入的是适用于TensorFlow的BERT模型，用于序列分类任务。
bert_model = "bert-base-chinese"

定义一个字符串变量bert_model，它保存了预训练模型的名称。在这里，我们将使用中文BERT基础模型。
model = TFBertForSequenceClassification.from_pretrained(bert_model, num_labels=32)

使用bert-base-chinese模型和TFBertForSequenceClassification类创建一个新的序列分类模型实例。num_labels=32表明有32个不同的类别用于分类。
model.compile(metrics=['accuracy'], loss=tf.nn.sigmoid_cross_entropy_with_logits)

编译模型，设置度量为准确度（accuracy），并使用sigmoid_cross_entropy_with_logits作为损失函数，这通常用于二分类问题，但在这里，由于是多标签分类（32个类别），可能是对每个标签进行二分类。
model.summary()

输出模型的摘要信息，包括模型中的层，每层的输出形状和参数数量等详细信息。
result = model.fit(x=train_list[:24], y=label_list[:24], batch_size=12, epochs=1)

开始训练模型，仅使用前24个样本作为训练数据和标签。批处理大小设置为12，意味着每次梯度更新将基于12个样本。epochs=1表示整个数据集只通过模型训练一次。
print(result.history)

打印出训练过程中的历史数据，如损失和准确度。
model.save_weights('../data/model.h5')

保存训练好的模型权重到本地文件model.h5。
model = TFBertForSequenceClassification.from_pretrained(bert_model, num_labels=32)

再次初始化一个模型，用于演示如何从头加载一个模型。
model.load_weights('../data/model.h5')

加载先前保存的模型权重。
result = model.predict(val_train_list[:12]) # 预测值

使用验证数据集中的前12个样本进行预测，得到模型的输出。
print(result)

打印出预测结果。
result = tf.nn.sigmoid(result)

将模型的原始输出通过sigmoid函数转换，得到一个在0到1之间的值，表示属于每个类别的概率。
print(result)

再次打印经过sigmoid激活函数处理后的预测结果。
result = tf.cast(tf.greater_equal(result, 0.5), tf.float32)

将sigmoid输出的概率转换为二分类结果。对于每个标签，如果概率大于或等于0.5，则认为该样本属于该标签（转换为1），否则不属于（转换为0）。
`print

(result)`

最后，打印出转换后的分类结果。

整体而言，这段代码展示了使用预训练的BERT模型在一个多标签文本分类任务上的训练、保存、加载和预测的完整过程。

查看全文

http://www.lryc.cn/news/224459.html

对话大众软件子公司：中国的智舱、智驾比欧洲早一代

基于FPGA的图像RGB转HSV实现,包含testbench和MATLAB辅助验证程序

小型企业如何数字化转型？ZohoCRM助力小企业转型

聊聊模板引擎＜Template engine＞

多平台商品采集——API接口：支持淘宝、天猫、1688、拼多多等多个电商平台的爆款、销量、整店商品采集和淘客功能

UI自动化测试框架设计（Selenium）

towr code阅读

Channel扇出模式

学者观察 | 联邦学习与区块链、大模型等新技术的融合与挑战-北京航空航天大学童咏昕

ubuntu连接蓝牙耳机

长春理工大学漏洞报送证书

Excel和Chatgpt是最好的组合。

Java用Jsoup库实现的多线程爬虫代码

layui控件开发，实现下拉搜索从数据库获取数据

让代码变美的第一天 - 观察者模式

微服务-网关设计

WxJava使用lettuce的redis实现access_token的共享

干货：如何运作一个全新品牌？

TCP/IP卷一详解第二章Internet地址结构概要

小程序打开方式页面效果表单页面点击跳到详情页图标获取后台数据进行页面渲染

一个“Hello, World”Flask应用程序

计算机丢失mfc100.dll如何恢复，详细解析mfc100.dll文件丢失解决方法

分享一本让你真正理解深度学习的书

Apache APISIX Dashboard 未经认证访问导致 RCE（CVE-2021-45232）漏洞复现

Git 安全警告修复手册：解决 `fatal: detected dubious ownership in repository at ` 问题 ️

【MySQL事务篇】多版本并发控制(MVCC)

拆分代码 + 动态加载 + 预加载，减少首屏资源，提升首屏性能及应用体验

在 Vue3 中使用 mitt 进行组件通信

SQLite 3.44.0 发布！

本地生活新赛道-视频号团购怎么做？

文章目录

代码

代码整体流程解读

debug上面的代码

相关文章：