当前位置: 首页 > news >正文

NLP之Bert介绍和简单示例

文章目录

  • 1. Bert 介绍
  • 2. 代码示例
    • 2.1 代码流程

1. Bert 介绍

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2. 代码示例

from transformers import AutoTokenizertokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
input_ids = tokenizer.encode('欢迎来到Bert世界', return_tensors='tf')
print(input_ids)

输出内容:

tf.Tensor([[ 101 3614 6816 3341 1168  100  686 4518  102]], shape=(1, 9), dtype=int32)

2.1 代码流程

代码片段涉及到了使用transformers库来加载一个预训练的BERT模型的分词器,并用它来对一段文本进行编码。以下是整体流程和目的的分步说明:

  1. 导入AutoTokenizer类:
    from transformers import AutoTokenizer这行代码导入了transformers库中的AutoTokenizer类。这个类可以自动检测并加载与给定模型相对应的分词器(tokenizer)。

  2. 加载分词器:
    tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")这行代码创建了一个分词器的实例。from_pretrained方法用于加载预先训练好的分词器,这里是"bert-base-chinese",专门为中文文本设计的BERT模型的分词器。

  3. 文本编码:
    input_ids = tokenizer.encode('欢迎来到Bert世界', return_tensors='tf')这行代码用分词器将提供的中文字符串'欢迎来到Bert世界'转换成BERT模型能够理解的输入格式,即一系列的数字ID。每个ID对应原始文本中的一个词或子词单位。return_tensors='tf'指定返回的格式为TensorFlow张量。

  4. 打印输出:
    print(input_ids)这行代码输出编码后的input_ids。这个输出是用于后续的模型预测或者微调过程的输入。

    tf.Tensor([[ 101 3614 6816 3341 1168  100  686 4518  102]], shape=(1, 9), dtype=int32)
    

目的:
这段代码的主要目的是为了准备数据,将自然语言文本转换为BERT模型可以接受的格式,这是使用BERT模型进行任务(如分类、问答等)前的标准步骤。

http://www.lryc.cn/news/218950.html

相关文章:

  • 【Windows】Google和火狐浏览器禁用更新的操作方式
  • 关于编程不得不说的事
  • 2.4G合封芯片 XL2422,集成M0核MCU,高性能 低功耗
  • 【QT基础入门 控件篇】QLineEdit 基础、高级和样式表使用详解
  • 网络安全(网络安全)小白自学
  • dupeGuru 清理微信重复文件
  • 华为RS设备状态及接口配置命令
  • 单链表的应用(2)
  • 【Boost | C++】使用Boost库创建文件夹
  • 月报总结|Moonbeam 10月份大事一览
  • Latex安装记录
  • JavaEE-博客系统2(功能设计)
  • 2023年【高处安装、维护、拆除】免费试题及高处安装、维护、拆除找解析
  • antv/g6之交互模式mode
  • 基于8086电压表系统仿真系统设计
  • Docker与微服务实战——基础篇
  • 旧手机搭建linuxcentos
  • 使用pandas处理excel文件【Demo】
  • 【Maven】<dependencyManagement>详解
  • apache-tomcat-9.0.29 安装配置教程
  • 精品基于Python的图书借阅归还管控系统
  • gorm的自动化工具gen
  • dubbo没有找到生产者
  • 论文阅读——What Can Human Sketches Do for Object Detection?(cvpr2023)
  • 统计学习方法 牛顿法和拟牛顿法
  • React基础知识02
  • Oracle(10)Managing Undo Data
  • Xcode 14.3 新版问题总结
  • 14 _ 排序优化:如何实现一个通用的、高性能的排序函数?
  • 如何记录每天的工作日程?电脑手机通用的日程管理软件