当前位置: 首页 > news >正文

详解Keras3.0 KerasNLP Models: GPT2 GPT2Tokenizer

1、GPT2Tokenizer

用于将文本数据转换为适合训练和预测的格式,主要功能是将输入的文本进行分词、编码等操作,以便在神经网络中使用

keras_nlp.models.GPT2Tokenizer(vocabulary, merges, **kwargs)
参数说明 
  • vocabulary一个字典,包含词汇表的映射关系。键是单词,值是对应的索引。
  • merges一个列表,包含合并规则。每个元素是一个元组,表示两个需要合并的单词及其对应的索引。
  • **kwargs其他可选参数。
示例
from keras_nlp.models import GPT2Tokenizer# 定义词汇表和合并规则
vocabulary = {"hello": 1, "world": 2, "!": 3}
merges = [(1, 2)]# 创建分词器实例
tokenizer = GPT2Tokenizer(vocabulary, merges)# 对文本进行分词和编码
text = "hello world!"
encoded_text = tokenizer.encode(text)
print(encoded_text)  # 输出:[1, 2, 3]# 对编码后的文本进行解码
decoded_text = tokenizer.decode(encoded_text)
print(decoded_text)  # 输出:"hello world!"

 

2、from_preset

GPT2Tokenizer.from_preset()是Hugging Face的Transformers库中的一个函数,用于从预定义的预设中加载一个GPT-2分词器。这个函数可以帮助你快速地创建一个适用于特定任务的分词器,而无需从头开始训练。

GPT2Tokenizer.from_preset("gpt2_base_en")
参数说明 

在这个例子中,我们加载的是"gpt2_base_en"预设,它包含了英文版本的GPT-2模型的基本参数和词汇表

示例
from transformers import GPT2Tokenizer# 创建分词器
tokenizer = GPT2Tokenizer.from_pretrained("gpt2_base_en")# 对输入进行分词
tokens = tokenizer("The quick brown fox tripped.")
print(tokens)  # 输出:{'input_ids': [31474, 2024, 2003, 1037, 2327, 102], 'attention_mask': [1, 1, 1, 1, 1, 1]}# 对输入进行反分词
text = tokenizer.decode(tokens['input_ids'])
print(text)  # 输出:"The quick brown fox tripped."
  • gpt2_base_en:这是一个12层的GPT-2模型,参数量为124.44M,保持了大小写。它使用WebText数据集进行训练。
  • gpt2_medium_en:这是一个24层的GPT-2模型,参数量为354.82M,保持了大小写。它也使用WebText数据集进行训练。
  • gpt2_large_en:这是一个36层的GPT-2模型,参数量为774.03M,保持了大小写。同样使用WebText数据集进行训练。
  • gpt2_extra_large_en:这是一个48层的GPT-2模型,参数量为1.56B,保持了大小写。它也使用WebText数据集进行训练。
  • gpt2_base_en_cnn_dailymail:这是一个12层的GPT-2模型,参数量为124.44M,保持了大小写。它使用CNN/DailyMail摘要生成数据集进行微调。
http://www.lryc.cn/news/266165.html

相关文章:

  • 2016年第五届数学建模国际赛小美赛B题直达地铁线路解题全过程文档及程序
  • 三秦通ETC续航改造
  • 使用Python实现发送Email电子邮件【第19篇—python发邮件】
  • Docker基本命令和Docker怎么自己制作镜像
  • Netty-2-数据编解码
  • 伽马校正:FPGA
  • 【SpringCloud笔记】(8)服务网关之GateWay
  • Compose常用布局
  • 使用keytool查看Android APK签名
  • 数据库学习日常案例20231221-oracle libray cache lock分析
  • 【数据结构】最短路径算法实现(Dijkstra(迪克斯特拉),FloydWarshall(弗洛伊德) )
  • 算法模板之队列图文详解
  • [node]Node.js 中REPL简单介绍
  • AtomHub 开源容器镜像中心开放公测,国内服务稳定下载
  • java8实战 lambda表达式、函数式接口、方法引用双冒号(中)
  • FPGA高端项目:UltraScale GTH + SDI 视频编解码,SDI无缓存回环输出,提供2套工程源码和技术支持
  • 为什么react call api in cDidMount
  • openGauss学习笔记-171 openGauss 数据库运维-备份与恢复-导入数据-深层复制
  • [kubernetes]控制平面ETCD
  • 序列化类的高级用法
  • 4.svn版本管理工具使用
  • ZKP Algorithms for Efficient Cryptographic Operations 1 (MSM Pippenger)
  • Windows系统安装 ffmpeg
  • 油猴脚本教程案例【键盘监听】-编写 ChatGPT 快捷键优化
  • 数据结构 | 查漏补缺
  • 回溯算法练习题
  • 代码随想录算法训练营 | day60 单调栈 84.柱状图中最大的矩形
  • vscode中vue项目报错
  • 「数据结构」二叉树2
  • 数据处理系列课程 01:谈谈数据处理在数据分析中的重要性