当前位置: 首页 > news >正文

Transformer 模型中常见的特殊符号

Transformer 模型中常见的特殊符号

通过代码一起理解一下 Transformer 模型中常见的特殊符号,

示例代码,

special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}

这段代码是定义了一个字典special_tokens,包含了以下几个关键字的token:

unk_token : 未知词token,用于替换不在词汇表中的单词。
sep_token: 分隔符token,用于分隔句子。
pad_token: 填充token,用于将序列padding到同一长度。
cls_token: 分类token,用于分类任务。
mask_token: 掩码token,用于掩码一些词语。
那么这些token的具体含义和作用是:

[UNK] 表示未登录词,也就是不在模型词汇表中的单词,会被替换成这个token。
[SEP] 用于分割句子,比如分隔两个句子。
[PAD] 是填充token,会用于把句子pad到相同长度。
[CLS] 是分类token,用于分类任务,会添加到句子开头,通过这个token的表示来进行分类。
[MASK] 是掩码token,用于掩码一些词,然后让模型预测被掩码的词。
这些都是 Transformer 模型中常见的特殊符号,在做NLP任务时需要加入这些特殊token,以表示一些特定的语义。

完结!

http://www.lryc.cn/news/164624.html

相关文章:

  • C# halcon SubImage的使用
  • 每天几道Java面试题:异常机制(第三天)
  • Linux 中的 chattr 命令及示例
  • LeetCode 2605. Form Smallest Number From Two Digit Arrays【数组,哈希表,枚举;位运算】1241
  • VoxWeekly|The Sandbox 生态周报|20230904
  • antd setFieldsValue 设置初始值无效AutoComplete 设置默认值失败
  • 01-Redis核心数据结构与高性能原理
  • 预防Dos攻击
  • ant design的文档真的是一坨屎
  • 关于迁移学习的一点理解
  • 【力扣周赛】第 361 场周赛(⭐前缀和+哈希表 树上倍增、LCA⭐)
  • 解决 Android 依赖冲突
  • 前端设计模式基础笔记
  • Python项目开发:Flask基于Python的天气数据可视化平台
  • Dell 服务器常见报错信息汇总
  • 算法通关村-----贪心面试大热门之区间问题
  • OAK相机:自动或手动设置相机参数
  • 百家宴焕新上市,持续深耕100-300元价位段
  • Linux Debian12使用git将本地项目上传到码云(gitee)远程仓库
  • 电子烟行业常用的英文表达
  • 【SpringMvc 丨跨域】
  • 【C语言】【strlen函数的使用与模拟实现】
  • 类和对象【基础概念】
  • 如何测试生成式人工智能(AIGC)
  • 机器学习算法详解3:逻辑回归
  • linux命令集合
  • 实现卓越供应链:RFID技术的革命性应用
  • 从JVM角度看继承
  • 基于Python和mysql开发的看图猜成语微信小程序(源码+数据库+程序配置说明书+程序使用说明书)
  • Unity入门教程||创建项目(上)