当前位置: 首页 > news >正文

预训练Bert添加new token的问题

问题

最近遇到使用transformers的AutoTokenizer的时候,修改vocab.txt中的[unused1]依然无法识别相应的new token。

实例:
我将[unused1]修改为了[TRI],句子中的[TRI]并没有被整体识别,而是识别为了[,T,RI,]。这明显是有问题的。

解决

若去掉[TRI]的方括号,问题就消失了。
所以可以认定,Bert对带有方括号的token统一按special token处理,所以要使用

tokenizer.add_special_tokens({})

来添加此类token。

http://www.lryc.cn/news/153942.html

相关文章:

  • 非常典型和高效的枚举类写法
  • kafka-- kafka集群环境搭建
  • 3.flask-sqlalchemy ORM库
  • mac 安装 homebrew
  • R语言应用interactionR包进行亚组相加交互作用分析
  • mysql 数据库面试题整理
  • LeetCode-435-无重叠区间
  • 记录深度学习常用指令(一)
  • Shell脚本练习——系统应用相关
  • 同创永益入选首批“金融数字韧性与混沌工程实践试点机构”
  • Hive 表注释乱码解决
  • 【搭建私人图床】使用LightPicture开源搭建图片管理系统并远程访问
  • Ubuntu入门04——目录与文件
  • 深度学习中有哪些超参数,都有什么作用
  • centOS下载与安装
  • uniapp中mixins的使用
  • 【JAVA基础——JAVA虚拟机JVM】
  • RTSP/Onvif视频服务器EasyNVR安防视频平台服务器频繁重启的问题解决方案
  • SpringBoot初级开发--服务请求(GET/POST)所有参数的记录管理(8)
  • 快速掌握STM32工程创建
  • 如何利用开源工具搭建AI大模型底座
  • 算法笔记:二叉树
  • 1. 安装Zookeeper
  • warning: ignoring unsupported character ‘问题修复
  • 【Ant Design】Form.Item创建自定义表单
  • Vision Transformer(VIT 网络架构)
  • 数学建模--蒙特卡洛模型的Python实现
  • MySQL访问和配置
  • note_前端框架Vue的安装和简单入门(Windows 11)
  • SILERGY(矽力杰)功率电子开关 SY6280AAC