当前位置: 首页 > news >正文

子词分词器(Byte Pair Encoding + WordPiece)

参考文章:子词分词器BPE和WordPiece理解_wordpeice-CSDN博客

子词分词器BPE和WordPiece理解_wordpeice-CSDN博客

WordPiece 和 BPE 的区别-CSDN博客

点互信息(PMI)和正点互信息(PPMI)-CSDN博客

https://zhuanlan.zhihu.com/p/649030161

BPE和WordPiece都是常用的子词分词器,子词分词器可以控制词表的大小的同时学习到有意义的上下文表示,所以现在的深度学习模型一般会使用子词分词器。

相同点:

都要指定一个词典的大小

都包含更细粒度的子词,所以可以控制词典的大小的同时,缓解OOV问题

不同点:

将词加入基础词典的选择策略不一样,BPE是选择频率最高的字符对,WordPiece是选择使训练数据的似然概率最大的字符对。

BPE和WordPiece的区别在于如何选择两个子词进行合并。

BPE的词表创建过程:

1. 首先初始化词表,词表中包含了训练数据中出现的所有字符。
2. 然后两两拼接字符,统计字符对在训练数据中出现的频率。
3. 选择出现频率最高的一组字符对加入词表中。
4. 反复2和3,直到词表大小达到指定大小。

WordPiece是贪心的最长匹配搜索算法。基本流程:
1. 首先初始化词表,词表包含了训练数据中出现的所有字符。
2. 然后两两拼接字符,统计字符对加入词表后对语言模型的似然值的提升程度。
3. 选择提升语言模型似然值最大的一组字符对加入词表中。
4. 反复2和3,直到词表大小达到指定大小。

BBPE和BPE的关系:

BBPE算法在基于字节(Byte)进行合并过程和BPE一致、也是选取出现频数最高的字符对进行合并。BPE基于char粒度去执行合并的过程生成词表。

BBPE 的兼容性—通用模型(多种语言)

BBPE解决一个问题是能比较好支持语料是多种语言的分词,一方面正如上面所说,如果只考虑英文、法语、西班牙语等拉丁美系的语言,BEP足以支持能够以较小词表大小(Vocabulary Size)解决OOV的问题。但中文、日本如果使用BEP对字符(characters)进行构造词表的话,其具有的生僻词会占据浪费比较大词表空间。结合最近有关GPT5加强其翻译的能力的报道,通用人工智能AGI的角度上来看,使用对支持多种语言的友好的Tokenizer可以极大降低成本,同时突出翻译的能力。在LLM时代,如何设计一个兼顾通用且高效推理的Tokenizer是非常重要的事情。


 

http://www.lryc.cn/news/609664.html

相关文章:

  • 深入解析SmolVLA:VLM与动作专家间的注意力机制交互
  • 深入剖析通用目标跟踪:一项综述
  • [自动化Adapt] 父子事件| 冗余过滤 | SQLite | SQLAlchemy | 会话工厂 | Alembic
  • RLCraft开服踩坑记录
  • 补:《每日AI-人工智能-编程日报》--2025年7月30日
  • AWS 可靠性工程深度实践: 从 Well-Architected 到“零失误”VPC 落地
  • 使用AWS for PHP SDK实现Minio文件上传
  • 音视频学习笔记
  • vue3入门-概览讲解
  • 使用 IntelliJ IDEA + Spring JdbcTemplate 操作 MySQL 指南
  • 基于Java的AI/机器学习库(Smile、Weka、DeepLearning4J)的实用
  • Go语言流式输出技术实现-服务器推送事件(Server-Sent Events, SSE)
  • 【银河麒麟服务器系统】自定义ISO镜像更新内核版本
  • Linux 文件与目录属性管理总结
  • Android 区块链 + CleanArchitecture + MVI 架构实践
  • IDA9.1使用技巧(安装、中文字符串显示、IDA MCP服务器详细部署和MCP API函数修改开发经验)
  • Android工程命令行打包并自动生成签名Apk
  • 服务器突然之间特别卡,什么原因?
  • ffmpeg下载windows教程
  • clickhouse 中文数据的正则匹配
  • 随笔之 ClickHouse 列式分析数据库安装注意事项及基准测试
  • 人大金仓数据库常见问题(持续更新)
  • 数据结构----排序
  • Android 15.0 启动app时设置密码锁(升级到framework层判断)
  • 《时间之隙:内存溢出》
  • 《基于电阻抗断层成像(EIT)的触觉传感器:物理模拟与机器学习的创新结合》论文解读
  • RocketMQ与Kafka 消费者组的‌重平衡操作消息顺序性对比
  • 实现建筑环境自动控制,楼宇自控技术提升舒适与安全
  • 【前端】三件套基础介绍
  • 规则方法关系抽取-笔记总结