当前位置: 首页 > news >正文

NLP的tokenization

GPT3.5的tokenization流程如上图所示,以下是chatGPT对BPE算法的解释:

BPE(Byte Pair Encoding)编码算法是一种基于统计的无监督分词方法,用于将文本分解为子词单元。它的原理如下:

1. 初始化:将文本中的每个字符视为一个单词,并统计每个字符出现的频率。这些字符可以是字母、标点符号或其他任意字符。

2. 统计频率:在每次迭代中,计算每对相邻字符(或字符序列)的频率,并记录最常出现的一对。

3. 合并频率最高的一对:将频率最高的字符对合并成一个新的字符(或字符序列),并将其作为新的单词。同时,更新字符频率统计。

4. 重复步骤2和3:重复执行步骤2和3,直到达到预定的子词数量或达到指定的迭代次数。

5. 构建词表:将合并得到的字符组合形成的新单词添加到词表中。

6. 分词:使用得到的词表将文本分解为子词单元。

BPE算法的核心思想是通过反复合并频率最高的字符对来构建子词单元。这样做的好处是可以将常见的词汇合并为一个单元,同时也能够处理未登录词(OOV)问题,即将未在训练集中出现过的词拆解为可识别的子词。

BPE算法的优点是可以自适应地根据数据集构建词表,而不需要依赖外部词典。它在机器翻译、文本生成等自然语言处理任务中得到广泛应用。

BPE采用了一种贪婪的思想来生成token,以下博客举例解释了BPE算法的迭代过程

理解NLP最重要的编码方式 — Byte Pair Encoding (BPE),这一篇就够了 - 知乎在machine learning,尤其是NLP的算法面试时,Byte Pair Encoding (BPE) 的概念几乎成了一道必问的题,然而尴尬的是,很多人用过,却未必十分清楚它的概念(调包大法好)。本文将由浅入深地介绍BPE算法背后的思想…https://zhuanlan.zhihu.com/p/424631681

http://www.lryc.cn/news/131179.html

相关文章:

  • 【宝藏系列】一文讲透C语言数组与指针的关系
  • Jenkins+Jmeter集成自动化接口测试并通过邮件发送测试报告
  • clickhouse入门
  • 中间件: ElasticSearch的安装与部署
  • LabVIEW模拟化学反应器的工作
  • Python基础语法入门(第二十三天)——正则表达式
  • 山西电力市场日前价格预测【2023-08-20】
  • C++中function,bind,lambda
  • 跟着美团学设计模式(感处)
  • 2023/8/19 小红书 Java 后台开发面经
  • 基于traccar快捷搭建gps轨迹应用
  • 【深度学习-图像识别】使用fastai对Caltech101数据集进行图像多分类(50行以内的代码就可达到很高准确率)
  • Debian10: 安装nut服务器(UPS)
  • 神经网络基础-神经网络补充概念-47-动量梯度下降法
  • C++11并发与多线程笔记(13) 补充知识、线程池浅谈、数量谈、总结
  • python高级基础
  • 使用线性回归模型优化权重:探索数据拟合的基础
  • 亿级短视频,如何架构?
  • jenkins pipeline方式一键部署github项目
  • Vue 项目搭建
  • 【NetCore】09-中间件
  • 机器学习深度学习——BERT(来自transformer的双向编码器表示)
  • Datawhale Django后端开发入门 Vscode TASK02 Admin管理员、外键的使用
  • 【ES5和ES6】数组遍历的各种方法集合
  • 学科在线教育元宇宙VR虚拟仿真平台落实更高质量的交互学习
  • [python爬虫] 爬取图片无法打开或已损坏的简单探讨
  • vue项目预览pdf功能(解决动态文字无法显示的问题)
  • vue3 样式穿透:deep不生效
  • 云原生反模式
  • 【2023年11月第四版教材】《第5章-信息系统工程(合集篇)》