当前位置: 首页 > news >正文

从零开始一步一步掌握大语言模型---(2-什么是Token?)

了解自然语言处理或者听说过大语言模型的同学都听过,token。一般来说,它代表的是语言中不可再分的最小单元。我们人类的语言不仅有文字,还有语音。针对文字、语音来说,它们都各自有不同的划分token的方法。本节将尽可能详细的介绍它们。

文本和语音中的Token

文本,就是我们人类的文字。不同的国家、民族、地区使用不同的文字,不同的模型使用不同的切分这些文字的方法。所以有时候经常容易被闹晕乎。先介绍流行的用的人最多的划分token的方法。

第一种是phoneme,表示一个发音的音标,或发音的基本单位。
        Lexicon:单词到音标的转换表。cat-->K AE T.phoneme是以前一种的常见选择。
第二种是Grapherne:最小的书写单位。英文中一个单词就是一个最小单位。但在单词之间通常还要加上空格“_”。

        one_punch_man:这句话里N=13。V=26+。中文的最小单位可以用一个一个字来表示。中文不需要加入空白。


第三种是word(即词汇).

        one punch man按照这种方式的话就有3个token。“一拳” ”打死” ”你”。就有3个词汇。用词汇来表示token的话,太多太多了。无法穷举出所有的词。


第四种是Morpheme:表达意思的最小单位。

        unbreakable,可拆解为un, break, able.

最后一种是Bytes. 每一个符号都可以用UTF-8表示。

        什么字,符号都可以用UTF-8表示。太大了。 V总是256.

通常大家都用Grapheme和phoneme.

常见的大语言模型是如何划分token的?(指Chatgpt之类)

Chatgpt3.5&Chatgpt4:

官方介绍如何分词:

-------------------------------我是翻译线-----------------------------------------------------------------------------------

OpenAI 的大型语言模型(有时称为 GPT)使用tokens处理文本,tokens是一组文本中常见的字符序列。这些模型学习理解这些标记之间的统计关系,并擅长生成标记序列中的下一个token。

您可以使用下面的工具来了解语言模型如何对一段文本进行标记,以及该文本中的标记总数。

值得注意的是,确切的标记化过程因模型而异。GPT-3.5 和 GPT-4 等较新的模型使用与以前的模型不同的标记器,并且将为相同的输入文本生成不同的tokens。

-------------------------------我是翻译线-----------------------------------------------------------------------------------

我在Openai官网提供的版本中尝试了一下,看他们是如何分词的:

输入(注释:引号表示的是我输入的内容,我实际上并没有输入引号):“我是中国西北人”

Chatgpt3.5&Chatgpt4的分词器输出:“我”,“是”,”中国“,”西“,”北“,”人“。对应的id为“【[37046, 21043, 59795, 61786, 49409, 17792]】”。也就是说,在这个模型中,“我”是由37046表示的,依此类推。模型最后输出的就是这些数字,然后再拿这些数字去找对应的是哪个词。

人家输出的时候没有引号。再次提醒。

Chatglm以及Llama:

这两个模型都用的是谷歌的Sentencepiece包来进行分词的。把文本分完词之后,再转换为词表中的id。

后面再继续完善一下这个章节。

http://www.lryc.cn/news/323496.html

相关文章:

  • 使用专属浏览器在国内直连GPT教程
  • Wireshark 抓包工具与长ping工具pinginfoview使用,安装包
  • 分享Pandas 数据分析实战课程
  • 26. 删除有序数组中的重复项 (Swift版本)
  • python学生作业管理系统flask-django-nodejs-php
  • 蓝桥杯第二天刷真题
  • RK3568 安装jupyter和jupyterlab
  • 简易指南:国内ip切换手机软件怎么弄
  • Git学习笔记之Git 别名
  • 网络安全笔记-day6,NTFS安全权限
  • 云计算系统等保测评对象和指标选取
  • Vue 3项目中结合Element Plus的<el-menu>和CSS3创建锚点,以实现点击菜单项时平滑滚动到对应的锚点目标
  • C语言:数据在内存中的存储
  • DP动态规划入门(数字三角形、破损的楼梯、安全序列)
  • HBase Shell的应用案例
  • Allegro许可管理技巧
  • 34 vue 项目默认暴露出去的 public 文件夹 和 CopyWebpackPlugin
  • Redis 不再“开源”,对中国的影响及应对方案
  • 在CentOS中怎么安装和配置NginxWeb服务器
  • 使用docker搭建Fluentd的教程
  • Python的re模块进行正则表达式操作时的常用方法[回顾学习]
  • Rust之构建命令行程序(五):环境变量
  • ARMday7
  • Ubuntu中安装VSCode的一个指令
  • 生活电子产品拆解分析~汇总目录
  • Tkinter 一文读懂
  • 2核4G服务器阿里云性能测评和优惠价格表
  • Day41:WEB攻防-ASP应用HTTP.SYS短文件文件解析Access注入数据库泄漏
  • 什么是单点登录?
  • elasticsearch的数据搜索