当前位置: 首页 > news >正文

chatGLM或chatgpt:什么是tokens以及如何计算tokens长度?

token是什么?

简单的来说tokens就是大语言模型输入的向量数据,它是从原始的文本转化而来。
比如
输入:here is a text demo
tokens为:[64790, 64792, 985, 323, 260, 2254, 16948]

解码:将tokens转化为文本
[‘[gMASK]’, ‘sop’, ‘▁here’, ‘▁is’, ‘▁a’, ‘▁text’, ‘▁demo’]

如何计算tokens数量

由于没有任何的公开的 Zhipu AI token计算工具,因此,我使用了 chatglm3-6b 这个开源模型的 tokenizer进行加载。这种计算方式仅能作为参考,尚且不能认定是最终的 API token 计算方式。具体的计价方式以官方文档为主。

示例源码


import warnings
warnings.filterwarnings('ignore')
import os
from transformers import AutoTokenizertokenizer = AutoTokenizer.from_pretrained("chatglm3-6b", trust_remote_code=True, encode_special_tokens=True)def count_encode(inputs: str = ""):encoded_input = tokenizer.encode(inputs)num_tokens = len(encoded_input)r
http://www.lryc.cn/news/347102.html

相关文章:

  • springcloudalibaba版本发布说明
  • Obsidian/Typora设置图床
  • 【RAG论文】RAG中半结构化数据的解析和向量化方法
  • git提交代码异常报错error:bad signature 0x00000000
  • 【FFmpeg】调用ffmpeg库进行RTMP推流和拉流
  • Multisim 14 常见电子仪器的使用和Multisim的使用
  • 【2024高校网络安全管理运维赛】巨细记录!
  • Nuxt.js实战:Vue.js的服务器端渲染框架
  • 提高Rust安装与更新的速度
  • 【linux软件基础知识】内核代码中的就绪队列简化示例
  • 《C++学习笔记---初阶篇6》---string类 上
  • mysql中的页和行
  • Vim常用快捷键
  • 力扣题目汇总分析 利用树形DP解决问题
  • GO语言核心30讲 实战与应用 (第二部分)
  • linux设置挂载指定的usb,自动挂载
  • 简站WordPress主题
  • is和==的关系
  • 璩静是为了薅百度羊毛
  • Element ui input 限制只能输入数字,且只能有两位小数
  • 吃掉 N 个橘子的最少天数
  • JavaScript 之 toString()方法详解
  • PPMP_char3
  • VulkanSDK Demos vkcube 编译失败
  • (二)Jetpack Compose 布局模型
  • 【Oracle impdp导入dmp文件(windows)】
  • 代数结构:5、格与布尔代数
  • 如何使用DEEPL免费翻译PDF
  • Spring-全面详解
  • QT自适应界面 处理高DPI 缩放比界面乱问题