当前位置: 首页 > news >正文

从零开始构建一个语言模型中vocab_size(词汇表大小)的设定规则

        从零开始构建一个语言模型就要设计一个模型框架,其中要配置很多参数。在自然语言处理任务中,vocab_size(词汇表大小) 的设定是模型设计的关键参数之一,它直接影响模型的输入输出结构、计算效率和内存消耗。

        本文是在我前文的基础上讲解的:从零开始构建一个小型字符级语言模型的详细教程(基于Transformer架构)之一数据准备-CSDN博客

一、词汇表大小vocab_size

        vocab_size指的是词汇表的大小,也就是原始文本数据集中所有唯一字符的数量。如果是字符级别的模型,所以词汇表里的每个元素都是一个字符,比如字母、标点符号、空格等等。如下图1所示。

图1 字符映射表的示意图

        为什么一个参数要单独拿出来讲,应该它关系重大。以下是详细理由:

        (1vocab_size决定了嵌入层的输入维度,也就是有多少个不同的字符需要被映射。例如,如果vocab_size是50,这表示数据集中共有50种不同的字符,这可能包括26个英文字母(大小写)、标点符号、空格、换行符等。嵌入层就需要处理50个不同的字符,每个字符对应一个向量。

        (2vocab_size决定了模型输出层神经元数量,模型的最后一层通常是一个线性层,将隐藏层的输出映射到词汇表的大小,以便生成每个字符的概率分布。因此,vocab_size也决定了输出层的神经元数量,确保每个字符都有一个对应的概率值。

http://www.lryc.cn/news/539560.html

相关文章:

  • Jenkins插件管理切换国内源地址
  • Q - learning 算法是什么
  • nasm - console 32bits
  • 11.编写前端内容|vscode链接Linux|html|css|js(C++)
  • 【deepseek-r1模型】linux部署deepseek
  • 【Github每日推荐】-- 2024 年项目汇总
  • C++中的.*运算符
  • 深度学习笔记——LSTM
  • spring boot知识点2
  • 【机器学习】CNN与Transformer的表面区别与本质区别
  • 框架篇 - Hearth ArcGIS 框架扩展(DryIoC、Options、Nlog...)
  • JUC并发—7.AQS源码分析三
  • windows系统本地部署DeepSeek-R1全流程指南:Ollama+Docker+OpenWebUI
  • 当C#邂逅Deepseek, 或.net界面集成deepseek
  • Cursor实战:Web版背单词应用开发演示
  • Kotlin Lambda
  • V4L2驱动之UVC
  • numpy(01 入门)
  • Chatgpt论文润色指令整理
  • vscode复制到下一行
  • Python天梯赛刷题-五分题(上)
  • 【优先级队列】任务分配
  • 设计模式之适配模式是什么?以及在Spring AOP中的拦截器链的使用源码解析。
  • Python 库自制 Cross-correlation 算法
  • C++(23):为类成员函数增加this参数
  • javaSE学习笔记23-线程(thread)-总结
  • 【DeepSeek服务器部署全攻略】Linux服务器部署DeepSeek R1模型、实现API调用、搭建Web页面以及专属知识库
  • 【JAVA工程师从0开始学AI】,第四步:闭包与高阶函数——用Python的“魔法函数“重构Java思维
  • 算法日记20:SC72最小生成树(prim朴素算法)
  • 玩转SpringCloud Stream