大语言模型涉及的一些概念(持续更新)
1、entropy
在自然语言处理(NLP)和机器学习中,entropy(熵)是一个非常重要的概念,来自信息论(Information Theory),本质上是用来衡量“不确定性”或“信息量”的。
通俗理解 Entropy(熵)
熵 = 不确定性 = 随机程度
举例:
如果一个模型输出的概率分布是:
{"猫": 0.33, "狗": 0.33, "鸟": 0.34}
→ 表示模型非常不确定 → 熵高如果输出是:
{"猫": 0.98, "狗": 0.01, "鸟": 0.01}
→ 模型很有把握 → 熵低
2、token
什么是 Token?
Token(标记) 是把文本分割成模型可理解的“最小单位”,可以是:
类型 | 示例 | 描述 |
---|---|---|
单词级 token | ["I", "am", "happy"] | 一个词就是一个 token(粗粒度) |
子词级 token | ["un", "happi", "ness"] | 把词拆成词根+后缀(BPE等方法) |
字符级 token | ["h", "e", "l", "l", "o"] | 每个字符一个 token(细粒度) |
不同模型和 tokenizer 使用不同的分词策略。