LLM 在预测下一个词的时候是怎么计算向量的,说明详细过程
LLM 在预测下一个词的时候是怎么计算向量的,说明详细过程
实质是通过原来的自然语言向量矩阵计算最后一向量,原来的编码向量保持不变
在大语言模型(LLM)中,预测下一个词的过程涉及复杂的矩阵运算和向量变换。下面以GPT系列模型为例,从自然语言输入开始,逐步细化到矩阵运算说明这一过程。
在大语言模型(LLM)中,给定输入维度 embed_dim=768
和 seq_len=8
,输出会根据不同阶段和组件而变化。以下是完整的流程和输出维度说明:
1. 输入嵌入(Input Embedding)
- 输入:Token ID序列,形状为
[seq_len]
(示例中为8) - 输出:嵌入矩阵,形状为
[seq_len, embed_dim]
=[8, 768]