提示工程:突破Transformer极限的计算科学
Why Prompt Design Matters and Works: A Complexity Analysis of Prompt Search Space in LLMs
提示工程如何从经验技巧升级为系统科学
一、Transformer的先天缺陷:计算深度固化与信息丢失
原理
Transformer架构的计算能力存在固有局限:
- 计算深度固化:其隐状态仅在层间传递(垂直方向),最大序列计算步数等于模型层数(固定值),无法随输入长度或任务复杂度动态增加(如棋局推理需要随步数迭代更新状态,而Transformer层数固定,无法模拟这种动态过程)。
- 信息压缩丢失:若仅要求输出最终答案(如“Q:1+2+3+4=?A:10”),模型需将多步计算压缩到固定深度,导致中间状态信息(如每步累加结果)丢失,难以处理复杂推理。