【深度学习新浪潮】什么是上下文长度?
大型语言模型(LLM)的上下文长度是指模型在处理当前输入时能够有效利用的历史文本长度,通常以token(如单词、子词或标点)为单位衡量。例如,GPT-4支持128K token的上下文,而Llama 4 Scout甚至达到了10M token的惊人规模。这一指标直接影响模型在长文档理解、多轮对话等复杂任务中的表现。
一、上下文长度的合理范围
上下文长度的选择需结合具体应用场景:
- 日常对话:通常需要8K–32K token,例如ChatGPT的默认设置,既能维持对话连贯性,又避免冗余信息干扰。
- 专业领域:法律合同审查(如Claude 3支持10万token)、科研论文分析(如GLM-4支持百万级token)等场景需要更大的上下文窗口。
- 多模态任务:处理视频脚本、图文混合内容时,需平衡文本与视觉信息的关联,例如Gemini Ultra通过动态NTK技术实现多模态隐式对齐,支持1M token的跨模态输入。
当前