大模型系列——从训练到推理:网页数据在大语言模型中的新角色
从训练到推理:网页数据在大语言模型中的新角色
大语言模型(LLM)已经吞噬了互联网的大部分内容——顶尖模型在训练阶段使用了数以万亿计的 token。与此同时,AI 初创公司通过聚焦更小、更专精的模型,并挖掘更具针对性的网络数据,在垂直领域站稳脚跟。为了在这场“最全面、最准确”的 AI 竞赛中保持领先,行业巨头正把资源砸进三大核心战场:
- 算力(Compute)
- 人才(Talent)
- Token(数据)
在这三者之中,Token——既包括训练时的语料,也包括推理时实时获取的数据——往往直接决定模型的成败。网页数据依然是这场演进的中心:它提供了前所未有的规模,也能够通过精准、实时的输入,显著提升模型的准确性与相关性。针对性地使用网页数据,使 LLM 在利基场景下依然能够给出领域级的准确度,这是仅靠通用训练无法企及的。
然而,网页数据的作用早已不限于训练与微调阶段的静态数据集。当人们对 LLM 提出更加动态的需求时,网页数据的使用方式也随之升级:从塑造模型的“原材料”,演变为推理时的“实时燃料