当前位置：首页 > news >正文

大模型系列——从训练到推理：网页数据在大语言模型中的新角色

news 2025/8/16 9:22:04

从训练到推理：网页数据在大语言模型中的新角色

Article hero image

大语言模型（LLM）已经吞噬了互联网的大部分内容——顶尖模型在训练阶段使用了数以万亿计的 token。与此同时，AI 初创公司通过聚焦更小、更专精的模型，并挖掘更具针对性的网络数据，在垂直领域站稳脚跟。为了在这场“最全面、最准确”的 AI 竞赛中保持领先，行业巨头正把资源砸进三大核心战场：

算力（Compute）
人才（Talent）
Token（数据）

在这三者之中，Token——既包括训练时的语料，也包括推理时实时获取的数据——往往直接决定模型的成败。网页数据依然是这场演进的中心：它提供了前所未有的规模，也能够通过精准、实时的输入，显著提升模型的准确性与相关性。针对性地使用网页数据，使 LLM 在利基场景下依然能够给出领域级的准确度，这是仅靠通用训练无法企及的。

然而，网页数据的作用早已不限于训练与微调阶段的静态数据集。当人们对 LLM 提出更加动态的需求时，网页数据的使用方式也随之升级：从塑造模型的“原材料”，演变为推理时的“实时燃料

查看全文

http://www.lryc.cn/news/621981.html