大语言模型的过去与未来——GPT-5发布小谈
序
可靠消息表明 GPT-5 将于 2025 年 8 月 8 日 1:00AM (UTC+8 i.e. 中国时间) 发布。
距离 ChatGPT 发布已经多长时间了呢?我并不时常问自己这个问题。偶尔想起来,只记得是某年末,至于是 2021 年还是 2022 年,又或是 2023 年,有几次都是查后才想起来,反复几次后,才比较清晰地记下了——2022年末,OpenAI 发布了 ChatGPT,这一切的起点。
无论是感觉上,还是客观来说,我想大多数人都不会否认——2022 年末到 2025 年下旬并不是一段很长的时间间隔。仔细一算,竟只有三年不到,只够一个大学生完成一半出头的本科生活,一个中学生甚至读不完一段完整的初中或是高中。
对于时常关注人工智能、LLM 领域的人来说,这可能更是一种奇妙的体验。人工智能在如此短暂的时间内取得了非常大的进展,可以开始部分地参与实际的生产、开发工作。大多数 AI 爱好者都认识到,人工智能正在重塑我们的生活。
巨大的进展激起了前所未有的浪花——人们开始讨论关于 AI 的一切;支持者、否定者,乐观者,悲观者纷纷加入一场永无休止(又或是并非如此?)的讨论当中。观点不绝于耳——「AI 替代人类」、「AI 不能替代所有工作」、「得算力者得天下」、「AI 只是概率机器,只会鹦鹉学舌」、「AI 永远无法创造」…
本文将就 LLM 的发展历程为关注点,做一些重点内容的讨论,主要聚焦于应用和社区观察,而不是技术性质的报告。本文的组织将较为松散——笔者想到什么就写点什么,没有严格的组织。
角逐与纷争——最好的模型 / 应用
LLM 社区最热衷于讨论的一个议题是——世界上最好的模型是什么。考虑到开源模型一直以来没有真正的 SOTA 能各方面超越闭源模型,本节暂且专注于讨论商业闭源模型。
从这短暂的 LLM 历史来看,我想下面是一个大多数人都会同意的概述:
- 早期:OpenAI 遥遥领先,其他模型看不见车尾灯。
- 中期:OpenAI 仍依靠 GPT-4 及其变体保持领先,但 Claude 和 Gemini 开始从 Claude 3 和 Gemini 2.0 依靠各自的特色展露头角。
- 偏后期:OpenAI 率先推出第一组具有思维链的模型 o1-preview / o1-mini,短暂地拉开了差距,但很快被 Claude 和 Gemini 效仿、追平甚至在某些方面超越——典型的例子是 Claude 在编码方面的特化。
- 现在——若是只论模型能力,OpenAI 已经不具有显著的领先地位。OpenAI, Anthropic, Google 三足鼎立,各家的模型有各自的特色和长处以及短处。
脱离应用谈模型能力是不太合理的,因此关注模型能力时也需要注重其应用,或者,更激进一点,我们不妨直接从公司入手进行讨论。具体来说:
OpenAI:C 端仍然具有极其强大的竞争力和巨大的市场份额,一方面是由于 OpenAI 确实很重视 C 端——例如,早期为 ChatGPT 微调专门的更适合交谈对话的模型 chatgpt-4o-latest
而不是直接用 API 上适合生产和开发者用途的 gpt-4o
,后续的 4o 生图更新,原生语音对话,记忆模块,Deep Research,Agent Mode 等等,无论其最终效果的好坏,都明确地体现出 OpenAI 乐于探索 AI 如何为不懂技术的普通人赋能的大方向;
另一方面,也怪友商不给力——Gemini 的模型不错,但是 C 端就是做不好;Claude 模型已经成了编码特化的典型,后训练人类偏好不佳——从模型方面就已经与大部分的 C 端普通用户产生了隔阂;据称,OpenAI 在商业用途上份额也显著领先,不过笔者并不熟悉这一点,就不多谈。
然而,OpenAI 在 API 方面确实存在并不轻微的竞争力下降的问题,一方面是由于其定价太过自信,另一方面则是其旗舰模型确实不怎么具有领先优势了——o3 和 Gemini 2.5 Pro 最多也只能说互有胜负,甚至不少方面 Gemini 2.5 Pro 明显领先:o3 在世界知识、幻觉率、长上下文、多模态方面均相比 Gemini 2.5 Pro 有显著差距。
总体来说,在目前这个时间点,OpenAI 处于一种喜忧参半的状态——一方面,它们在 C 端的探索和积累确实能维持很长一段时间内可观的利润(考虑到 C 端用户粘性更大),另一方面,作为 AI 基础设施的提供商,模型能力仍然是不可忽视,重中之重的要素,而这方面,留给 OpenAI 的乐观因素并没有那么多了,观察 OpenAI 如何应对这一问题,也成为 GPT-5 发布会,以及后续观察的一大要点。
Google:Google 家大业大,自有硬件,加上长期培养的 DeepMind 团队也不是吃干饭的,能达到现在的水平可以说完全是预料之内的。然而 Google 目前似乎并不认真地对待 C 端——又或是确实做不到?一个典型的例子是——Deep Research 的结果,竟然完全无法复制原始的 Markdown 结果,无论如何导出,都会将公式转换为 Unicode 字符(至少前段时间是这样的,后来我有反馈,不知是否有改进),这明显是一个态度问题——不关心用户,或者说没有经过广泛测试就上线功能。
话又说回来,模型方面,Gemini 2.5 Pro / Flash 系列确实是非常优秀的——推理能力强,知识面十分广泛,加上 1M 上下文窗口和相对较低的上下文衰减,以及完全领先的多模态,合适的价格,成为综合能力最强的基底模型。
整体来说,笔者是很看好 Google 后续的进展的,主要原因是它们没有什么很明显的短板:硬件自有、团队扎实、有广泛的用户基础可以开发各式各样的应用,等等… Google 也在除了 LLM 的领域广泛地探索,例如最近发布的 Genie 3,包括视频生成、图片生成模型都很有。
Anthropic:Claude Code 可以说是近来讨论度非常高的一个工具。Anthropic 提前窥见 Agent 编码的热潮,在模型能力上对这一方面做强化,成就了现在开发者大量采用的编程模型之一。然而,对 Anthropic 的后续发展担忧更为明显——C 端方面,由于其模型后训练特别偏向编码和工具使用,并不适合普通人聊天,加上本身就没有什么 C 端用户积累,并且通用智能(例如数学、物理解题能力)也一般,Anthropic 在这方面的增长可以预见的乏力。
开发者、编码用户的粘性实际上很低,后续一旦像 Google 这样的巨鲸发力,不说超越,至少抹平差距是很容易预见的,再加上 Anthropic 其他方面的研究积累远不如其余两家,实际上可以说是危险的。Anthropic 也不怎么推动模型多模态能力的改进,也未见生图模型、视频生成模型等其余 AGI 相关领域的研究,总体模式较为贫瘠单一。后续的主要关注点是 Anthropic 能否转向更通用智能的研究,又或是继续在编码特化的道路上一路狂奔。
开源模型与社区
开源模型与社区是 LLM 世界不可忽视的一部分,特别是中国公司在其中的贡献成为了一个焦点。
首先笔者想关于「开源」、「本地运行」的基本概念和性质做一些讨论,然后再来详细说一说开源模型的进展。
很多人把「开源」和「本地运行」划等号,其实这里面有着不少可以说道的地方。
「开源」这一概念最初诞生于软件领域,而 LLM 显然不是传统意义的软件,因此,在 LLM 的语境下,「开源」实际上指的是「开放模型权重」。绝大多数「开源」LLM 并不公开自己的训练数据、训练代码,如果把训练类比为「编译/构建 (build)」,就更体现了 LLM 语境下「开源」概念的不同——用户事实上无法从头构建一个可以运行的 LLM,它们只是能够自己运行这些模型,如果它们有对应的硬件——类比到软件领域,相当于只是分发软件的二进制而非源码。
有很多人要问了——你看这个 DeepSeek R1, Kimi K2,那么大的模型,开源了大部分人本地也跑不动,那不是和不开源一样吗?为了解决这一问题,我们就需要从整个生态的角度看待问题:
- 模型开源(结合一定程度的技术披露)能减小行业与学术人员的信息差。例如 DeepSeek-R1 发布告诉了大家要训练思考模型,RL 是正道。很多学术实验室未必有这么多的资源去把实验 scale 到这个级别验证一些东西,但通过开源结合技术披露的方式能够一定程度上缓解这个问题,加强生态内对发展方向的总体认知。
- 模型开源能倒逼厂商提升其能力。这其实是 Kimi K2 的开发者之一的观点,很有道理——,对此的解释,推荐阅读原文: 写在 Kimi K2 发布之后:再也不仅仅是 ChatBot | K.I.S.S
- 模型开源并由多个提供商托管有助于避免对「降智」的担忧,即使用户从不在自己的机器上运行模型。「降智」是一个老生常谈的话题,可以确认的包括 ChatGPT 故意降智,Gemini 的 API 智商也不稳定等。模型开源,结合提供商托管的模式有助于用户交叉验证模型的可靠性。极端情况下。用户真正在自己本地部署模型可以彻底摆脱对降智的担忧。
- 模型开源有助于合成数据和社区微调。只通过 API 提供的模型通常禁止大规模的蒸馏行为,并且价格通常远高于成本。开源模型可以通过租用 GPU 等方式部署,结合大 batch 批量生成低成本、快速、合规地合成数据或进行蒸馏。
至于普通用户在本地运行模型是否有必要,笔者也反复思索、改变过观点,现在大体的看法如下:能力方面,在 API 上运行的 SOTA 模型一定比本地模型更强,这是毋庸置疑的事实;成本方面,LLM 的架构天然决定了批量推理的成本会更低。综合这两方面,对于需要最高智力的需求,在线 LLM 仍然是可预见未来的合理选项。然而,这不是说端侧 LLM 就没有发展空间了——对于低延迟、智力要求不高的任务,或是强隐私的任务,本地 LLM 仍然大有可为。从大局来看,云端的 LLM 仍将是大多数用户后期的主要选择。
最后谈谈令人印象深刻的开源大模型们,主要讲讲近期的:
- DeepSeek R1,笔者一直认为他是开源模型的一个象征和里程碑,也是开源模型最接近闭源 SOTA(当时的 o1)的时刻。更重要的是:DeepSeek R1 证明了好模型+开源=免费的流量增益,因为 R1 是第一个走通这条路的。这一证明也间接的影响了后续包括 Kimi K2 在内的模型开源决策。
- Qwen3 2507 系列:与以往不同,这次 Qwen 很好的强化了非数理和代码的领域,世界知识和其他任务上的表现,包括人类偏好有很大提升,这是一个正确的决定;代码和数理方面也有很大提升,特别是能在 200B+ 的 MoE 做到这个水平,确实令人印象深刻。Qwen 团队是一直坚持做开源 LLM,虽然有好的有坏的,也有过不小争议,但总体坚持做开源的态度还是非常值得称赞的。
- Kimi K2 / GLM4.5:这两个都是面向 Agent 强化的模型,也确实达到了目的。在我自己的测试下,GLM4.5 在通用 Agent 的表现上更胜一筹,而且 K2 这个大小确实有些尴尬。虽说如此,K2 确实用非思考模型做到了相当高的性能,很了不起。
最后我还想谈一谈字节跳动的豆包模型,尽管它不是开源的。豆包 Seed 1.6 也是一个 200B+ 的模型,性能同样非常优秀,总体给人非常扎实的感觉,加上超低成本和很强的多模态,是笔者一直赞赏有加的模型。字节跳动作为大公司,在国内的处境是有些类似的 Google 的,具有充足的硬件和人员储备,未来的发展不容小觑。根据官方数据,字节豆包系列的月调用量也有接近 500T tokens,这几乎是 Gemini (约 900T - 1000T) 的一半了,是国内调用量最大的大模型。
Agent 与自动化
Claude Code 及其他编码 Agent 证明了——能够以既定目标运行长期任务的 agent 模型潜力和需求非常大。据称本次 GPT-5 也重点提升这一方面。
Agentic 的 AI 可能不是人工智能的未来,但很可能是 LLM 的未来。众所周知的是,LLM 本质的缺陷包括——无法持续学习、长序列模型性能衰减严重。这导出了两个路径:其一是频繁更新基座模型,加大预训练规模,强化、同步世界知识;其二是强化 Agent 能力,让模型能够在推理(inference)时利用新知识。目前看来,前者并不是较优的解——它的成本劣势太大,并且在实际效果上也未必能超越后者。后者目前看来仍有许多问题,但似乎是正确的发展方向。也许我们不再需要一个超级大的模型,而只是训练一个精通工具调用的强 Agent 模型,然后在测试时给予其各种知识。这种方案在许多任务中都没有本质缺陷,尽管少量领域的用户(例如角色扮演)仍会怀念巨大模型内丰富而深刻的世界知识。
关于这一点的共识仍不明朗,继续观察和实验吧。
LLM 还能走多远——AI 的未来
「LLM 是不是到头了,还能走多远」这恐怕是 LLM 爱好者经常思考和困惑的问题。笔者的观点一如既往——LLM 很可能无法达到真正的 AGI,但它还能在现在的道路上走很远。还有许多未被探索的领域,例如前面提到的 agentic 强化的模型就处于刚刚起步的阶段。在 o1-preview 之前也有许多 LLM 撞墙的观点,现在看来也是十分局限的。
真正的 AGI 可能还需要数个甚至数十个 Transformer 级别的技术突破,但对于普通人来说——在 LLM 上的改进足以满足他们的许多需求,深刻地改变人们的生活。很多情况下,这足够了,不是吗?
尽管如此,我们仍然期望着真正的 AGI 到来的那一天,以及畅想着那之后的日子,这是属于人类的特权——想象力和憧憬,也是技术进步的源泉之一。
结束语——被塑造着的期望与愿景
一路上,我遇见了许多对 AI 和 LLM 同样感兴趣的个人和社区,就如 Stable Diffusion 刚刚发布的那些日子一样,这些人们和社区强大的生命力和勃勃生机令人着迷。可以共同讨论感兴趣的技术,分享自己的测试和实际用例,一起吐槽没练好的模型,并共同憧憬更好的模型,对新的模型发布感到激动…这是难忘的一段日子——但愿这种时光还能持续很久。
人工智能,语言模型不仅正在改变我们的生活,更值得注意的是,它们还在重塑人们的期望和愿景。有人看好它们,有人则觉得它们有着本质上的缺陷,以至于会在未来的某处卡死——在笔者看来,这些都是好事。人们需要改变,需要新东西为我们的思想和工作与生活提供能量和原动力——AI 就是这样一种动力,AI 在人们的心中,一部分是其本来的样貌,另一部分则附着着对未来的愿景和希望。
我们暂且不知道 GPT-5 能带来多大的改进——或许很令人震撼,但更大的可能是,它并不能符合大多数人愈发膨胀的期望。但人们还是会期待着——「改变」与「更新」就是这样一种人们求之不得的,珍贵的希望。