当前位置：首页 > news >正文

大语言模型的过去与未来——GPT-5发布小谈

news 2025/8/9 12:31:05

序

可靠消息表明 GPT-5 将于 2025 年 8 月 8 日 1:00AM (UTC+8 i.e. 中国时间) 发布。

距离 ChatGPT 发布已经多长时间了呢？我并不时常问自己这个问题。偶尔想起来，只记得是某年末，至于是 2021 年还是 2022 年，又或是 2023 年，有几次都是查后才想起来，反复几次后，才比较清晰地记下了——2022年末，OpenAI 发布了 ChatGPT，这一切的起点。

无论是感觉上，还是客观来说，我想大多数人都不会否认——2022 年末到 2025 年下旬并不是一段很长的时间间隔。仔细一算，竟只有三年不到，只够一个大学生完成一半出头的本科生活，一个中学生甚至读不完一段完整的初中或是高中。

对于时常关注人工智能、LLM 领域的人来说，这可能更是一种奇妙的体验。人工智能在如此短暂的时间内取得了非常大的进展，可以开始部分地参与实际的生产、开发工作。大多数 AI 爱好者都认识到，人工智能正在重塑我们的生活。

巨大的进展激起了前所未有的浪花——人们开始讨论关于 AI 的一切；支持者、否定者，乐观者，悲观者纷纷加入一场永无休止（又或是并非如此？）的讨论当中。观点不绝于耳——「AI 替代人类」、「AI 不能替代所有工作」、「得算力者得天下」、「AI 只是概率机器，只会鹦鹉学舌」、「AI 永远无法创造」…

本文将就 LLM 的发展历程为关注点，做一些重点内容的讨论，主要聚焦于应用和社区观察，而不是技术性质的报告。本文的组织将较为松散——笔者想到什么就写点什么，没有严格的组织。

角逐与纷争——最好的模型 / 应用

LLM 社区最热衷于讨论的一个议题是——世界上最好的模型是什么。考虑到开源模型一直以来没有真正的 SOTA 能各方面超越闭源模型，本节暂且专注于讨论商业闭源模型。

从这短暂的 LLM 历史来看，我想下面是一个大多数人都会同意的概述：

早期：OpenAI 遥遥领先，其他模型看不见车尾灯。
中期：OpenAI 仍依靠 GPT-4 及其变体保持领先，但 Claude 和 Gemini 开始从 Claude 3 和 Gemini 2.0 依靠各自的特色展露头角。
偏后期：OpenAI 率先推出第一组具有思维链的模型 o1-preview / o1-mini，短暂地拉开了差距，但很快被 Claude 和 Gemini 效仿、追平甚至在某些方面超越——典型的例子是 Claude 在编码方面的特化。
现在——若是只论模型能力，OpenAI 已经不具有显著的领先地位。OpenAI, Anthropic, Google 三足鼎立，各家的模型有各自的特色和长处以及短处。

脱离应用谈模型能力是不太合理的，因此关注模型能力时也需要注重其应用，或者，更激进一点，我们不妨直接从公司入手进行讨论。具体来说：

OpenAI：C 端仍然具有极其强大的竞争力和巨大的市场份额，一方面是由于 OpenAI 确实很重视 C 端——例如，早期为 ChatGPT 微调专门的更适合交谈对话的模型 chatgpt-4o-latest 而不是直接用 API 上适合生产和开发者用途的 gpt-4o，后续的 4o 生图更新，原生语音对话，记忆模块，Deep Research，Agent Mode 等等，无论其最终效果的好坏，都明确地体现出 OpenAI 乐于探索 AI 如何为不懂技术的普通人赋能的大方向；

另一方面，也怪友商不给力——Gemini 的模型不错，但是 C 端就是做不好；Claude 模型已经成了编码特化的典型，后训练人类偏好不佳——从模型方面就已经与大部分的 C 端普通用户产生了隔阂；据称，OpenAI 在商业用途上份额也显著领先，不过笔者并不熟悉这一点，就不多谈。

然而，OpenAI 在 API 方面确实存在并不轻微的竞争力下降的问题，一方面是由于其定价太过自信，另一方面则是其旗舰模型确实不怎么具有领先优势了——o3 和 Gemini 2.5 Pro 最多也只能说互有胜负，甚至不少方面 Gemini 2.5 Pro 明显领先：o3 在世界知识、幻觉率、长上下文、多模态方面均相比 Gemini 2.5 Pro 有显著差距。

总体来说，在目前这个时间点，OpenAI 处于一种喜忧参半的状态——一方面，它们在 C 端的探索和积累确实能维持很长一段时间内可观的利润（考虑到 C 端用户粘性更大），另一方面，作为 AI 基础设施的提供商，模型能力仍然是不可忽视，重中之重的要素，而这方面，留给 OpenAI 的乐观因素并没有那么多了，观察 OpenAI 如何应对这一问题，也成为 GPT-5 发布会，以及后续观察的一大要点。

Google：Google 家大业大，自有硬件，加上长期培养的 DeepMind 团队也不是吃干饭的，能达到现在的水平可以说完全是预料之内的。然而 Google 目前似乎并不认真地对待 C 端——又或是确实做不到？一个典型的例子是——Deep Research 的结果，竟然完全无法复制原始的 Markdown 结果，无论如何导出，都会将公式转换为 Unicode 字符（至少前段时间是这样的，后来我有反馈，不知是否有改进），这明显是一个态度问题——不关心用户，或者说没有经过广泛测试就上线功能。

话又说回来，模型方面，Gemini 2.5 Pro / Flash 系列确实是非常优秀的——推理能力强，知识面十分广泛，加上 1M 上下文窗口和相对较低的上下文衰减，以及完全领先的多模态，合适的价格，成为综合能力最强的基底模型。

整体来说，笔者是很看好 Google 后续的进展的，主要原因是它们没有什么很明显的短板：硬件自有、团队扎实、有广泛的用户基础可以开发各式各样的应用，等等… Google 也在除了 LLM 的领域广泛地探索，例如最近发布的 Genie 3，包括视频生成、图片生成模型都很有。

Anthropic：Claude Code 可以说是近来讨论度非常高的一个工具。Anthropic 提前窥见 Agent 编码的热潮，在模型能力上对这一方面做强化，成就了现在开发者大量采用的编程模型之一。然而，对 Anthropic 的后续发展担忧更为明显——C 端方面，由于其模型后训练特别偏向编码和工具使用，并不适合普通人聊天，加上本身就没有什么 C 端用户积累，并且通用智能（例如数学、物理解题能力）也一般，Anthropic 在这方面的增长可以预见的乏力。

开发者、编码用户的粘性实际上很低，后续一旦像 Google 这样的巨鲸发力，不说超越，至少抹平差距是很容易预见的，再加上 Anthropic 其他方面的研究积累远不如其余两家，实际上可以说是危险的。Anthropic 也不怎么推动模型多模态能力的改进，也未见生图模型、视频生成模型等其余 AGI 相关领域的研究，总体模式较为贫瘠单一。后续的主要关注点是 Anthropic 能否转向更通用智能的研究，又或是继续在编码特化的道路上一路狂奔。

开源模型与社区

开源模型与社区是 LLM 世界不可忽视的一部分，特别是中国公司在其中的贡献成为了一个焦点。

首先笔者想关于「开源」、「本地运行」的基本概念和性质做一些讨论，然后再来详细说一说开源模型的进展。

很多人把「开源」和「本地运行」划等号，其实这里面有着不少可以说道的地方。

「开源」这一概念最初诞生于软件领域，而 LLM 显然不是传统意义的软件，因此，在 LLM 的语境下，「开源」实际上指的是「开放模型权重」。绝大多数「开源」LLM 并不公开自己的训练数据、训练代码，如果把训练类比为「编译/构建 (build)」，就更体现了 LLM 语境下「开源」概念的不同——用户事实上无法从头构建一个可以运行的 LLM，它们只是能够自己运行这些模型，如果它们有对应的硬件——类比到软件领域，相当于只是分发软件的二进制而非源码。

有很多人要问了——你看这个 DeepSeek R1, Kimi K2，那么大的模型，开源了大部分人本地也跑不动，那不是和不开源一样吗？为了解决这一问题，我们就需要从整个生态的角度看待问题：

模型开源（结合一定程度的技术披露）能减小行业与学术人员的信息差。例如 DeepSeek-R1 发布告诉了大家要训练思考模型，RL 是正道。很多学术实验室未必有这么多的资源去把实验 scale 到这个级别验证一些东西，但通过开源结合技术披露的方式能够一定程度上缓解这个问题，加强生态内对发展方向的总体认知。
模型开源能倒逼厂商提升其能力。这其实是 Kimi K2 的开发者之一的观点，很有道理——，对此的解释，推荐阅读原文：写在 Kimi K2 发布之后：再也不仅仅是 ChatBot | K.I.S.S
模型开源并由多个提供商托管有助于避免对「降智」的担忧，即使用户从不在自己的机器上运行模型。「降智」是一个老生常谈的话题，可以确认的包括 ChatGPT 故意降智，Gemini 的 API 智商也不稳定等。模型开源，结合提供商托管的模式有助于用户交叉验证模型的可靠性。极端情况下。用户真正在自己本地部署模型可以彻底摆脱对降智的担忧。
模型开源有助于合成数据和社区微调。只通过 API 提供的模型通常禁止大规模的蒸馏行为，并且价格通常远高于成本。开源模型可以通过租用 GPU 等方式部署，结合大 batch 批量生成低成本、快速、合规地合成数据或进行蒸馏。

至于普通用户在本地运行模型是否有必要，笔者也反复思索、改变过观点，现在大体的看法如下：能力方面，在 API 上运行的 SOTA 模型一定比本地模型更强，这是毋庸置疑的事实；成本方面，LLM 的架构天然决定了批量推理的成本会更低。综合这两方面，对于需要最高智力的需求，在线 LLM 仍然是可预见未来的合理选项。然而，这不是说端侧 LLM 就没有发展空间了——对于低延迟、智力要求不高的任务，或是强隐私的任务，本地 LLM 仍然大有可为。从大局来看，云端的 LLM 仍将是大多数用户后期的主要选择。

最后谈谈令人印象深刻的开源大模型们，主要讲讲近期的：

DeepSeek R1，笔者一直认为他是开源模型的一个象征和里程碑，也是开源模型最接近闭源 SOTA（当时的 o1）的时刻。更重要的是：DeepSeek R1 证明了好模型+开源=免费的流量增益，因为 R1 是第一个走通这条路的。这一证明也间接的影响了后续包括 Kimi K2 在内的模型开源决策。
Qwen3 2507 系列：与以往不同，这次 Qwen 很好的强化了非数理和代码的领域，世界知识和其他任务上的表现，包括人类偏好有很大提升，这是一个正确的决定；代码和数理方面也有很大提升，特别是能在 200B+ 的 MoE 做到这个水平，确实令人印象深刻。Qwen 团队是一直坚持做开源 LLM，虽然有好的有坏的，也有过不小争议，但总体坚持做开源的态度还是非常值得称赞的。
Kimi K2 / GLM4.5：这两个都是面向 Agent 强化的模型，也确实达到了目的。在我自己的测试下，GLM4.5 在通用 Agent 的表现上更胜一筹，而且 K2 这个大小确实有些尴尬。虽说如此，K2 确实用非思考模型做到了相当高的性能，很了不起。

最后我还想谈一谈字节跳动的豆包模型，尽管它不是开源的。豆包 Seed 1.6 也是一个 200B+ 的模型，性能同样非常优秀，总体给人非常扎实的感觉，加上超低成本和很强的多模态，是笔者一直赞赏有加的模型。字节跳动作为大公司，在国内的处境是有些类似的 Google 的，具有充足的硬件和人员储备，未来的发展不容小觑。根据官方数据，字节豆包系列的月调用量也有接近 500T tokens，这几乎是 Gemini (约 900T - 1000T) 的一半了，是国内调用量最大的大模型。

Agent 与自动化

Claude Code 及其他编码 Agent 证明了——能够以既定目标运行长期任务的 agent 模型潜力和需求非常大。据称本次 GPT-5 也重点提升这一方面。

Agentic 的 AI 可能不是人工智能的未来，但很可能是 LLM 的未来。众所周知的是，LLM 本质的缺陷包括——无法持续学习、长序列模型性能衰减严重。这导出了两个路径：其一是频繁更新基座模型，加大预训练规模，强化、同步世界知识；其二是强化 Agent 能力，让模型能够在推理(inference)时利用新知识。目前看来，前者并不是较优的解——它的成本劣势太大，并且在实际效果上也未必能超越后者。后者目前看来仍有许多问题，但似乎是正确的发展方向。也许我们不再需要一个超级大的模型，而只是训练一个精通工具调用的强 Agent 模型，然后在测试时给予其各种知识。这种方案在许多任务中都没有本质缺陷，尽管少量领域的用户（例如角色扮演）仍会怀念巨大模型内丰富而深刻的世界知识。

关于这一点的共识仍不明朗，继续观察和实验吧。

LLM 还能走多远——AI 的未来

「LLM 是不是到头了，还能走多远」这恐怕是 LLM 爱好者经常思考和困惑的问题。笔者的观点一如既往——LLM 很可能无法达到真正的 AGI，但它还能在现在的道路上走很远。还有许多未被探索的领域，例如前面提到的 agentic 强化的模型就处于刚刚起步的阶段。在 o1-preview 之前也有许多 LLM 撞墙的观点，现在看来也是十分局限的。

真正的 AGI 可能还需要数个甚至数十个 Transformer 级别的技术突破，但对于普通人来说——在 LLM 上的改进足以满足他们的许多需求，深刻地改变人们的生活。很多情况下，这足够了，不是吗？

尽管如此，我们仍然期望着真正的 AGI 到来的那一天，以及畅想着那之后的日子，这是属于人类的特权——想象力和憧憬，也是技术进步的源泉之一。

结束语——被塑造着的期望与愿景

一路上，我遇见了许多对 AI 和 LLM 同样感兴趣的个人和社区，就如 Stable Diffusion 刚刚发布的那些日子一样，这些人们和社区强大的生命力和勃勃生机令人着迷。可以共同讨论感兴趣的技术，分享自己的测试和实际用例，一起吐槽没练好的模型，并共同憧憬更好的模型，对新的模型发布感到激动…这是难忘的一段日子——但愿这种时光还能持续很久。

人工智能，语言模型不仅正在改变我们的生活，更值得注意的是，它们还在重塑人们的期望和愿景。有人看好它们，有人则觉得它们有着本质上的缺陷，以至于会在未来的某处卡死——在笔者看来，这些都是好事。人们需要改变，需要新东西为我们的思想和工作与生活提供能量和原动力——AI 就是这样一种动力，AI 在人们的心中，一部分是其本来的样貌，另一部分则附着着对未来的愿景和希望。

我们暂且不知道 GPT-5 能带来多大的改进——或许很令人震撼，但更大的可能是，它并不能符合大多数人愈发膨胀的期望。但人们还是会期待着——「改变」与「更新」就是这样一种人们求之不得的，珍贵的希望。

查看全文

http://www.lryc.cn/news/614524.html