大模型训练触达「瓶颈」,基座模型厂商还有必要坚持预训练吗?
进入2024年来,中国大模型行业从狂奔进入到了“长跑阶段”。无论是在技术侧,还是在产业侧,行业内都产生了更多新的思考。
从技术发展上看,在算力受限的情况下,中国基座模型的研发能力在全球范围内处在什么身位、如何追赶国外顶尖大模型等问题引发外界关注,甚至一度传出“中国大模型公司可以不用再做模型预训练”的说法。
OpenAI o1 模型的发布更是进一步加剧了这一讨论。外界可以看到的是,通过强化学习磨练思维链, o1 显著提高了逻辑推理能力,特别是在复杂数学和编程任务上都有着十分惊艳的成果。
虽然 o1 在技术报告里隐去了原理和实现路径,但是当这些优秀人才开始聚焦于 o1 并深入研究,我相信很快会有类似 o1 模型的能力出现在各家头部大模型公司,包括零一万物。
目前来看,o1 的思考模式是把预训练中要做的部分工作分到了推理环节,这件事情对行业来说是很大的认知改变。过去大家认为预训练做好就足够,但是后来事实证明 Post-train 也很重要。所以零一万物的模型团队也从刚开始的专注于预训练,到现在形成了多元化的团队构成,过程中不断有新的世界级人才加入。
OpenAI 是很值得尊敬的公司,o1 模型也是很出色的模型。但我想说的是,中国大模型公司绝对有能力做好预训练,零一万物的预训练就做得又快又好。
我们最新发布的预训练模型 Yi-Lightning 在国际权威大模型竞技场 LMSys Chatbot Arena ,最新排名中,超越了 OpenAI、Anthropic 所发布的 GPT-4o-2024-05-13、 Claude 3.5 Sonnet,排名世界第六,中国第一。
在全球最具公信力的榜单 LMSys Chatbot Arena 上, Yi-Lightning 也是首度实现“超越 OpenAI GPT-4o(5月发布) ”的中国模型。零一万物也由此晋升为全球大模型第三名的公司,仅次于 OpenAI 和 Google,与 xAI 齐平。
要做好模型预训练确实是个技术活,需要有懂芯片的人、懂推理的人、懂算法的人等等,要有非常多有才华的人一起工作,慢工出细活。“中国大模型公司做不好预训练”,这个理解是完全错误的。如果一个公司能够招揽这些优秀的人才,并且能够丝滑地进行跨领域的合作,那么我相信,中国公司绝对可以做出世界排名前十的预训练通用大模型。
从产业落地的角度来看,如何让大模型技术走出实验室赋能千行百业,成为驱动实体经济增长的新质生产力,加速 AI 落地走入实业助力新一波经济增长,也成为各方关注点。
零一万物此次推出的 Yi-Lightning 模型一亮相,就在 LMSys Chatbot Arena 中击败了 GPT-4o-2024-05-13。中国大模型首度超越性能极佳的 GPT-4o-2024-05-13 对于中国人工智能发展来说是个里程碑事件,这意味着中国大模型再次迎头赶上,模型性能跃居世界第一梯队。
除此之外,还有一个不容忽视的一点是,Yi-Lightning 不仅在模型性能上全球领先,在推理速度和推理成本方面我们同样做到了全球领先。以世界一流的 AI Infra 能力为基础,我们在模型架构和预训练方面都做出了新尝试,使得 Yi-Lightning 的训推成本大幅下降。
聚焦于我们自身,Yi-Lightning 模型的优异性能与极致性价比是零一万物“模基共建”战略正确性的有力例证,它也将成为零一万物探索“模应一体”的重要基石——目前,Yi-Lightning 模型已经接入零一万物的 AI 2.0 数字人解决方案,接入 Yi-Lightning 后,数字人的实时互动效果更好,话术更丝滑,回复也更准确,成本也进一步降低。
而要推动大模型走出实验室,走出大模型企业,走向更广阔的应用场景,将大模型真正转化为打造新质生产力的工具,仅仅是模型性能足够优质远远不够。对于任何一家想要接入大模型的企业来说,推理成本都是无法回避的一点。Yi-Lightning 目前已登陆 Yi 大模型开放平台,模型定价是 0.99 元/百万 token,真正把世界顶尖模型的价格降到了极低,让千行百业真正用得起、用得上大模型。
这些都彰显了中国大模型公司“模型+AI Infra+应用”三位一体的必要性和重要性。它不仅利于构筑大模型企业自身的技术护城河,确保自身模型核心技术的安全性,也能够更有力地支撑技术产业化、赋能实体经济的有益的探索。
AGI 仍在远方,现阶段更需要让大模型能力落地应用层, 推动整个大模型行业形成健康的生态。在这一阶段,零一万物会坚持“模型+AI Infra+应用”三位一体的全栈式布局,以国际 SOTA 的基座模型为基础,积极在 ToB 企业级解决方案上探索 TC-PMF,以更从容的姿态迎接即将到来的 AI 普惠时代。
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓