当前位置：首页 > news >正文

苹果AI科学家研究证明基于LLM的模型存在缺陷因为它们无法推理

news 2025/8/26 9:20:20

苹果公司人工智能科学家的一篇新论文发现，基于大型语言模型的引擎（如 Meta 和 OpenAI 的引擎）仍然缺乏基本的推理能力。该小组提出了一个新的基准–GSM-Symbolic，以帮助其他人衡量各种大型语言模型（LLM）的推理能力。他们的初步测试表明，查询措辞的细微变化会导致答案的显著不同，从而损害模型的可靠性。

在这里插入图片描述
研究小组通过在查询中添加人类可以理解的上下文信息来研究数学推理的"脆弱性"，但这些信息不应影响解决方案的基本数学。这导致了不同的答案，而这是不应该发生的。

该小组在报告中写道：“具体来说，[即使]在 GSM 符号基准中只改变问题中的数值，所有模型的性能都会下降。此外，这些模型中数学推理的脆弱性[表明]，随着问题中分句数量的增加，它们的性能也会显著下降。”

研究发现，哪怕只增加一个看似与给定数学问题相关的句子，都会使最终答案的准确率降低高达 65%。研究得出结论：“根本无法在这个基础上建立可靠的代理，在这个基础上改变一两个无关紧要的单词或添加一些无关紧要的信息就能得到不同的答案。”

一个能说明问题的特殊例子是一个需要真正理解问题的数学问题。团队开发的任务名为"GSM-NoOp"，类似于小学生可能会遇到的数学"文字题"。

查询以得出结果所需的信息开始。“奥利弗周五摘了 44 个猕猴桃。然后周六他摘了 58 个猕猴桃。周日，他摘的猕猴桃数量是周五的两倍。”

然后，查询添加了一个看似相关但实际上与最终答案无关的子句，指出在周日采摘的猕猴桃中，“有五个比平均值小一点”，而所要求的答案只是问"奥利弗有多少个猕猴桃？"

关于周日采摘的一些猕猴桃大小的说明应该与采摘的猕猴桃总数无关。然而，OpenAI 的模型以及 Meta 的 Llama3-8b 从总结果中减去了五个较小的猕猴桃。

这一错误逻辑得到了 2019 年的一项研究的支持，该研究通过询问前两届超级碗四分卫的年龄，可靠地混淆了人工智能模型。通过添加他们参加比赛的背景和相关信息，以及在另一场碗赛中担任四分卫的第三人，模型得出了错误的答案。

新研究得出结论：“我们没有发现语言模型中存在形式推理的证据。 LLMS 的行为"最好用复杂的模式匹配来解释”，研究发现这种模式匹配"事实上非常脆弱，[仅仅]改变名称就能改变结果"。

http://www.lryc.cn/news/459966.html

相关文章：

鸿蒙NEXT开发-页面路由（基于最新api12稳定版）

asp.net Core MVC 内容协商

智能EDA小白从0开始 —— DAY10 Yosys

《OpenCV计算机视觉》—— 人脸检测

【unity框架开发12】从零手搓unity存档存储数据持久化系统，实现对存档的创建，获取，保存，加载，删除，缓存，加密，支持多存档

YOLOv11进行图像与视频的目标检测

SpinalHDL之错误集（一）

【arcgis】ArcGIS中如何避免标注压盖要素

SpringBoot基础(五)：集成JUnit5

正点原子学习笔记之汇编LED驱动实验

网络学习第二篇

一些小结汇总

20240720 科大讯飞笔试

【AIGC】寻找ChatGPT最佳推理步骤：CoT思维链技术的探索与应用

一、安装VMWARE和CentOS

岩石分类检测数据集 4700张岩石检测带标注 voc yolo 9类

电脑基础知识：mfc110.dll丢失的解决方法

Lua 协同程序(coroutine)

NASA：ARCTAS 区域的二级 FIRSTLOOK 气溶胶产品子集。它包含气溶胶光学深度和粒子类型，以及相关的大气数据

go clean command

鸿蒙NEXT开发-动画（基于最新api12稳定版）

前端面试题（十五）

如何成为 Rust 核心贡献者？Rust 开发的核心是什么？Rust 重要技术专家揭秘

springboot + nacos + sofarpc 整合后报错403

小米路由器R3Gv2安装openwrt记录

记录一下，android studio 登录不上github的问题

springcloud之基于github webhook动态刷新服务配置

qt+opengl 实现纹理贴图，平移旋转，绘制三角形，方形