找回密码
 注册

微信登录

微信扫一扫,快速登录

查看: 312|回复: 0

AI会不会思考?苹果与Anthropic的“推理之战”背后

[复制链接]
发表于 2025-6-22 15:34 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
w1.jpg
1. 当AI“不会思考”?苹果对推理模型的批判是否为时尚早?

在大模型推理能力的讨论愈发炽热之际,两篇引发争议的重要论文几乎同时登上AI研究舞台中央:一边是苹果公司题为《思考的幻觉》的严肃批判,另一边是Anthropic反击之作《“思考幻觉”的幻觉》。这两家技术巨头围绕“大型推理模型”(Large Reasoning Models,简称LRMs)是否真正具备类人推理能力展开激辩,背后则是人工智能能否在更复杂场景中胜任决策、规划与逻辑运算的核心命题。

w2.jpg

苹果的研究引起广泛关注,其主要方法是在一系列经过精密设计的逻辑谜题中测试LRMs,如汉诺塔(Tower of Hanoi)和过河难题(River Crossing)。研究团队发现:在任务复杂度逐步提升的过程中,模型的表现出现断崖式下滑,甚至在最难的谜题中,输出token数量明显减少,似乎连“尝试解决”的动力都减弱了。更令人忧虑的是,他们根据复杂度划分出了三个“能力分界”:在简单任务中,普通LLMs(语言模型)表现更佳;在中等复杂度任务中,LRMs开始展现优势;但在高复杂度阶段,所有模型集体“崩塌”。

这些现象被苹果解读为:LRMs虽然表面看起来能够处理复杂问题,但它们并不具备持续、稳定地进行算法推理的能力。论文最终指出,大模型在面对需多步骤推演、变量关联清晰但组合空间巨大的任务时,缺乏执行明确逻辑的“底层思维机制”。在苹果看来,这意味着当前的AI距离“真正思考”仍有一段难以逾越的鸿沟。
2. 推理“崩塌”还是测试“失真”?Anthropic的强势回击

但Anthropic却认为,苹果的整个研究建立在一个不够稳固的评估体系之上。他们明确指出:所谓的推理失败,并非模型真的不理解问题或缺乏能力,而是在测试方法与判分体系上出现了结构性偏差。

w3.jpg

首先,很多模型在处理苹果测试中的汉诺塔任务时,表现出明显的token截断行为,即当输出接近限制长度时,模型会主动中止回答,并以提示性语言说明“因篇幅限制无法继续”。但苹果将这种行为误认为是“思维能力不足”,而不是输出资源被耗尽后的策略选择。换句话说,模型其实意识到自身资源有限,并非“想不出答案”,而是“说不完答案”。

其次,苹果所使用的自动评分系统对答案的完整性有极高要求,却没有纳入对token限制下模型行为的理解。在这种评价框架中,模型即使做出合理判断选择中止,依然被记作“失败”,显然低估了其真实的推理能力。

更具争议的是,一些被用于评分的“过河难题”在逻辑上本身就是无法解的。例如在其中一个设定中,六个人需用一艘每次只能载三人的小船过河,并保持某些特定的角色约束——这是一个数学上无解的问题。苹果却将这些无解任务纳入评分体系,并将模型的“未解出”记录为失败,无形中扩大了模型的“推理崩塌”现象。

最具说服力的证据来自Anthropic自己进行的“改写式测试”:他们要求模型以更紧凑的形式(如代码函数)输出答案,结果即使在原本“失败率极高”的题目中,模型仍表现出接近满分的正确率。这一发现从侧面证实,问题不在模型,而在任务设计和评分方式。
3. 谁在定义“复杂”?苹果与Anthropic的根本分歧

除了对实验结果的解读差异,苹果与Anthropic在“什么是复杂推理”这个更深层的问题上也存在本质分歧。

苹果使用的“组合深度”作为复杂度指标,即任务需要的操作步骤总数。然而,Anthropic指出,组合深度往往只是表面复杂度,它无法衡量真实的认知难度。在汉诺塔问题中,虽然移动次数呈指数增长,但每一步的决策是单一且确定的,模型只需重复递归操作即可。而在过河难题中,即使移动次数很少,但由于涉及角色间的约束关系(如不能让某些人单独留下、不能让某些角色一起行动等),决策路径充满不确定性,真正需要调动逻辑推理与约束求解能力。

Anthropic认为,苹果忽略了这种“认知强度与物理步骤分离”的特性,在评价标准中将“走路远”误解为“路难走”,混淆了两种本质不同的任务复杂度。这种混淆不仅影响了评分结果,更误导了人们对AI模型智能边界的理解。

进一步的争议还在于模型的表达形式。Anthropic指出,当前评估体系过于依赖自然语言输出的完整性,而未充分探索模型是否具备“压缩表达”、“代码抽象”或“图形逻辑”的潜力。评估形式过窄,直接限制了对模型真实能力的呈现。

w4.jpg
4. AI是否“不会思考”?真正缺失的是合理的评估语言

苹果的论文试图在AI发展正盛之时“泼冷水”,但Anthropic的回应提醒我们,AI并非真的“不会思考”,而是在当前评估体系中“难以被看懂”。这两篇论文的争鸣,其实暴露出一个更深刻的问题:我们是否拥有足够科学、精准、公允的AI评估体系?

今天的大型推理模型,如Claude系列、GPT-4、Gemini等,已展现出强大的信息提取、规划、代码生成能力,甚至在多轮对话中具备抽象概括与策略思维的迹象。若仍用静态谜题、固定格式、过度依赖token输出长度来判断其智能边界,是否是在用“老工具测新大脑”?Anthropic的反驳说明,只有在符合模型行为特征、支持复杂表达形式并考虑实际计算资源约束的评估方法中,AI的能力才能被正确理解。

总而言之,苹果对LRMs的批判尚有其价值——它推动我们正视AI在高复杂度问题中的表现波动。但将这类表现归结为“模型不具推理能力”则显得仓促。Anthropic的研究为我们敲响警钟:在宣布AI“不会思考”之前,我们必须先问一句:“你有没有给TA思考的空间?”点击下方阅读原文查看详情。

w5.jpg
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-8-2 18:19 , Processed in 0.116960 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表