当AI＂动手＂思考:李飞飞团队揭示视觉语言模型的具身认知局限

多客科技 · 发表于 2025-11-30 17:47

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
人类的智能并非生来就有，而是通过与环境不断互动、感知和行动逐渐形成的。这种"具身认知"理论认为，真正的智能不仅来自被动观察，更源于身体与世界的主动交互。由"AI教母"李飞飞教授领衔，斯坦福大学、西北大学和UCLA的研究团队在最新论文《ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction》中发起了一场对当前AI本质能力的深度拷问：那些在各类考试中表现优异的视觉语言模型（如GPT-5、Gemini），是否真正理解物理世界中"动手"交互的含义？这项突破性研究不仅为评估AI的具身认知能力提供了严谨框架，更揭示了一个令人警醒的事实：即使最前沿的AI系统，在"动手思考"方面也与人类有着本质差距。
具身认知：从被动观察到主动交互

现代视觉语言模型，如GPT-5、Gemini等，主要通过大量静态图像和文本训练而成。它们虽在各种任务上表现出色，但这种"旁观者式"的学习方式与人类通过身体与环境互动获取知识的方式截然不同。具身认知理论认为，真正的理解需要"动手"体验——例如，理解"开门"不仅需要看到门的图像，还需要体验手握门把手、施加力量、感受阻力变化等过程。

然而，评估模型是否具备这种能力极具挑战。现有评测往往只关注单一能力切片，如静态场景的空间感知，或简单指令的语言推理，缺乏一个能将视觉感知与具身交互紧密结合的统一评估框架。

ENACT：通过世界建模评估具身认知

研究团队提出的ENACT（Egocentric Interactive Embodied Cognition Test）巧妙地将具身认知评估转化为"世界建模"问题，通过两种互补的序列重排任务实现：

这两种任务看似简单，却隐式要求模型具备多重具身认知能力：识别物体功能（affordance recognition）、理解动作效果（action-effect reasoning）、保持具身空间意识（embodied awareness），以及在部分可观察条件下维持长期交互记忆。更关键的是，ENACT避免了低级图像生成的干扰，专注于高层推理能力评估。

从机器人模拟到大规模评估

ENACT的数据生成流程极为巧妙。研究团队利用BEHAVIOR机器人模拟器，自动从长达数小时的家庭活动演示视频中提取关键帧。这些关键帧对应环境状态的实质性变化（如冰箱从关闭到打开，物品从桌面移到手中）。随后，系统通过组合这些关键帧，自动生成不同长度（3-10步）的交互序列，共产生8,972个高质量问答对，涵盖多样化的家庭环境和活动。

为了确保评估的严谨性，研究团队设计了两种互补的指标：任务准确率（要求完全正确排序）和成对准确率（评估相邻步骤正确连接的比例）。此外，他们还进行了详尽的人类评估，为模型性能设立了基准上限。
令人警醒的发现：VLMs的具身认知差距

评估结果揭示了当前VLMs在具身认知方面的重大局限：

首先，人类与模型间存在巨大差距。即使是表现最好的GPT-5和Gemini 2.5 Pro，在3步任务中接近人类水平，但随着交互步骤增加，性能急剧下降。在10步长序列中，顶尖模型的成对准确率不足50%，而人类仍保持95%以上的准确率。这表明VLMs在长期交互记忆和状态跟踪方面存在根本性缺陷。

其次，逆向任务优于前向任务。所有评估模型在逆向世界建模（从观察推断动作）上始终优于前向建模（从动作预测观察），且差距随步骤增加而扩大。例如，GPT-5在10步逆向任务上达到55.33%的成对准确率，而在前向任务中仅为46.93%。这暗示VLMs更擅长基于语言的回溯推理，而非前瞻性视觉模拟。

最引人注目的是，VLMs表现出强烈的人类中心偏见。研究表明：

这些发现揭示了当前VLMs训练数据中隐含的人类视角偏差，可能限制它们在多样化机器人身体上的适用性。

深入错误分析：为什么VLMs难以"动手思考"？

为了理解VLMs失败的根本原因，研究团队设计了精细的错误分析框架，将错误分为结构性和语义性两大类。分析发现：

这些错误模式揭示了当前VLMs的决策往往基于表面的语言关联，而非对物理世界动态的深层理解。当面对需要精确空间推理和长期状态跟踪的复杂交互时，它们的局限性尤为明显。
现实意义与未来方向

ENACT不仅是一个评估工具，其自动化的数据生成流程为未来改进VLMs的具身认知能力提供了可能。研究表明，即使在模拟环境中训练的模型，其性能趋势在真实世界视频中也保持一致，验证了模拟器作为训练和评估平台的有效性。此外，开源权重模型（如InternVL3.5-241B）在某些任务上接近专有模型表现，为社区提供了可改进的基础。

这项研究对未来发展具有重要启示：要构建真正理解物理世界的AI系统，我们需要超越被动观察，设计更多强调交互式学习的训练方法。同时，需警惕训练数据中隐含的人类中心偏见，使AI系统能适应多样化的物理形态和视角。

结语：迈向真正的具身智能

ENACT研究揭示了一个关键事实：尽管当前VLMs在许多任务上表现出色，但在需要具身交互的世界建模方面，它们与人类仍有巨大差距。正如论文所展示，真正的具身认知不仅关乎"看到什么"，更关乎"如何行动"和"行动带来什么变化"。

这项工作不仅为评估具身认知提供了严谨框架，也为未来研究指明了方向：我们需要设计更注重交互体验的训练方法，构建更全面的物理世界模型，并超越人类中心视角，使AI能适应多样化的物理形态。只有当我们的模型不仅能"看"世界，还能真正"感受"和"行动"于世界中，我们才能迈向更高层次的人工智能。

这项由斯坦福、西北大学和UCLA合作的研究，不仅是一次技术评估，更是对人工智能本质的深刻反思——真正的智能，或许永远无法脱离与世界的互动而存在。

感兴趣可以阅读论文：https://arxiv.org/abs/2511.20937

账号		自动登录	找回密码
密码			注册

当AI＂动手＂思考:李飞飞团队揭示视觉语言模型的具身认知局限

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块