找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

查看: 116|回复: 0

当AI"动手"思考:李飞飞团队揭示视觉语言模型的具身认知局限

[复制链接]
发表于 2025-11-30 17:47 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
人类的智能并非生来就有,而是通过与环境不断互动、感知和行动逐渐形成的。这种"具身认知"理论认为,真正的智能不仅来自被动观察,更源于身体与世界的主动交互。由"AI教母"李飞飞教授领衔,斯坦福大学、西北大学和UCLA的研究团队在最新论文《ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction》中发起了一场对当前AI本质能力的深度拷问:那些在各类考试中表现优异的视觉语言模型(如GPT-5、Gemini),是否真正理解物理世界中"动手"交互的含义?这项突破性研究不仅为评估AI的具身认知能力提供了严谨框架,更揭示了一个令人警醒的事实:即使最前沿的AI系统,在"动手思考"方面也与人类有着本质差距。
具身认知:从被动观察到主动交互

现代视觉语言模型,如GPT-5、Gemini等,主要通过大量静态图像和文本训练而成。它们虽在各种任务上表现出色,但这种"旁观者式"的学习方式与人类通过身体与环境互动获取知识的方式截然不同。具身认知理论认为,真正的理解需要"动手"体验——例如,理解"开门"不仅需要看到门的图像,还需要体验手握门把手、施加力量、感受阻力变化等过程。

然而,评估模型是否具备这种能力极具挑战。现有评测往往只关注单一能力切片,如静态场景的空间感知,或简单指令的语言推理,缺乏一个能将视觉感知与具身交互紧密结合的统一评估框架。

w1.jpg
ENACT:通过世界建模评估具身认知

研究团队提出的ENACT(Egocentric Interactive Embodied Cognition Test)巧妙地将具身认知评估转化为"世界建模"问题,通过两种互补的序列重排任务实现:

    前向世界建模:给定初始视觉观察和一系列动作(如"打开冰箱"、"拿起番茄"),模型需要对打乱顺序的后续观察图像进行正确排序。这测试了模型是否能预测动作如何改变环境。

    逆向世界建模:给定一系列按时间顺序排列的环境观察图像,模型需要对打乱顺序的动作序列进行正确排序。这评估了模型能否从状态变化推断导致这些变化的动作。

这两种任务看似简单,却隐式要求模型具备多重具身认知能力:识别物体功能(affordance recognition)、理解动作效果(action-effect reasoning)、保持具身空间意识(embodied awareness),以及在部分可观察条件下维持长期交互记忆。更关键的是,ENACT避免了低级图像生成的干扰,专注于高层推理能力评估。

w2.jpg
从机器人模拟到大规模评估

ENACT的数据生成流程极为巧妙。研究团队利用BEHAVIOR机器人模拟器,自动从长达数小时的家庭活动演示视频中提取关键帧。这些关键帧对应环境状态的实质性变化(如冰箱从关闭到打开,物品从桌面移到手中)。随后,系统通过组合这些关键帧,自动生成不同长度(3-10步)的交互序列,共产生8,972个高质量问答对,涵盖多样化的家庭环境和活动。

为了确保评估的严谨性,研究团队设计了两种互补的指标:任务准确率(要求完全正确排序)和成对准确率(评估相邻步骤正确连接的比例)。此外,他们还进行了详尽的人类评估,为模型性能设立了基准上限。
令人警醒的发现:VLMs的具身认知差距

评估结果揭示了当前VLMs在具身认知方面的重大局限:

首先,人类与模型间存在巨大差距。即使是表现最好的GPT-5和Gemini 2.5 Pro,在3步任务中接近人类水平,但随着交互步骤增加,性能急剧下降。在10步长序列中,顶尖模型的成对准确率不足50%,而人类仍保持95%以上的准确率。这表明VLMs在长期交互记忆和状态跟踪方面存在根本性缺陷。

其次,逆向任务优于前向任务。所有评估模型在逆向世界建模(从观察推断动作)上始终优于前向建模(从动作预测观察),且差距随步骤增加而扩大。例如,GPT-5在10步逆向任务上达到55.33%的成对准确率,而在前向任务中仅为46.93%。这暗示VLMs更擅长基于语言的回溯推理,而非前瞻性视觉模拟。

最引人注目的是,VLMs表现出强烈的人类中心偏见。研究表明:

    模型对右手动作的理解明显优于左手,准确率差距高达10-15%

    当相机视角偏离人类典型视角(如过高或过低)时,性能显著下降

    当相机参数(如视野角度)偏离人类视觉习惯时,推理能力受损

这些发现揭示了当前VLMs训练数据中隐含的人类视角偏差,可能限制它们在多样化机器人身体上的适用性。

w3.jpg
深入错误分析:为什么VLMs难以"动手思考"?

为了理解VLMs失败的根本原因,研究团队设计了精细的错误分析框架,将错误分为结构性和语义性两大类。分析发现:

    结构错误:最主要的错误类型是"省略"和"幻觉"。在前向任务中,43.9%的错误是幻觉(VLM预测了未发生的改变),37.1%是省略(未能识别真实发生的改变)。这表明VLMs过度依赖语言先验,而非忠实的视觉基础。

    语义错误:错误集中在空间关系和代理交互类别。VLMs难以准确理解物体的相对位置变化,也常在识别使用哪只手执行动作时出错。这反映了它们在三维空间推理和身体意识方面的不足。

这些错误模式揭示了当前VLMs的决策往往基于表面的语言关联,而非对物理世界动态的深层理解。当面对需要精确空间推理和长期状态跟踪的复杂交互时,它们的局限性尤为明显。
现实意义与未来方向

ENACT不仅是一个评估工具,其自动化的数据生成流程为未来改进VLMs的具身认知能力提供了可能。研究表明,即使在模拟环境中训练的模型,其性能趋势在真实世界视频中也保持一致,验证了模拟器作为训练和评估平台的有效性。此外,开源权重模型(如InternVL3.5-241B)在某些任务上接近专有模型表现,为社区提供了可改进的基础。

这项研究对未来发展具有重要启示:要构建真正理解物理世界的AI系统,我们需要超越被动观察,设计更多强调交互式学习的训练方法。同时,需警惕训练数据中隐含的人类中心偏见,使AI系统能适应多样化的物理形态和视角。

w4.jpg
结语:迈向真正的具身智能

ENACT研究揭示了一个关键事实:尽管当前VLMs在许多任务上表现出色,但在需要具身交互的世界建模方面,它们与人类仍有巨大差距。正如论文所展示,真正的具身认知不仅关乎"看到什么",更关乎"如何行动"和"行动带来什么变化"。

这项工作不仅为评估具身认知提供了严谨框架,也为未来研究指明了方向:我们需要设计更注重交互体验的训练方法,构建更全面的物理世界模型,并超越人类中心视角,使AI能适应多样化的物理形态。只有当我们的模型不仅能"看"世界,还能真正"感受"和"行动"于世界中,我们才能迈向更高层次的人工智能。

这项由斯坦福、西北大学和UCLA合作的研究,不仅是一次技术评估,更是对人工智能本质的深刻反思——真正的智能,或许永远无法脱离与世界的互动而存在。


感兴趣可以阅读论文:https://arxiv.org/abs/2511.20937
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-12-3 04:44 , Processed in 0.142476 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表