AI的下一个革命在哪?这篇万字综述讲透了具身智能

我爱免费 · 发表于 2025-9-14 10:19

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章

今天我们分享解读的是来自广东人工智能与数字经济实验室（深圳）、深圳大学、中山大学以及法国巴黎综合理工学院等顶尖研究机构的学者联合撰写的最新万字综述——《Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions》。

过去几年，大语言模型（LLM）的“大脑”已经足够震撼世界。但如果，这个聪明的“大脑”拥有了可以感知和行动的“身体”，又会发生什么？这就是具身智能（Embodied Intelligence）所要探索的未来。它不仅仅是让AI“能说会道”，更是要让AI“能看、能听、能动、能交互”，真正融入物理世界。

这篇综述为我们系统性地绘制了一幅具身多模态大模型（EMLMs）的全景技术地图。作者们从历史渊源谈起，深入剖析了作为EMLM基石的语言、视觉等基础大模型，并全面梳理了具身智能在感知、导航、交互、模拟这四大核心环节的最新进展。此外，文章还为我们整理了该领域最重要的基准数据集，并对未来的挑战与机遇进行了深刻的展望。

如果你想一文读懂具身智能的全貌，了解当今最前沿的机器人、自动驾驶、虚拟智能体技术是如何与大模型结合的，那么这篇综-述绝对不容错过。

[图1：具身感知、导航与交互领域的研究进展时间线]

1. 引言：从“无实体的智能”到“有身体的认知”

传统的AI研究，很多时候像是在培养一个“缸中之脑”，它在数字世界里处理信息，但与物理世界是隔离的。而具身智能（Embodied Intelligence）这一理念，最早可以追溯到上世纪90年代，其核心思想是：真正的智能，源于与环境的物理交互。正如哲学家所言，我们的认知是在与世界的互动中被塑造的。

随着大模型的浪潮席卷而来，这一古老而深刻的哲学思想与最前沿的技术产生了激烈的碰撞，催生了具身多模-态大模型（Embodied Multimodal Large Models, EMLMs）。EMLMs旨在将大模型的强大推理能力与多模态感知（视觉、语言、听觉、触觉等）和物理行动能力结合起来，创造出能够在真实或虚拟世界中自主行动的智能体。

目前，关于EMLMs的综述还存在一些空白。许多文章要么只关注LLM本身，要么对具身智能的讨论过于宽泛（包含了硬件等），要么未能跟上近两年飞速发展的技术。本文正是为了填补这一空白，系统性地梳理了大模型技术在具身智能全技术栈中的应用和发展。

2. 基础模型：EMLMs的“器官”与“大脑”

要构建一个功能完备的EMLM，首先需要理解其背后的基础模型，它们就像智能体的各个器官，各司其职。
2.1. 具身智能体 (Embodied Agents)

它们是承载智能的“身体”，可以是现实中的物理实体，也可以是虚拟世界中的角色。

[图2：具身AI智能体示例]
•机器人：形态各异，从工业机械臂（如Franka）、四足机器人（如Unitree Go2），到人形机器人（如Unitree H1）。•自动驾驶汽车：典型的具身智能体，通过多传感器感知环境，做出驾驶决策。•虚拟智能体：游戏中的NPC、虚拟偶像等，它们在虚拟环境中与用户或其他智能体互动。2.2. 大语言模型 (LLMs)

LLM是EMLM的语言大脑。它们负责理解人类的指令、生成描述、进行逻辑推理和任务规划。从早期的BERT，到划时代的GPT系列（GPT-3, GPT-4），再到开源的LLaMA系列，LLM的进化为具身智能提供了强大的认知核心。特别是像GPT-4V和DeepSeek-V3这样的多模态LLM，已经能够直接处理图像输入，为更深层次的图文融合打下了基础。
2.3. 大视觉模型 (LVMs)

LVM是EMLM的眼睛，负责从图像或视频中提取信息。
•ResNet：经典的卷积神经网络，为深度学习在视觉领域的成功立下汗马功劳。•Vision Transformer (ViT)：将NLP领域的Transformer架构引入视觉，实现了对全局信息的更强捕捉。•Swin Transformer：通过引入“窗口自注意力”机制，提高了ViT的效率。•SAM (Segment Anything Model)：Meta推出的通用分割模型，能以前所未有的精度和泛化能力分割出图像中的任何物体。•DINO/DINOv2：强大的自监督学习模型，能在无标注数据上学到非常鲁棒的视觉表征。2.4. 大视觉-语言模型 (LVLMs)

LVLM是连接“看”和“说”的关键桥梁，它们学习视觉信息和语言信息之间的对齐关系。
•CLIP：通过对比学习，将图像和文本嵌入到同一个语义空间，实现了强大的零样本图像分类能力。•DALL·E 系列：文生图模型的代表，展示了从语言到视觉的强大生成能力。•BLIP/BLIP-2：通过更高效的预训练策略，提升了视觉问答和图像描述等任务的性能。•Flamingo/PaLM-E：这些模型不仅处理图文，还将“动作”也纳入了模型输入，是真正意义上的“具身多模态”开创性工作。2.5. 其他模态模型

除了视觉和语言，听觉和触觉也在具身智能中扮演重要角色。
•听觉：在导航任务中，声音可以帮助定位声源（如SoundSpaces）；在交互任务中，接触的声音可以提供物理反馈。•触觉：对于精细操作（如抓取易碎或易变形物体）至关重要，它能提供视觉无法感知的接触力信息。

3. EMLMs的发展：四大核心能力栈

作者将EMLMs的核心能力分解为感知、导航、交互和模拟四个环节，并对每个环节的技术发展进行了详细梳理。

[图3：具身智能体的完整任务栈]

图解读：这张图展示了一个典型的具身智能体工作流程。智能体通过传感器（如摄像头、激光雷达）感知环境，理解人类的语言指令，进行导航和交互来完成任务。而这一切的训练和测试，可以在模拟环境中进行，也可以在真实世界中进行。

3.1. 具身感知 (Embodied Perception)

具身感知不仅仅是识别物体，更重要的是理解物体在三维空间中的关系、属性和可供交互性（Affordance）。

[表1：具身感知大模型]

•基于GPT的大模型：利用GPT-4V等强大的LVLM进行场景理解。•Octopus：动态生成对场景的文本描述，辅助LLM决策。•AlphaBlock：受思维链启发，要求模型在输出坐标前先进行文本推理，提升空间感知精度。•ReKep：通过视觉模型（DINOv2, SAM）提取场景中的关键点，再让GPT-4o基于这些关键点和任务指令生成分阶段的规划和约束。
[图4：Rekep框架示意图]•基于非GPT的大模型：构建专门的视觉-语言-动作模型。•RT-1/RT-2：Google的代表作，将机器人动作也表示为文本词元（Token），与视觉和语言在统一的Transformer架构中进行端到端学习。•OpenVLA：一个开源的视觉-语言-动作（VLA）模型，通过融合DINOv2和SigLIP的视觉特征，增强了Llama 2语言模型的具身能力。•RoboMamba：探索了最新的Mamba架构在机器人任务中的应用。3.2. 具身导航 (Embodied Navigation)

具身导航要求智能体根据指令（通常是自然语言）在未知环境中找到目标位置或物体。这比传统的A到B点导航更复杂，因为它需要理解语言、感知环境并进行推理。

[表2：具身导航大模型]

•通用大模型驱动：直接利用现有的大模型进行导航决策。•LM-Nav：使用GPT-3解析指令中的地标，并结合视觉信息进行导航。•VLMaps：利用LVLM将视觉观察结果“绘制”成一张三维语义地图，智能体可以在这张地图上进行规划。•NavGPT：一个完全基于LLM的系统，它将历史轨迹、视觉观察和未来可能的探索方向全部转化为文本，让GPT-3.5进行决策。
[图5：NavGPT-2框架示意图]•专用具身智能大模型：训练专门用于导航任务的端到-端模型。•NavCoT：结合思维链与导航任务，提升模型对复杂指令的理解和执行能力。•GOAT：引入因果学习框架，分离出观测中的混淆因素，提升模型的泛化能力。•GNM/ViNT/NoMaD：来自伯克利AI研究院的一系列工作，通过在大量异构机器人数据上进行训练，得到了可以零样本泛化到全新机器人平台上的通用导航模型。3.3. 具身交互 (Embodied Interaction)

这是具身智能的“动手”环节，即智能体如何通过物理动作与环境和物体进行交互。

[表3：具身交互大模型]

•短时程动作策略 (Short-horizon Policy)：关注于即时、简单的动作决策。•R3M：通过在大量第一人称视频（Ego4D）上预训练，学到了一个非常适合机器人操作的视觉编码器。•RT-1/RT-2/Octo：通过模仿学习，在海量机器人操作数据上训练端到端策略，直接从视觉和语言输入映射到动作输出。•OpenVLA：开源社区的标杆之作，证明了用高质量的真实世界机器人数据训练VLA模型的可行性和强大效果。
[图6：Openvla框架示意图]•长时程动作策略 (Long-horizon Policy)：关注于完成需要多个步骤的复杂任务，核心在于任务规划与分解。•SayCan：开创性地将LLM的“常识”与机器人预先学好的“技能”结合。LLM负责生成可能的子任务，并评估每个子任务的“可行性”和“有用性”，从而做出决策。•EmbodiedGPT/PaLM-E：将多模态信息和任务规划统一在端到端的模型中。•Octopus：将高级任务规划翻译成可执行的底层代码，用代码作为连接高级思维和低层控制的桥梁。3.4. 模拟 (Simulation)

由于在真实世界中收集数据成本高、风险大，模拟器成为了训练和测试具身智能体的关键基础设施。

[表4：用于EMLMs的模拟器]

•通用物理引擎：如NVIDIA的Isaac Sim，提供高逼真度的物理渲染和机器人模型支持。•面向真实场景的模拟器：•iGibson/Habitat-Sim：专注于创建逼真的室内家居环境，支持导航和交互任务。•WonderWorld：能从单张图片快速生成可交互的3D场景。•GenZI：能根据文本描述生成包含人体交互的3D场景。•Genesis：一个雄心勃勃的项目，旨在创建一个通用的、可生成的物理引擎，能够自动为机器人等领域生成海量、多样化的训练数据。

4. 数据集：EMLMs的“食粮”

高质量、大规模的数据集是训练强大EMLMs的基石。
4.1. 数据集收集方法

•真实世界收集：使用带有多传感器的机器人或设备（如VR头盔）在真实环境中收集。优点是数据真实，但成本高、效率低。•模拟器收集：在模拟环境中大规模、自动化地生成数据。优点是成本低、效率高、可控性强，但存在“模拟到现实”的鸿沟（Sim-to-Real Gap）。4.2. 核心数据集概览

[表5：具身智能数据集]

•感知与交互数据集：•Open X-Embodiment：由Google联合20多家机构发布，是目前规模最大的机器人操作数据集，包含来自22种不同机器人的超过100万条轨迹。•RH20T/ARIO：同样是大规模、多模态的机器人操作数据集，包含了视觉、力、声音、语言等多种信息。•ManiSkill2：一个在模拟环境中生成的大规模精细操作数据集。•导航数据集：•HM3D/Gibson/Matterport3D：提供了大规模、高保真的室内3D场景重建数据。•R2R/REVERIE：在上述3D场景的基础上，标注了大量的自然语言导航指令。•SoundSpaces：专注于声音与视觉结合的导航任务。

5. 挑战与未来方向

尽管EMLMs取得了显著进展，但仍面临诸多挑战。
5.1. 技术挑战

•跨模态对齐：如何精确、高效地对齐来自不同传感器（视觉、语言、激光雷达、触觉等）的信息。•计算资源与效率：EMLMs模型巨大，训练和推理成本高昂，如何进行模型压缩和效率优化是关键。•泛化能力：如何让模型从特定任务和环境中学习到的知识，泛化到新的、未见过的场景。•时序信息处理：如何有效处理连续的动作、环境变化以及感知、推理和行动之间的时间依赖关系。5.2. 数据与标注问题

•数据集的多样性和质量：现有数据集仍有局限，缺乏足够多样化的场景、任务和交互类型，尤其是动态、真实世界的数据。5.3. 应用与伦理考量

•安全性与可靠性：在自动驾驶、机器人等高风险领域，如何确保模型的安全、可靠和可解释性至关重要。•偏见问题：模型可能会从训练数据中学习到并放大社会偏见。5.4. 未来研究方向

•跨模态预训练与微调：探索更高效的预训练范式，使模型能够轻松迁移到各种下游具身任务。•自监督学习：减少对大规模标注数据的依赖，让智能体从与环境的无监督交互中学习。•与强化学习的结合：通过RL，让智能体在试错中不断学习和优化其行为策略。•端到端大模型：最终的趋势是走向一个能够处理从感知到规划再到执行所有环节的端到端大模型。

6. 结论

具身多模态大模型（EMLMs）正引领AI研究从纯粹的“信息处理”向“物理交互”转变。这篇综述为我们全面展示了这一激动人心领域的技术全景，从基础模型到核心能力栈，再到数据集和未来挑战。尽管道阻且长，但将强大的大模型与能够感知和行动的“身体”相结合，无疑是通往更通用、更强大人工智能的必由之路。

思考模块：具身智能——从“数字生命”到“物理存在”

这篇综述描绘的不仅是技术的演进，更是一种AI发展哲学的根本性转变，预示着AI从“数字生命”迈向“物理存在”的可能。
•
世界模型（World Model）的具象化：长期以来，构建一个能理解世界运行规律的“世界模型”被认为是通往AGI的关键。EMLMs通过与环境的直接交互，正在以一种“自下而上”的方式构建着对物理世界的理解。每一次成功的抓取、每一次避开障碍物的导航，都在模型内部刻下了关于重力、摩擦力、物体刚性、空间关系等物理规律的“烙印”。这不再是文本描述中的抽象知识，而是通过行动验证的、内化于心的“经验”。
•
“数据飞轮”的开启：具身智能领域面临一个典型的“鸡生蛋，蛋生鸡”问题：需要海量高质量的交互数据来训练强大的智能体，但收集这些数据又需要强大的智能体。未来的突破口可能在于启动一个“数据飞-轮”。最初，我们可以用模拟器生成大量“低质量”数据来训练第一代智能体；然后，将这些智能体部署到真实世界（或更逼真的模拟器中）执行简单任务，收集“中等质量”的数据；再用这些数据训练出更强的第二代智能体……如此循环，智能体的能力和数据的质量将螺旋式上升。
•
从“语言接口”到“物理接口”：目前我们与LLM的交互主要通过语言。而EMLMs将把这个接口扩展到整个物理世界。未来，你可能不再需要用语言详细描述一个任务，而是可以直接做一个示范动作，机器人就能通过观察和模仿来学习。你家的服务机器人，可能会通过观察你的日常生活习惯，主动学习如何为你整理房间、准备咖啡。AI与人类的协作将不再局限于屏幕之内，而是无缝融入我们的物理生活空间。
•
终极挑战：常识与因果推理：EMLMs的终极目标之一，是拥有真正的物理常识和因果推理能力。例如，它需要明白“玻璃杯摔在地上会碎”，而不是因为它在数据里见过很多“杯子”和“碎”的共现。这种深层次的理解，只有通过在遵循物理规律的世界中进行大量的、带有明确因果链的交互才可能学到。强化学习（RL）在这里将扮演至关重要的角色，因为它天然就是一个探索“行动-结果”因果关系的框架。

总之，这篇综述所描绘的具身智能蓝图，是AI从一个无所不知的“智者”，转变为一个无所不能的“行者”的开始。这条路将重塑机器人、自动驾驶、虚拟现实乃至我们与技术互动的一切方式。我们正站在一个新时代的开端，见证AI真正“走进”我们的世界。

推荐阅读

从AI辅助到自主发现：上海AI Lab提出的智能体科学（Agentic Science）如何重塑科研范式？

SimpleTIR: 一招稳住多轮工具推理，7B模型也能在数学竞赛AIME上狂砍50分！

AI提速指南| 一文看懂大模型架构的演进！

AI智能体迈向深度研究：华为万字综述，详解强化学习三大基石与未来蓝图

AI为何会“一本正经地胡说八道”？OpenAI揭秘大模型幻觉的统计学根源

万字综述精华！从方法到应用，全面解析LLM智能体推理框架！

AI写的代码安全吗？腾讯、清华、北大联手发布仓库级安全基准A.S.E，深度评测主流代码大模型

不动模型参数，照样“进化”AI智能体：AgentFly的免微调学习范式

Intern-S1：一个面向科学领域的多模态基础模型

字节&南大联手发布DuPO：通过对偶偏好优化，赋能大模型实现可靠的自我验证

AI圈大地震！你信赖的“思维链”可能只是海市蜃楼？

微软Agent Lightning：用强化学习训练“任意”AI智能体

阿里通义新作 | WebWatcher，不止于看图说话的深度研究智能体！

账号		自动登录	找回密码
密码			注册

萍聚头条

AI的下一个革命在哪?这篇万字综述讲透了具身智能

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块