找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 284|回复: 0

AI对于空间一致性的突破,如何破解AI视频的“穿模”难题

[复制链接]
发表于 2025-8-26 04:38 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
前言

关于 空间一致性 其实一直是一件比较头痛的事情,今天没到发布会现场的同学木有关系,我给大家汇总了一期!

对于平时用的大模型,比如ChatGPT,你跟它聊文学、聊代码都行。

但你要是跟它说“在我的卧室的桌子左边有个杯子”,它其实没法真正理解这个“左边”是啥样的空间关系。它没有空间感的概念。

群核这次开源的两个模型,主要就是想解决这个问题,让AI能更好地理解和创造3D空间。


PART 01
情感留存:从照片到空间

想象一下,你手里有一张几十年前的老照片,比如一张自家老房子的照片。

现在,有种技术能把这张2D的照片,变成一个你可以“走进去”漫游的3D虚拟空间,照片里的一桌一椅都变得触手可及。

以下是他们现场展示的真实案例 ↓



AI在进入物理世界时,面临着三大挑战:

① 数据采集难:不像自动驾驶,可以用车载设备满世界跑来采集数据。室内空间涉及大量隐私,你不可能大规模地去扫描别人家,数据获取极其困难。

② 空间结构复杂:真实世界是“套娃”式的,房间里有家具,家具有抽屉,抽屉里有物品。这种复杂的嵌套关系,AI很难理解。

③ 缺乏交互性:现有的图像和视频数据是“死”的。AI看了再多视频,也不知道一张桌子能不能搬动,一个杯子有多重。

而群核科技的解法,我觉得是构建了一个 3D的中间世界

基于此他们推出了两个刚开源的核心模型:SpatialLM 1.5SpatialGen

网站下载并部署使用链接:

Hugging Face:

https://huggingface.co/manycore-research/SpatialGen-1.0

Github:

https://github.com/manycore-research/SpatialGen

PART 02
SpatialLM 空间语言模型

这个 SpatialLM (Spatial Language Model)

顾名思义,是能听懂空间指令的语言模型



你不用写代码,就像聊天一样告诉它你的想法:

“我想要一个适合老人住的卧室,床边要有扶手,地面不能有门槛,光线要好。”

在现场演示中,同样一个设计任务,让GPT-4这样的通用大模型来做,生成的方案里有68%的物体存在空间冲突(比如柜子挡住门)

而用SpatialLM,这个冲突率只有9%



PART 03
SpatialGen 空间生成模型
如果说SpatialLM负责“设计”,那SpatialGen (Spatial Generation Model) 就负责把它“拍”出来。SpatialGen可以基于一张图和一个布局,生成从不同角度看一致的图片和漫游视频,就像一个虚拟摄影师在一个真实存在的空间里拍摄一样。


OK,这是怎么做到的呢?

① 视角规划:先智能地计算出几百个最佳“机位”。

② 多模态扩散:同时生成彩色、深度、语义图。

③ 高斯泼溅:把离散的图片“缝合”成连续的3D点云。

④ 物理校正:根据真实的材料光学参数,调整光影。

⑤ 动态合成:最后根据你想要的路线,生成4K高清漫游视频。

我简要总结了一下 ↓



那么这些技术到底能用在哪?

1. 情感留存与记忆纪念

这是最打动人的应用之一。比如,通过拍摄老人的生活影像,为他们构建一个可随时“回去看看”的虚拟空间。对于行动不便的老人或远在异乡的亲人,这无疑是一种全新的情感连接方式。



2. AI视频与短剧创作

现在的AI视频(比如Sora)虽然惊艳,但普遍存在一个问题:时间一长,画面里的东西就开始变形、穿模,因为它们不懂三维物理。而群核的这套技术从根本上保证了空间和物体的一致性。这对广告、产品展示,尤其是需要场景和人物连贯的短剧行业来说,是真正的生产力工具。



3. 机器人训练

这是个非常实际的应用。想让扫地机器人更聪明,就需要让它在各种各样的家庭环境里训练。用SpatialLM可以快速、低成本地生成海量、物理正确的虚拟房间,让机器人在里面尽情地学习,碰撞规避准确率能提升到89%以上。群核也计划在今年Q4发布机器人训练的“沙盒”工具。



PART 04
开源背后的阳谋

群核科技的战略很清晰,他们要做“全球空间智能服务提供商”,而实现路径就是开源和开放。

一个“工具-数据-模型”的飞轮!!
数据层:

2018:开源 InteriorNet,全球最大空间认知数据集

2025:开源 IntelGS 高斯数据集,登顶 Hugging Face





模型层:

SQL(理解)、CPU卷(生成) → 实时交互、提升正确率

循环飞轮:

工具 → 数据 → 模型 → 再反哺工具


正如社区发起人AJ所说,一个拥有800万成员的开源社区,其技术迭代速度和创新能力,远非封闭开发可比。



PART 05
未来路线图

2025 Q3:开源10万组物理参数数据集

2025 Q4:机器人训练沙盒

2026目标:服务机器人环境认知准确率95%



行业实践与生态:

① 短剧行业:头部公司年产量200部

② 动画行业:日本项目 → 手绘+AI混合流程

③ 艺术教育:空间计算提高效率,但主体性仍需探索



最后

总的来说,期待未来有更多新进展~ 让大家更好使用。

好了睡觉。。拜~
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-9-30 21:55 , Processed in 0.079084 second(s), 26 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表