最少只用 2 张图,AI 就能像人类一样理解 3D 空间了。
ICCV 2025 最新中稿的LangScene-X:
以全新的生成式框架,仅用稀疏视图(最少只用 2 张图像)就能构建可泛化的 3D 语言嵌入场景,对比传统方法如 NeRF,通常需要 20 个视角。
团队一举攻克传统方法依赖密集视图的痛点,更将多模态信息统一在单一模型中,为空间智能领域打开了新大门。
这意味着,生成式模型能像人类一样,仅凭稀疏视觉输入构建融合语言理解的 3D 空间认知系统。
3D 语言场景生成的困境
当前 3D 语言场景生成有以下 3 个核心困境:
密集视图依赖与稀疏输入缺失的矛盾
传统方法(如 NeRF、Gaussian Splatting)高度依赖校准后的密集视图(通常超过 20 个视角),当输入视图稀疏(如仅 2-3 张图像)时,会出现严重的 3D 结构伪影和语义合成失真。例如,LangSplat 和 LangSurf 在厨房场景中使用稀疏视图时,物体边界模糊率超过 40%,而真实场景中获取密集视图往往成本高昂。
跨模态信息割裂与 3D 一致性缺失
外观、几何、语义三类信息通常由独立模块处理,导致模态间语义错位。现有视频扩散模型仅能生成单一模态,当需要同步生成法线和语义时,会出现物体表面法线与颜色不匹配等问题,在 ScanNet 测试中,传统方法的法线与 RGB 一致性误差平均达 27.3 °。
语言特征高维压缩与泛化能力的瓶颈
CLIP 生成的 512 维语言特征直接嵌入 3D 场景时内存占用极高,且现有压缩方法需逐场景训练,无法跨场景泛化。例如,OpenGaussian 在切换场景时文本查询准确率下降 58%,严重限制实际应用。
LangScene-X 如何破局 TriMap 视频扩散模型:稀疏输入下的多模态统一生成
四阶段渐进训练:先通过大规模网络数据训练关键帧插值能力,再用 10K 级 3D 一致视频数据学习几何一致性,接着注入法线和语义监督,最终实现 RGB、法线、语义图的协同生成。该策略使模型在仅 2 张输入图像时,生成的法线与 RGB 一致性误差降至 8.1 °,语义掩码边界准确率提升 63%。
层级化语义生成:利用视频扩散泛化能力,生成小(s)、中(m)、大(l)三种粒度语义掩码,例如在 Teatime 场景中可精准定位"红色马克杯"并区分细节。
语言量化压缩器(LQC):高维特征压缩的泛化革命
向量量化 + 梯度桥接:通过可学习的嵌入表,将高维 CLIP 特征映射为 3 维离散索引,压缩后特征 L2 重建误差仅 0.0001,较传统自编码器降低 90%。
跨场景语义锚定:在 COCO 数据集预训练的 LQC 无需微调即可跨场景迁移,文本激活图边界锐利度比 LangSplat 提升 2.3 倍。
语言嵌入表面场:3D 空间的语义 - 几何联合优化
渐进法线正则化:先通过 DUSt3R 初始化点云,再用生成的法线图分阶段优化几何表示,自动过滤不可靠区域,使 3D 表面重建误差大幅降低。
2D/3D 聚类监督:通过语义损失和特征分布对齐,强制语言高斯紧密附着在物体表面。例如,"冰箱"查询中激活区域与真实表面重合度达 91.7%,远超 LangSurf 的 65.3%。
统一模型与空间智能的融合统一模型:单模型统合多模态,告别"模块化"低效
传统 3D 重建往往需要分别处理外观、几何和语义信息,不仅流程繁琐,还难以保证跨模态一致性。LangScene-X 创新性地提出TriMap 视频扩散模型,通过渐进式多任务训练策略,一次性生成 RGB 图像、法线图和语义分割图,将三大模态信息无缝整合。
这种"大一统"架构不仅省去多模型协同的复杂流程,更通过视频扩散的强生成先验,确保了生成内容在 3D 空间中的一致性,精准补全重建中看不见的视角。
搭配语言量化压缩器(LQC),LangScene-X 还解决了高维语言特征压缩的难题。无需针对每个场景单独训练,就能将 512 维的 CLIP 特征高效编码为低维离散索引,在减少内存开销的同时,保持语言特征的本质属性,真正实现跨场景的泛化能力。
空间智能:让机器像人类一样"理解" 3D 世界
LangScene-X 还通过语言嵌入表面场技术,将文本 prompt 与 3D 场景表面精准对齐。比如在" Teatime "场景中输入" stuffed bear ",模型会生成聚焦相关区域的关联图,真正实现用自然语言直接查询 3D 场景中的物体。
这种能力源于对空间智能的独特设计:模型从稀疏视图中提取多模态知识,再通过语义引导的法线优化和 2D/3D 聚类损失,将语言信息牢固锚定在 3D 空间中。
实验显示,在 LERF-OVS 和 ScanNet 数据集上,LangScene-X 的开放词汇定位准确率和语义分割 IoU 均大幅超越现有方法,拥有接近人类水平的空间理解能力。
实证结果
在 LERF-OVS 数据集上,LangScene-X 的整体 mAcc 达 80.85%,mIoU 达 50.52%,较最优基线分别提升 31.18% 和 10.58%;在 ScanNet 上,整体 mIoU 更是达到 66.54%,超越现有方法 14.92%。可视化结果显示,其分割掩码边界更锐利,连" Cabinet "等复杂物体的预测都能超越真实标注。
无论是 VR 场景构建还是人机交互,LangScene-X 有潜力成为核心驱动力,并为自动驾驶、具身智能等场景提供底层技术范式。
论文地址 :
https://arxiv.org/abs/2507.02813
项目主页 :
https://liuff19.github.io/LangScene-X/
Github 仓库 :
https://github.com/liuff19/LangScene-X
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见
在线配资平台大全,股票配资杠杆,股票怎么配资提示:文章来自网络,不代表本站观点。