Arxiv Report 2026 01 23 - Owen-Liuyuxuan/everyday_my_arxiv GitHub Wiki

Arxiv Computer Vision Papers - 2026-01-23

Executive Summary

好的,作为一名专注于计算机视觉和机器学习的研究助理,我将为您提供一份简明的执行摘要,以帮助您快速了解近期 Arxiv 计算机视觉领域的最新进展。


执行摘要:Arxiv 计算机视觉论文精选 (2026-01-21)

1. 主要主题与趋势:

本期 Arxiv 论文集聚焦于视频理解与生成3D 表示与重建以及多模态学习的交叉领域。特别值得注意的是,扩散模型 (Diffusion Models) 在视频生成、图像生成以及机器人控制等方面的应用持续深化,并且研究者们正积极探索如何提高其效率、可控性和鲁棒性。同时,跨领域策略学习3D几何表示也是重要的研究方向,旨在实现更通用的机器人智能和更逼真的三维内容创作。

2. 亮点与创新:

  • 视频生成与控制的突破:

    • CamPilot (论文 2) 提出了一种高效的相机奖励反馈机制,显著提升了视频扩散模型在相机控制方面的表现,为生成更具叙事性的视频提供了新思路。
    • PyraTok (论文 4) 引入了语言对齐的金字塔式分词器,在视频理解和生成任务中展现出强大的潜力,预示着视频内容与语言描述之间更深层次的融合。
    • ActionMesh (论文 10) 利用时序 3D 扩散模型实现了动画 3D 网格的生成,为虚拟角色和动态场景的创建开辟了新途径。
  • 3D 表示与跨域学习:

    • Point Bridge (论文 3) 探索了 3D 表示在跨领域策略学习中的应用,为机器人学习和泛化能力提供了新的视角。
    • 360Anything (论文 8) 提出了一种无需显式几何约束即可将图像和视频提升至 360° 全景的技术,极大地降低了全景内容制作的门槛。
  • 多模态与鲁棒性:

    • Provable Robustness in Multimodal Large Language Models via Feature Space Smoothing (论文 7) 关注多模态大语言模型的鲁棒性问题,通过特征空间平滑提供理论保证,对于构建更可靠的多模态系统至关重要。

3. 新兴研究方向与技术:

  • 扩散模型的精细化控制: 研究者们正从奖励反馈、分词器设计等多个角度,探索如何更精确地控制扩散模型的生成过程,以满足特定应用需求。
  • 高效的 3D 表示与生成: 摆脱传统几何约束,利用更灵活的表示方法(如点云)进行跨领域学习,以及直接生成动态 3D 内容,是未来的重要趋势。
  • 多模态模型的鲁棒性与安全性: 随着多模态模型能力的增强,如何保证其在各种输入下的稳定性和可靠性成为亟待解决的问题。
  • 机器人策略学习的泛化性: 如何让机器人能够从少量数据或不同领域的数据中学习到通用的策略,是实现更智能机器人系统的关键。

4. 建议阅读全文的论文:

考虑到其创新性和对未来研究方向的潜在影响,以下论文值得深入阅读:

  • 论文 2: CamPilot: Improving Camera Control in Video Diffusion Model with Efficient Camera Reward Feedback - 对于视频生成和内容创作领域的研究者,理解其相机控制机制将非常有价值。
  • 论文 4: PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation - 探索视频与语言深度融合的创新方法,对多模态视频处理研究者至关重要。
  • 论文 8: 360Anything: Geometry-Free Lifting of Images and Videos to 360° - 对于计算机图形学、AR/VR 内容创作以及图像/视频处理的研究者,该技术具有直接的应用价值。
  • 论文 10: ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion - 对于 3D 内容生成、动画和游戏开发领域的研究者,该论文提供了前沿的生成技术。

希望这份执行摘要能帮助您快速把握本次 Arxiv 论文的重点内容。


Table of Contents

  1. A comprehensive overview of deep learning models for object detection from videos/images
  2. CamPilot: Improving Camera Control in Video Diffusion Model with Efficient Camera Reward Feedback
  3. Point Bridge: 3D Representations for Cross Domain Policy Learning
  4. PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation
  5. Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders
  6. IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance
  7. Provable Robustness in Multimodal Large Language Models via Feature Space Smoothing
  8. 360Anything: Geometry-Free Lifting of Images and Videos to 360°
  9. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning
  10. ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion

Papers

A comprehensive overview of deep learning models for object detection from videos/images

Authors: Sukana Zulfqar, Sadia Saeed, M. Azam Zia, Anjum Ali, Faisal Mehmood, Abid Ali

Published: 2026-01-21

Categories: cs.CV, cs.AI

Abstract:

Object detection in video and image surveillance is a well-established yet rapidly evolving task, strongly influenced by recent deep learning advancements. This review summarises modern techniques by examining architectural innovations, generative model integration, and the use of temporal information to enhance robustness and accuracy. Unlike earlier surveys, it classifies methods based on core architectures, data processing strategies, and surveillance specific challenges such as dynamic environments, occlusions, lighting variations, and real-time requirements. The primary goal is to evaluate the current effectiveness of semantic object detection, while secondary aims include analysing deep learning models and their practical applications. The review covers CNN-based detectors, GAN-assisted approaches, and temporal fusion methods, highlighting how generative models support tasks such as reconstructing missing frames, reducing occlusions, and normalising illumination. It also outlines preprocessing pipelines, feature extraction progress, benchmarking datasets, and comparative evaluations. Finally, emerging trends in low-latency, efficient, and spatiotemporal learning approaches are identified for future research.

Analysis:

好的,我将扮演一名AI领域的专业高水平研究生,专注于深入分析论文的方法部分,并提供结构化的分析。请提供您希望我分析的论文。

Key Findings:

  • It also outlines preprocessing pipelines, feature extraction progress, benchmarking datasets, and comparative evaluations.
  • Finally, emerging trends in low-latency, efficient, and spatiotemporal learning approaches are identified for future research.

Links:


CamPilot: Improving Camera Control in Video Diffusion Model with Efficient Camera Reward Feedback

Authors: Wenhang Ge, Guibao Shen, Jiawei Feng, Luozhou Wang, Hao Lu, Xingye Tian, Xin Tao, Ying-Cong Chen

Published: 2026-01-22

Categories: cs.CV

Abstract:

Recent advances in camera-controlled video diffusion models have significantly improved video-camera alignment. However, the camera controllability still remains limited. In this work, we build upon Reward Feedback Learning and aim to further improve camera controllability. However, directly borrowing existing ReFL approaches faces several challenges. First, current reward models lack the capacity to assess video-camera alignment. Second, decoding latent into RGB videos for reward computation introduces substantial computational overhead. Third, 3D geometric information is typically neglected during video decoding. To address these limitations, we introduce an efficient camera-aware 3D decoder that decodes video latent into 3D representations for reward quantization. Specifically, video latent along with the camera pose are decoded into 3D Gaussians. In this process, the camera pose not only acts as input, but also serves as a projection parameter. Misalignment between the video latent and camera pose will cause geometric distortions in the 3D structure, resulting in blurry renderings. Based on this property, we explicitly optimize pixel-level consistency between the rendered novel views and ground-truth ones as reward. To accommodate the stochastic nature, we further introduce a visibility term that selectively supervises only deterministic regions derived via geometric warping. Extensive experiments conducted on RealEstate10K and WorldScore benchmarks demonstrate the effectiveness of our proposed method. Project page: \href{https://a-bigbao.github.io/CamPilot/}{CamPilot Page}.

Analysis:

好的,我将以一名AI领域高水平研究生的视角,深入分析这篇论文的方法部分,并遵循您提供的分析框架。


论文方法分析与总结:CamPilot: Improving Camera Control in Video Diffusion Model with Efficient Camera Reward Feedback

1. 摘要翻译

CamPilot:通过高效的相机奖励反馈改进视频扩散模型中的相机控制

近期,相机控制的视频扩散模型在视频-相机对齐方面取得了显著进展。然而,相机可控性仍然有限。本文基于奖励反馈学习(Reward Feedback Learning, ReFL),旨在进一步提升相机可控性。然而,直接借鉴现有的ReFL方法面临几个挑战:首先,现有的奖励模型缺乏评估视频-相机对齐的能力;其次,将潜在表示解码为RGB视频以计算奖励会引入巨大的计算开销;第三,在视频解码过程中通常会忽略3D几何信息。为了解决这些局限性,我们引入了一个高效的相机感知3D解码器,该解码器将视频潜在表示解码为3D高斯(3D Gaussians, 3DGS),用于奖励量化。具体而言,视频潜在表示与相机位姿一起被解码为3D高斯。在此过程中,相机位姿不仅作为输入,还作为投影参数。视频潜在表示与相机位姿之间的不匹配会导致3D结构中的几何失真,从而产生模糊的渲染。基于此特性,我们明确地将渲染出的新视角与地面真实视角之间的像素级一致性作为奖励进行优化。为了适应随机性,我们还引入了一个可见性项,该项仅对通过几何变换得到的确定性区域进行选择性监督。在RealEstate10K和WorldScore基准上的广泛实验证明了我们提出的方法的有效性。项目主页:CamPilot Page。

2. 方法动机分析

  • 驱动力

    • 提升相机可控性:尽管视频扩散模型在生成高质量视频方面取得了巨大成功,但用户对相机轨迹的精确控制需求日益增长,尤其是在虚拟现实、机器人和游戏开发等领域。现有方法在实现精确相机控制方面仍存在不足。
    • 克服ReFL在相机控制上的挑战:将现有的奖励反馈学习(ReFL)方法应用于相机控制任务时,面临奖励模型能力不足、计算开销大以及忽略3D几何信息等问题。
  • 现有方法痛点

    • 奖励模型能力不足:现有的奖励模型难以有效评估视频内容与相机位姿之间的对齐程度。
    • 计算开销大:将视频潜在表示解码为RGB视频以计算奖励,需要大量的计算资源和显存(VRAM),效率低下。
    • 忽略3D几何信息:现有方法在解码过程中往往只关注2D像素信息,未能充分利用3D几何结构,这对于理解和控制相机运动至关重要。
    • 相机控制的局限性:现有相机控制方法往往难以实现精确控制,导致收敛效果不佳。
  • 研究假设

    • 通过将视频潜在表示与相机位姿结合,并解码为3D表示(如3D高斯),可以捕捉到视频内容与相机运动之间的几何一致性。
    • 当视频潜在表示与相机位姿不匹配时,3D表示会产生几何失真,导致渲染模糊。这一特性可以作为设计奖励信号的基础。
    • 利用3D表示进行渲染,并将其与地面真实视角进行比较,可以有效地量化视频-相机对齐程度,并用于指导模型优化。
    • 通过引入可见性掩码,可以规避生成过程中的随机性对像素级奖励的影响,从而更有效地监督确定性区域。

3. 方法设计详解

整体流程 (CamPilot)

CamPilot框架包含三个主要部分:

  1. 相机控制的视频扩散模型 (Camera Controlled I2V Model):用于生成视频。
  2. 相机感知3D解码器 (Camera-aware 3D Decoder):用于将视频潜在表示解码为3D高斯,支持渲染,并为奖励计算提供基础。
  3. 相机奖励优化 (Camera Reward Optimization):利用相机感知3D解码器生成的渲染结果,计算奖励信号,并反馈给扩散模型进行优化。

详细步骤:

  1. 相机控制的视频扩散模型训练 (Section 3.2)

    • 输入:原始视频(用于训练VAE)、文本/图像条件、相机控制信息(Plücker embedding)。
    • 相机控制注入:将相机信息(Plücker embedding)通过ControlNet [61]注入到扩散模型的U-Net结构中。Plücker embedding首先被压缩以匹配视频潜在表示的空间和时间维度。ControlNet的Transformer块从基础视频模型复制,并添加一个零初始化的线性层以稳定训练。为了提高效率和效果,仅使用了前几个Transformer块,并采用截断正态分布来偏置时间步采样,使其更倾向于早期去噪步骤(相机控制在此阶段最有效)。
    • 目标:优化扩散模型以预测噪声,使得生成的视频与给定的文本/图像条件以及相机控制信息对齐。损失函数为标准的去噪损失(L(0))。
  2. 相机感知3D解码器 (Camera-aware 3D Decoder) (Section 3.3)

    • 动机:克服直接解码为RGB视频的计算开销和信息损失,并引入3D几何信息。
    • 输入:视频潜在表示(由视频VAE编码得到)和对应的相机位姿(Plücker embedding)。
    • 核心组件:一个基于Transformer的**潜表示到3D高斯(3DGS)**的解码器。
    • 工作原理
      • 3DGS表示:3D高斯(3DGS)[20]是一种高效的3D场景表示方法,能够从任意视角进行渲染。
      • 投影机制
        • 相机位姿被转换为Plücker embedding,作为网络输入。
        • 相机位姿也用于计算3D高斯的位置。具体来说,3D高斯的位置是通过相机位姿和预测的深度值进行投影得到的。
      • 几何一致性:当视频潜在表示与相机位姿不匹配时,3DGS的几何结构会发生失真,导致渲染结果模糊。这一特性是设计奖励信号的关键。
    • 训练
      • 输入:随机采样的一段视频序列(T帧),其视频潜在表示和对应的Plücker embedding。
      • 输出:每像素对齐的3DGS。
      • 损失函数:结合了均方误差(MSE)和LPIPS [63]损失,以确保3DGS的准确性和视觉质量。
    • 与Wonderland [27]的区别:Wonderland使用类似的模型进行3D重建,而CamPilot将其用于相机奖励优化,目标是提升相机控制精度。
  3. 相机奖励优化 (Camera Reward Optimization - CRO) (Section 3.4)

    • 动机:利用ReFL框架,通过可微分的奖励模型来优化生成过程,以提高相机控制的精度。
    • 核心思想:最小化渲染出的新视角与地面真实视角之间的像素级差异,但需要处理生成过程的随机性。
    • 奖励计算流程
      • 渲染:使用相机感知3D解码器,将生成的视频潜在表示和相机位姿渲染成2D图像(Î)。
      • 可见性掩码 (Visibility Mask)
        • 目的:处理生成过程中的随机性(如新生成的内容可能与地面真实不完全一致),只对确定性区域进行监督。
        • 生成方法
          1. 利用相机感知3D解码器输出的3DGS,可以获得渲染的深度图。
          2. 通过几何变换(使用地面真实相机位姿和渲染深度),将当前帧的像素反投影到3D世界坐标系。
          3. 将这些3D点再投影回参考帧(通常是第一帧),并与参考帧的深度图进行比较。
          4. 如果投影深度与参考帧深度一致(在一定容差内),则认为该像素是可见的(确定性区域),否则为不可见(随机或遮挡区域)。
      • 奖励函数 (LCRO)
        • 将MSE和LPIPS损失限制在可见性掩码(M)覆盖的区域内。
        • $LCRO = \lambda_{MSE} \cdot LMSE(\hat{I}, I, M) + \lambda_{LPIPS} \cdot LLPIPS(\hat{I}, I, M)$
        • 其中,$\hat{I}$是渲染图像,$I$是地面真实图像,$M$是可见性掩码。
    • 反馈机制:计算出的奖励梯度用于更新相机控制的视频扩散模型,使其生成更符合相机条件的视频。

4. 方法对比分析

  • 本质区别

    • 3D表示用于奖励:CamPilot的核心创新在于引入了一个相机感知3D解码器,将视频潜在表示解码为3D高斯(3DGS),并利用其渲染结果来计算奖励。这与大多数现有方法(如VADER [33])直接将潜在表示解码为RGB视频进行奖励计算有本质区别。
    • 可见性掩码:为了解决生成随机性对像素级奖励的影响,CamPilot引入了可见性掩码,只对确定性区域进行监督,这是针对相机控制任务的独特设计。
    • 端到端优化:通过3D解码器和奖励优化,实现了端到端的相机控制优化,而非像一些方法那样依赖于离散的3D重建步骤。
  • 创新贡献

    • 高效的相机感知3D解码器:实现了计算效率和3D几何信息利用的平衡,为奖励计算提供了高质量的3D感知基础。
    • 可见性感知奖励:有效解决了生成模型随机性带来的奖励计算难题,使得像素级奖励在相机控制任务中更具鲁棒性。
    • 提升相机可控性:通过上述机制,显著提高了视频扩散模型在相机控制方面的精度和一致性。
  • 适用场景

    • 静态场景生成:论文主要关注静态场景的生成,如房地产视频。
    • 需要精确相机控制的任务:如虚拟现实漫游、产品展示、建筑可视化等需要用户精确控制相机运动的场景。
    • 对计算效率有一定要求:相比于纯粹的RGB解码,3DGS渲染在某些方面可能更高效,且可见性掩码的引入也提高了奖励计算的效率和有效性。

5. 实验分析

  • 验证方法

    • 数据集:RealEstate10K (RE10K) 用于训练和测试,WorldScore用于跨领域测试。
    • 评估指标
      • 视频生成质量:FID, FVD。
      • 新视角合成和3D重建:PSNR, LPIPS, SSIM。
      • 相机可控性:Rotation Error (Rerr), Translation Error (Terr)。
      • 场景生成:PSNR, LPIPS, SSIM (与地面真实视频比较)。
    • 消融实验:验证了ReFL、可见性掩码、3D解码器(新视角)等组件的有效性。
  • 关键结果

    • 定量结果:在RE10K和WorldScore基准上,CamPilot在FID、FVD、Rerr、Terr等多个指标上均显著优于MotionCtrl, CameraCtrl, ViewCrafter, FlexWorld等基线方法。尤其是在相机控制相关指标上,提升明显。
    • 定性结果:图4和图5展示了CamPilot生成的视频在相机对齐和视觉质量上优于其他方法。图6的消融实验表明,ReFL和可见性掩码对提升视觉质量和相机可控性至关重要。
    • 消融实验
      • ReFL:应用ReFL后,性能显著提升,表明奖励梯度有效。
      • 可见性掩码:移除可见性掩码后,性能下降,说明其在处理随机性方面的重要性。
      • 新视角:使用3D解码器渲染新视角作为监督,性能优于仅使用视频解码器。
  • 优势场景

    • 相机对齐:在需要精确遵循相机轨迹的场景下表现出色,如图12所示的WorldScore基准测试。
    • 3D一致性:生成的视频在3D结构上更加一致,即使在相机运动时也能保持较好的连贯性。
  • 局限性

    • 3D解码器性能限制:3D解码器的性能是ReFL上限的决定因素。论文中使用的4个Transformer块和在RE10K上的训练可能不是最优的。
    • 静态场景限制:该方法目前仅适用于静态场景的生成,无法处理动态场景的3D重建。
    • 计算开销:虽然比纯RGB解码更高效,但3DGS的训练和渲染仍有一定计算开销。

6. 实用指南

  • 开源情况:论文提到了“Project page: CamPilot Page”,暗示可能存在开源代码,但具体链接未在摘要中给出。在实际研究中,需要查找官方发布渠道。
  • 实现细节
    • 相机条件:使用Plücker embedding。
    • 扩散模型:基于CogVideoX-5B-I2V [56],并使用ControlNet [61]注入相机条件。
    • 3D解码器:4个Transformer块,隐藏维度1024。
    • 训练策略:多阶段训练,包括基础模型训练、3D解码器训练和ReFL微调。
    • 超参数:学习率、batch size、时间步采样策略等需要参考论文的Supplementary Material。
    • 可见性掩码容差:$\tau$需要根据具体任务和数据集进行调整。
  • 迁移可能
    • 相机控制:该方法的核心思想(相机感知3D解码器+可见性感知奖励)可以迁移到其他基于扩散模型的视频生成任务中,以提升相机控制能力。
    • 3D表示:3DGS作为一种高效的3D表示,可以用于其他需要3D感知和渲染的任务。
    • 奖励函数设计:可见性掩码的思想可以借鉴到其他需要处理生成随机性的奖励学习任务中。
    • Plücker embedding:虽然论文使用了Plücker embedding,但其方法框架可以适应其他相机表示形式。

7. 总结

  • 核心思想3D高斯渲染与可见性奖励,提升视频扩散模型相机控制精度。

  • 速记版pipeline

    1. 注入相机控制:将相机信息(Plücker embedding)加入视频扩散模型。
    2. 3D解码与渲染:用3D解码器将视频潜在表示转为3D高斯并渲染成图像。
    3. 计算可见性奖励:通过可见性掩码,只对确定性区域的渲染结果与真实结果的差异计算奖励。
    4. 反馈优化:用奖励信号反向传播,微调扩散模型以提高相机控制。

Key Findings:

  • To address these limitations, we introduce an efficient camera-aware 3D decoder that decodes video latent into 3D representations for reward quantization.
  • Based on this property, we explicitly optimize pixel-level consistency between the rendered novel views and ground-truth ones as reward.

Links:


Point Bridge: 3D Representations for Cross Domain Policy Learning

Authors: Siddhant Haldar, Lars Johannsmeier, Lerrel Pinto, Abhishek Gupta, Dieter Fox, Yashraj Narang, Ajay Mandlekar

Published: 2026-01-22

Categories: cs.RO

Abstract:

Robot foundation models are beginning to deliver on the promise of generalist robotic agents, yet progress remains constrained by the scarcity of large-scale real-world manipulation datasets. Simulation and synthetic data generation offer a scalable alternative, but their usefulness is limited by the visual domain gap between simulation and reality. In this work, we present Point Bridge, a framework that leverages unified, domain-agnostic point-based representations to unlock synthetic datasets for zero-shot sim-to-real policy transfer, without explicit visual or object-level alignment. Point Bridge combines automated point-based representation extraction via Vision-Language Models (VLMs), transformer-based policy learning, and efficient inference-time pipelines to train capable real-world manipulation agents using only synthetic data. With additional co-training on small sets of real demonstrations, Point Bridge further improves performance, substantially outperforming prior vision-based sim-and-real co-training methods. It achieves up to 44% gains in zero-shot sim-to-real transfer and up to 66% with limited real data across both single-task and multitask settings. Videos of the robot are best viewed at: https://pointbridge3d.github.io/

Analysis:

好的,我将以AI领域高水平研究生的视角,深入分析这篇论文的方法部分,重点关注其创新点、设计逻辑、优势与不足,并提供实用的实现指南。


论文方法分析与总结:《POINT BRIDGE: 3D REPRESENTATIONS FOR CROSS DOMAIN POLICY LEARNING》

1. 摘要翻译

POINT BRIDGE:面向跨域策略学习的3D表征

我们提出POINT BRIDGE,一个利用统一的、领域无关的点云表征来解锁大规模合成仿真数据集潜力的框架。POINT BRIDGE能够实现零样本(zero-shot)的仿真到真实(sim-to-real)策略迁移,且无需显式的视觉或物体对齐。它结合了通过视觉语言模型(VLMs)自动提取点云表征、基于Transformer的策略学习,以及高效的推理时流水线,以训练出能够执行真实世界操作的机器人代理。通过在少量真实演示数据上进行额外联合训练,POINT BRIDGE能够进一步提升性能,其表现远超先前基于视觉的仿真-真实联合训练方法。在单任务和多任务设置下,它在零样本仿真到真实迁移方面取得了高达44%的提升,在少量真实数据联合训练下则可达66%的提升。

2. 方法动机分析

  • 驱动力

    • 大规模真实世界机器人操作数据集的稀缺性:当前机器人领域在构建通用机器人代理方面面临瓶颈,主要原因是缺乏足够多且多样化的真实世界操作数据集。
    • 仿真数据的潜力与局限:仿真数据提供了可扩展的替代方案,但仿真与真实世界之间的“领域差距”(domain gap),特别是视觉上的不匹配,限制了其有效性。
    • 提升仿真到真实迁移的鲁棒性:现有方法往往需要精细的仿真与真实环境对齐,或者依赖于高度逼真的模拟器,这增加了实现难度和成本。
  • 现有方法痛点

    • 领域差距:仿真与真实世界的视觉外观、物体属性等存在差异,导致在仿真中训练的策略在真实世界表现不佳。
    • 对齐成本高:许多方法需要显式的视觉对齐(如相机标定、物体姿态估计)或环境对齐,这需要大量人工干预。
    • 数据依赖:部分方法虽然利用了合成数据,但仍需一定量的真实数据进行微调或联合训练。
    • 表征局限:传统的基于图像的表征难以跨越领域差异,而基于关键点的表征虽然有潜力,但现有方法常依赖人工标注,且在多任务场景下受限。
  • 研究假设

    • 统一的领域无关表征是关键:如果能找到一种能够跨越仿真和真实世界领域差异的统一表征,那么就可以有效地利用大规模仿真数据进行策略学习,并实现零样本的仿真到真实迁移。
    • 点云表征的潜力:点云作为一种3D表征,相比2D图像,可能更能捕捉到场景的几何信息,从而在跨域迁移中表现更好。
    • VLMs在表征提取中的作用:利用现代VLMs(如Gemini)的能力,可以自动化地从图像和语言指令中提取出任务相关的3D关键点,从而克服人工标注的瓶颈。

3. 方法设计详解

POINT BRIDGE 框架流程

POINT BRIDGE 框架旨在通过统一的点云表征实现跨域策略学习,其核心流程可以概括为三个阶段:

  1. 数据生成与预处理(Data Generation & Preprocessing)

    • 仿真数据生成
      • 使用MimicLabs等仿真环境构建原子任务(atomic tasks),每个任务包含不同物体实例。
      • 收集少量人类演示数据 $D_{src}$。
      • 利用MimicGen(Mandlekar et al., 2023)等技术,将 $D_{src}$ 扩展成大规模仿真数据集 $D_{sim}$。MimicGen通过对源演示中的物体姿态进行SE(3)变换来适应新场景中的物体配置,从而实现数据增强,保持了末端执行器与物体间的相对几何关系。
    • 真实世界数据收集(可选):收集少量真实世界演示数据 $D_{real}$ 用于联合训练。
    • 统一表征提取:将仿真和真实世界中的观测数据(图像、深度等)统一转换为紧凑的点云表征 $P$。
      • 仿真中:直接从仿真器获取物体网格(object meshes)的3D点。
      • 真实世界中:采用 VLM-Guided Scene Filtering 流水线提取。
  2. VLM-Guided Scene Filtering 流水线(用于真实世界数据和推理时)

    • 输入:初始场景图像 $I_0$ 和自然语言任务描述 $L$。
    • 任务相关物体识别:使用 Gemini-2.5-flash 等VLM识别出与任务相关的物体集合 ${O_1, ..., O_k}$。
    • 物体定位:使用 Molmo-7B 等模型将识别出的物体在图像中进行像素级定位 ${P^{o_1}, ..., P^{o_k}}$。
    • 2D分割:将像素坐标作为初始化,使用 SAM-2 等模型生成每个物体的2D分割掩码 ${m_1, ..., m_k}$。SAM-2的记忆模块有助于处理遮挡。
    • 3D关键点提取
      • 2D到3D投影:从每个物体的2D分割掩码中均匀采样2D点。
      • 深度估计:使用 Foundation Stereo (Wen et al., 2025) 等技术估计场景深度图 $D$。Foundation Stereo相比普通RGB-D传感器能提供更鲁棒的深度估计,尤其对反光物体。
      • 3D点提升:结合2D点、深度图、相机内参 $K$ 和外参 $R, t$,将2D点提升到3D空间,得到相机坐标系下的3D点。
      • 降采样:对每个物体应用 Farthest Point Sampling (FPS),将其降采样到 $M$ 个代表性点,以减少冗余并保持覆盖率。
      • 坐标系转换:将所有3D点转换到机器人基坐标系下,得到最终的3D点云表征 $P_{3D}$。
    • 机器人表征:机器人末端执行器也表示为一组关键点,其姿态通过机器人基坐标系下的刚性变换计算得出。
  3. 策略学习(Policy Learning)

    • 模型架构:采用 Decoder-only Transformer 架构,灵感来源于BAKU (Haldar et al., 2024)。
    • 输入编码
      • 物体点云:将提取的3D物体点云 $P_{obj}$ 和机器人点云 $P_{robot}$ 组合成一个点云 $P$。
      • PointNet编码器:使用PointNet (Qi et al., 2017) 对点云 $P$ 进行编码,生成一个统一的嵌入表示。
      • 语言嵌入(多任务):对于多任务设置,将自然语言指令 $L$ 编码为语言嵌入,使用如MiniLM等模型。
    • Transformer解码器:将编码后的点云嵌入和语言嵌入(如果适用)输入到Transformer解码器中。
    • 输出:一个确定性的动作头(deterministic action head),输出机器人末端执行器的姿态(如6D位姿)和抓手状态。
    • 训练目标:使用行为克隆(Behavioral Cloning)方法,通过最小化预测动作与真实动作之间的均方误差(MSE)来优化策略。动作输出采用指数时间平均(exponential temporal averaging)来保证平滑性。
  4. 策略部署(Policy Deployment)

    • 在真实世界部署时,使用与训练时相同的 VLM-Guided Scene Filtering 流水线实时提取3D点云表征。
    • 将提取的表征输入到训练好的Transformer策略中,输出机器人动作。
    • 框架支持多种3D传感策略(如Foundation Stereo、RGB-D相机、多视图三角测量),以在性能和吞吐量之间取得平衡。

关键组件与技术细节

  • VLM-Guided Scene Filtering:这是本工作的核心创新之一。它利用了大型视觉语言模型(VLMs)强大的视觉理解和语言理解能力,实现了自动化、低成本的任务相关物体识别和3D关键点提取,极大地降低了跨域迁移的门槛。
    • Gemini-2.5-flash:用于识别任务相关的物体类别。
    • Molmo-7B:用于精确的像素级物体定位。
    • SAM-2:用于生成高质量的2D物体分割掩码。
    • Foundation Stereo:用于鲁棒的深度估计,对反光和透明物体效果好。
  • 点云表征:将所有观测(物体、机器人)统一为3D点云,消除了不同模态(如图像、深度)的差异,并提供了比2D图像更丰富的几何信息。
  • Transformer架构:能够处理序列数据(历史观测)和点云嵌入,适合多任务学习和长序列依赖建模。
  • MimicGen:用于生成大规模、多样化的合成数据,是实现零样本迁移的基础。

4. 方法对比分析

  • 本质区别

    • 表征方式:POINT BRIDGE 使用领域无关的3D点云表征,而许多现有方法依赖于2D图像、RGB-D点云或需要人工标注的关键点。
    • 自动化程度:POINT BRIDGE 通过VLM流水线实现了自动化3D关键点提取,显著减少了对人工标注和精细对齐的需求,而Point Policy等方法仍依赖人工标注的关键点。
    • 跨域能力:POINT BRIDGE 的核心在于其统一表征和VLM引导的过滤机制,旨在直接桥接仿真与真实世界的视觉差异,实现零样本迁移,而许多方法需要更强的仿真逼真度或额外的对齐步骤。
    • 多任务能力:POINT BRIDGE 的Transformer架构天然支持多任务学习,通过语言指令进行条件化,而Point Policy主要关注单任务。
  • 创新贡献

    • VLM驱动的自动化3D表征提取:这是最主要的创新点,它使得从任意场景中提取任务相关的3D关键点成为可能,解决了人工标注的瓶颈,并为跨域迁移提供了强大的基础。
    • 统一的点云表征:将机器人和物体信息统一为点云,简化了策略学习的输入,并能更好地捕捉几何关系。
    • 零样本仿真到真实迁移的鲁棒性:通过上述机制,实现了在视觉差异较大的情况下,依然能保持良好的零样本迁移性能。
    • 有效的仿真-真实联合训练:即使在视觉不对齐的情况下,也能通过少量真实数据进一步提升性能。
  • 适用场景

    • 需要利用大规模仿真数据进行机器人策略学习的场景
    • 机器人操作任务,特别是涉及物体抓取、放置、组装等需要精确几何理解的任务
    • 希望减少人工标注和环境对齐成本的场景
    • 需要支持多任务操作的通用机器人代理
    • 对视觉鲁棒性要求较高的场景,例如存在背景干扰、光照变化等

5. 实验分析

  • 验证方法

    • 零样本仿真到真实迁移:在3个单任务和多任务设置下,评估POINT BRIDGE在仿真训练后直接在真实机器人上执行任务的能力。
    • 仿真-真实联合训练:在少量真实数据上进行微调,评估性能提升。
    • 与基线方法对比:与Point cloud baseline (BAKU-PCD) 和 Point track baseline (Point Policy) 进行比较。
    • 消融实验:分析了深度估计方法(Point Tracking, RGB-D, Foundation Stereo)、相机对齐方式(Aligned, Ground truth)、背景干扰、持有-关闭(held-out)物体、点数等关键设计选择的影响。
    • 多任务能力验证:在多个任务上进行联合训练和测试。
    • 软/关节物体任务:在fold towel, close drawer, put bowl in oven等任务上验证了方法的泛化性。
  • 关键结果

    • 零样本迁移:POINT BRIDGE 在单任务和多任务零样本仿真到真实迁移上,分别比最强基线提升了39%和44%。
    • 联合训练:与图像基线相比,POINT BRIDGE 在单任务和多任务联合训练下分别提升了61%和66%。
    • 鲁棒性
      • 在存在背景干扰的情况下,POINT BRIDGE 性能几乎不受影响,而BAKU-PCD则失效。
      • 对持有-关闭(held-out)物体(即在训练中未见过的物体实例)表现出很强的泛化能力,单任务成功率高达98%,多任务高达100%。
    • 多任务性能:多任务策略性能与单任务相当甚至更好,证明了其可扩展性。
    • 软/关节物体:在这些更具挑战性的任务上,POINT BRIDGE 取得了85%的成功率。
  • 优势场景

    • 视觉差异大的场景:论文强调,即使仿真和真实世界的视觉外观(如桌面、光照)差异很大,POINT BRIDGE 也能通过其场景过滤策略实现良好的迁移。
    • 需要处理反光/透明物体:Foundation Stereo的深度估计能力使得POINT BRIDGE能够处理这些挑战性物体。
    • 需要处理新物体实例:对训练中未见过的物体实例具有出色的泛化能力。
    • 多任务场景:其架构和表征方式使其能够自然地扩展到多任务设置。
  • 局限性

    • 对VLM的依赖:方法性能受限于所使用的VLM(Gemini, Molmo, SAM-2)的准确性和鲁棒性。VLM的失败可能导致整体失败。
    • 相机姿态对齐:虽然不需要精细的物体姿态对齐,但仍需要一定程度的相机姿态(外参)对齐来将点云转换到机器人基坐标系。如果相机姿态偏差过大,性能会下降(如Table 7所示)。
    • 计算开销:相比纯图像基线,点云处理和深度估计会增加一定的计算开销,导致控制频率较低(5Hz)。
    • 场景上下文丢失:点云表征可能丢失一些细粒度的场景上下文信息,这可能限制其在高度杂乱环境中的表现。
    • 动态场景:较低的控制频率可能不适合需要快速反馈的动态场景。

6. 实用指南

  • 开源情况:论文提到“All of our datasets, training, and evaluation code will be made publicly available.”,表明有开源计划,但具体链接未在正文中给出,需关注论文发布时的补充信息或作者主页。
  • 实现/复现的关键步骤
    1. 数据准备
      • 仿真数据:需要搭建或获取MimicLabs等仿真环境,并使用MimicGen生成大规模数据。
      • 真实数据:需要机器人平台、传感器(如ZED 2i相机)以及演示收集工具(如RoboTurk)。
    2. VLM流水线部署:需要集成Gemini, Molmo, SAM-2等模型,并确保Foundation Stereo的深度估计可用。这部分可能需要较强的工程能力。
    3. 模型训练:使用Transformer架构,PointNet编码器,并根据论文提供的超参数(如Table 5)进行训练。
    4. 策略部署:在真实机器人上部署,实时运行VLM流水线和训练好的策略。
  • 实现细节
    • 超参数:如学习率 $1e^{-4}$,批次大小16,训练步数300000,隐藏层维度256,历史长度1,动作头确定性,动作分块40(10Hz数据),每物体关键点128。
    • 数据预处理:确保点云数据格式统一,坐标系一致。
    • 训练细节:使用Adam优化器,MSE损失。
    • 传感器选择:Foundation Stereo在性能和鲁棒性上表现最佳,但控制频率较低。RGB-D相机控制频率高,但鲁棒性稍差。
  • 迁移可能
    • 迁移到其他任务非常可能。POINT BRIDGE 的核心在于其领域无关的点云表征和VLM驱动的自动化点提取流水线。只要能够定义任务(通过语言指令),并有相应的物体,理论上就可以通过VLM识别物体并提取点云,然后用训练好的策略进行尝试。对于新任务,可能需要重新收集少量演示数据进行微调(co-training)。
    • 迁移到其他机器人平台可能。需要适配新的机器人运动控制器和传感器。如果新平台有不同的末端执行器形状,可能需要重新定义机器人关键点表征。
    • 迁移到其他VLM可能。如果新的VLM在物体识别、定位和分割方面表现更好,可以直接替换流水线中的相应模块。

7. 总结

  • 核心思想VLM驱动的3D点云表征实现零样本跨域机器人策略迁移
  • 速记版pipeline
    1. 仿真生成数据:用MimicGen扩充数据。
    2. VLM提取3D点:用Gemini/Molmo/SAM-2识别并提取任务相关物体3D点。
    3. Transformer学策略:用点云和语言训练策略。
    4. 真实世界执行:直接部署,实现零样本迁移。

Key Findings:

  • In this work, we present Point Bridge, a framework that leverages unified, domain-agnostic point-based representations to unlock synthetic datasets for zero-shot sim-to-real policy transfer, without explicit visual or object-level alignment.

Links:


PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation

Authors: Onkar Susladkar, Tushar Prakash, Adheesh Juvekar, Kiet A. Nguyen, Dong-Hwan Jang, Inderjit S Dhillon, Ismini Lourentzou

Published: 2026-01-22

Categories: cs.CV, cs.AI

Abstract:

Discrete video VAEs underpin modern text-to-video generation and video understanding systems, yet existing tokenizers typically learn visual codebooks at a single scale with limited vocabularies and shallow language supervision, leading to poor cross-modal alignment and zero-shot transfer. We introduce PyraTok, a language-aligned pyramidal tokenizer that learns semantically structured discrete latents across multiple spatiotemporal resolutions. PyraTok builds on a pretrained video VAE and a novel Language aligned Pyramidal Quantization (LaPQ) module that discretizes encoder features at several depths using a shared large binary codebook, yielding compact yet expressive video token sequences. To tightly couple visual tokens with language, PyraTok jointly optimizes multi-scale text-guided quantization and a global autoregressive objective over the token hierarchy. Across ten benchmarks, PyraTok delivers state-of-the-art (SOTA) video reconstruction, consistently improves text-to-video quality, and sets new SOTA zero-shot performance on video segmentation, temporal action localization, and video understanding, scaling robustly to up to 4K/8K resolutions.

Analysis:

好的,我将以一名AI领域高水平研究生的视角,深入分析您提供的论文方法部分,并遵循您提出的分析框架。请提供论文内容,我将为您生成详细的分析报告。

Key Findings:

  • We introduce PyraTok, a language-aligned pyramidal tokenizer that learns semantically structured discrete latents across multiple spatiotemporal resolutions.
  • PyraTok builds on a pretrained video VAE and a novel Language aligned Pyramidal Quantization (LaPQ) module that discretizes encoder features at several depths using a shared large binary codebook, yielding compact yet expressive video token sequences.
  • Across ten benchmarks, PyraTok delivers state-of-the-art (SOTA) video reconstruction, consistently improves text-to-video quality, and sets new SOTA zero-shot performance on video segmentation, temporal action localization, and video understanding, scaling robustly to up to 4K/8K resolutions.

Links:


Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

Authors: Shengbang Tong, Boyang Zheng, Ziteng Wang, Bingda Tang, Nanye Ma, Ellis Brown, Jihan Yang, Rob Fergus, Yann LeCun, Saining Xie

Published: 2026-01-22

Categories: cs.CV

Abstract:

Representation Autoencoders (RAEs) have shown distinct advantages in diffusion modeling on ImageNet by training in high-dimensional semantic latent spaces. In this work, we investigate whether this framework can scale to large-scale, freeform text-to-image (T2I) generation. We first scale RAE decoders on the frozen representation encoder (SigLIP-2) beyond ImageNet by training on web, synthetic, and text-rendering data, finding that while scale improves general fidelity, targeted data composition is essential for specific domains like text. We then rigorously stress-test the RAE design choices originally proposed for ImageNet. Our analysis reveals that scaling simplifies the framework: while dimension-dependent noise scheduling remains critical, architectural complexities such as wide diffusion heads and noise-augmented decoding offer negligible benefits at scale Building on this simplified framework, we conduct a controlled comparison of RAE against the state-of-the-art FLUX VAE across diffusion transformer scales from 0.5B to 9.8B parameters. RAEs consistently outperform VAEs during pretraining across all model scales. Further, during finetuning on high-quality datasets, VAE-based models catastrophically overfit after 64 epochs, while RAE models remain stable through 256 epochs and achieve consistently better performance. Across all experiments, RAE-based diffusion models demonstrate faster convergence and better generation quality, establishing RAEs as a simpler and stronger foundation than VAEs for large-scale T2I generation. Additionally, because both visual understanding and generation can operate in a shared representation space, the multimodal model can directly reason over generated latents, opening new possibilities for unified models.

Analysis:

好的,我将按照您提供的分析框架,对这篇论文进行深入的方法分析。


论文方法分析:Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

1. 摘要翻译

标题: 基于表示自编码器的文本到图像扩散 Transformer 的扩展

摘要: 表示自编码器(RAEs)在图像生成领域,特别是在 ImageNet 数据集上,通过在高维语义潜在空间中进行训练,展现出了独特的优势。在本文中,我们探索了该框架是否能够扩展到大规模、自由形式的文本到图像(T2I)生成任务。我们首先在冻结的表示编码器(SigLIP-2)上扩展 RAE 解码器,超越了 ImageNet 的限制,并在网络、合成和文本渲染数据上进行训练。我们发现,虽然规模的提升可以改善通用保真度,但针对特定领域(如文本)的数据组合至关重要。随后,我们严格测试了最初为 ImageNet 提出的 RAE 设计选择。我们的分析表明,规模化简化了框架:虽然维度相关的噪声调度仍然至关重要,但诸如宽扩散头和噪声增强解码等架构复杂性在规模化时几乎没有益处。在此基础上,我们对 0.5B 到 9.8B 参数的扩散 Transformer 进行了与最先进的 FLUX VAE 的受控比较。在预训练阶段,RAEs 持续优于 VAEs。在高质量数据集上的微调过程中,基于 VAE 的模型在 64 个 epoch 后会灾难性地过拟合,而 RAE 模型在 256 个 epoch 后仍保持稳定并取得持续更好的性能。在所有实验中,基于 RAE 的扩散模型展现出更快的收敛速度和更好的生成质量,确立了 RAE 作为大规模 T2I 生成任务比 VAE 更简单、更强大的基础。此外,由于视觉理解和生成可以在共享的表示空间中进行,多模态模型可以直接推理生成的潜在表示,为统一模型开辟了新的可能性。

2. 方法动机分析

  • 驱动力

    • 现有潜在空间方法的局限性:传统的变分自编码器(VAEs)将图像压缩到低维潜在空间,这可能导致信息丢失,限制了生成质量和语义丰富性。
    • 高维表示的潜力:语言监督的自监督学习(SSL)等方法产生了高维、语义丰富的表示,这些表示在视觉理解任务上表现出色,但之前被认为对于生成任务“过于抽象”或“难以处理”。
    • RAE 在 ImageNet 上的成功:RAE [100] 证明了在冻结的高维表示编码器上训练解码器是可行的,并在 ImageNet 数据集上取得了良好的生成效果。
    • 扩展到 T2I 的需求:作者希望将 RAE 的优势扩展到更具挑战性、更开放的文本到图像(T2I)生成领域,该领域涉及更广泛的视觉多样性、开放式组合以及更大的模型规模。
  • 现有方法痛点

    • VAE 的信息瓶颈:低维 VAE 潜在空间限制了生成模型的容量和表达能力。
    • 高维表示的生成挑战:直接在高维、语义丰富的表示空间中进行生成被认为困难且不稳定。
    • ImageNet 上的局限性:在 ImageNet 这种受控、类别条件生成的数据集上的成功,不一定能直接迁移到更复杂、更自由的 T2I 任务。
  • 研究假设

    • RAE 框架能够扩展到大规模、自由形式的文本到图像生成任务。
    • 在高维语义潜在空间中进行扩散生成,可以带来比 VAE 更快的收敛速度和更好的生成质量。
    • 规模化(模型大小、数据量)会简化 RAE 的设计,使得一些为低容量模型设计的复杂组件变得不那么重要。
    • 共享的视觉理解和生成潜在空间可以带来统一模型的新能力。

3. 方法设计详解

流程总结

本文的核心方法是利用 Representation Autoencoder (RAE) 框架进行大规模文本到图像(T2I)生成。其流程可以分为两个主要阶段:

阶段一:RAE 解码器训练(Decoder Training)

  1. 冻结表示编码器 (Frozen Representation Encoder)

    • 作者使用一个强大的、预训练好的视觉表示编码器(如 SigLIP-2 [84] 或 WebSSL-DINO [26]),并将其冻结。这意味着编码器的权重在整个训练过程中不会被更新。
    • 这个编码器负责将输入图像映射到一个高维的、语义丰富的潜在表示空间。例如,SigLIP-2 ViT-So 的输出是 1152 维的 token。
  2. 训练 RAE 解码器 (Training RAE Decoder)

    • 作者训练一个轻量级的解码器,其任务是从冻结的表示编码器产生的高维潜在表示(例如,由 SigLIP-2 产生的 1152 维 token)重建原始图像
    • 训练目标:结合了多种损失函数,包括:
      • $l_1$ 损失:直接衡量重建图像与原始图像之间的像素级差异。
      • LPIPS 损失 [99]:衡量感知上的相似性,捕捉更高级别的视觉特征。
      • Gram Loss [29]:通过匹配特征图的 Gram 矩阵来匹配纹理和风格。
      • Adversarial Loss [33, 68]:使用一个判别器来区分真实图像和重建图像,以提高生成图像的真实感。
    • 数据:为了实现 T2I 的泛化能力,作者不再局限于 ImageNet,而是使用了更广泛的数据集,包括:
      • ImageNet 数据集。
      • 网络图像数据(如 FuseDiT [77] 的数据源)。
      • 合成图像数据(如 FLUX.1-schnell [46] 生成的)。
      • 文本渲染图像数据(如 RenderedText [87]),这对于 T2I 中的文本生成至关重要。
    • 模型架构:解码器通常是一个 Transformer 架构(如 ViT-XL [22]),但其参数量远小于编码器。

阶段二:统一模型训练(Unified Model Training)

  1. T2I 生成模型架构

    • 作者采用了 MetaQuery 框架 [56],这是一个用于 T2I 生成的统一模型。
    • 核心组件
      • 预训练语言模型 (LLM):如 Qwen-2.5 [61],负责理解文本提示。
      • 扩散 Transformer (DiT) [58]:这是生成模型的核心,它在高维 RAE 潜在空间中进行扩散过程。
      • 可学习的 Query Tokens:这些 tokens(例如,256 个)被添加到文本提示中,作为 LLM 和 DiT 之间的桥梁,帮助引导生成过程。
      • RAE 解码器:在推理时,DiT 生成的潜在表示被送入在阶段一训练好的 RAE 解码器,最终生成像素图像。
  2. 训练目标

    • 图像生成:采用 Flow Matching [47, 51] 作为扩散模型的训练目标。Flow Matching 是一种替代传统 DDPM 目标函数的方法,它直接学习一个连续的向量场,使得数据分布能够通过一个 ODE(常微分方程)从噪声分布映射到目标分布。
      • 公式:$t_m = \frac{\alpha t_n}{1 + (\alpha-1)t_n}$,其中 $t_n$ 是基础时间步,$\alpha$ 是一个缩放因子,用于调整时间步以适应高维潜在空间。
      • 目标是预测速度 $v(x_t, t)$,其中 $x_t$ 是扩散过程中的中间状态。
    • 文本预测:使用交叉熵 (CE) Loss 来训练 LLM 部分,以预测文本。
  3. 训练流程

    • 预训练 (Pretraining)
      • 作者在大量的(通常是网络规模的)文本-图像对数据上进行训练。
      • LLM 和 DiT 模型(以及连接它们的 MLP)被一起训练。
      • RAE 解码器在此阶段保持冻结,因为它已经在阶段一被训练好。
      • 目标是让 DiT 学习在 RAE 潜在空间中生成与文本提示匹配的表示。
    • 微调 (Finetuning)
      • 在预训练完成后,模型会在一个更小、更高质量的数据集上进行微调,以进一步提升生成质量。
      • 在此阶段,LLM 和 DiT 模型都会被更新。

模型结构

  • 表示编码器 (Representation Encoder)

    • 功能:将输入图像映射到高维语义潜在空间。
    • 特点:冻结,预训练(如 SigLIP-2, WebSSL-DINO)。维度通常很高(如 1152 维)。
    • 重要性:提供了一个丰富的、语义结构化的潜在表示,这是 RAE 的基础。
  • RAE 解码器 (RAE Decoder)

    • 功能:将高维潜在表示映射回像素空间。
    • 特点:轻量级,训练有素,使用多种损失函数($l_1$, LPIPS, Gram, Adversarial)。
    • 重要性:将高维潜在表示转化为可感知图像的关键桥梁。
  • LLM (Large Language Model)

    • 功能:理解文本提示,并与扩散模型交互。
    • 特点:预训练,通常会增加一个 projection layer 将其输出映射到 DiT 的输入空间。
    • 重要性:提供文本理解能力,引导图像生成。
  • 扩散 Transformer (DiT)

    • 功能:在 RAE 潜在空间中执行扩散过程,生成与文本提示匹配的潜在表示。
    • 特点:基于 Transformer 架构,通常具有较大的模型容量(数十亿参数)。使用 Flow Matching 作为训练目标。
    • 重要性:是生成模型的核心,负责在高维空间中进行去噪和生成。
  • Query Tokens

    • 功能:作为 LLM 和 DiT 之间的接口,帮助 LLM 将文本信息注入到扩散过程中。
    • 特点:可学习的 tokens,数量固定(例如 256 个)。
    • 重要性:增强了文本条件对生成过程的控制。

算法解释

  • RAE 框架

    • 核心思想是利用一个强大的、预训练的视觉编码器(如 SigLIP-2)来提取高维语义特征,然后训练一个解码器来从这些特征重建图像。
    • 与 VAE 不同,RAE 的编码器是冻结的,并且输出的潜在空间维度通常远高于 VAE 的压缩维度。
    • 这使得生成模型可以在一个更丰富、更具语义的潜在空间中操作。
  • Flow Matching

    • 一种用于训练生成模型的替代方法,旨在学习一个连续的向量场(或称为“流”),该向量场将一个简单的、已知的概率分布(如高斯噪声)映射到目标数据分布。
    • 它通过最小化一个ODE (常微分方程) 的解与一个条件向量场之间的差异来训练。
    • 相比于 DDPM 的离散时间步去噪,Flow Matching 可以更直接地学习数据分布的连续变换,有时能带来更快的收敛和更好的性能。
    • 公式 $t_m = \frac{\alpha t_n}{1 + (\alpha-1)t_n}$ 是 RAE 框架中用于维度相关的噪声调度(noise scheduling)。它根据潜在空间的维度($m$)来调整扩散过程的时间步($t_n$),以适应高维空间的特性。作者发现这种调整对于在高维潜在空间中实现稳定和高效的扩散至关重要。

4. 方法对比分析

  • 本质区别

    • 潜在空间:RAE 使用高维、语义丰富的表示编码器的输出作为潜在空间,而 VAE 使用低维、压缩过的潜在空间
    • 编码器:RAE 的编码器是冻结的预训练模型,而 VAE 的编码器是与解码器一起训练的
    • 训练范式:RAE 的解码器训练是独立于生成模型训练的(先训练解码器,再训练生成模型),而 VAE 的编码器和解码器是端到端训练的
    • 数据依赖:RAE 在 T2I 中对数据组合(特别是文本渲染数据)的敏感性比 VAE 更高。
  • 创新贡献

    • 将 RAE 框架成功扩展到大规模 T2I 生成:证明了 RAE 在处理复杂、开放式生成任务上的可行性和优势。
    • 系统性地分析了 RAE 设计选择在 T2I 规模化下的重要性:发现维度相关的噪声调度是关键,而一些为小模型设计的复杂组件(如宽扩散头、噪声增强解码)在规模化后收益递减。
    • 在预训练和微调阶段均证明 RAE 优于 VAE:在收敛速度、生成质量和对过拟合的鲁棒性方面都表现出优势。
    • 提出了统一模型的新可能性:通过共享高维潜在空间,实现了模型在理解和生成上的统一,并探索了潜在空间内的测试时缩放(Latent Test-Time Scaling)。
  • 适用场景

    • 大规模、自由形式的文本到图像生成:这是本文的核心应用场景。
    • 需要高质量、语义丰富的生成结果:RAE 的高维潜在空间能够捕捉更多细节和语义信息。
    • 对训练效率和鲁棒性有要求:RAE 在预训练和微调阶段都展现出更快的收敛和更好的抗过拟合能力。
    • 希望构建统一的多模态模型:共享的潜在空间为理解和生成任务的融合提供了基础。

5. 实验分析

  • 验证方法

    • 数据组合实验:通过在不同数据源(ImageNet, Web, Synthetic, Text)上训练 RAE 解码器,评估其对不同领域(自然图像、文本渲染)的重建能力。
    • 设计选择分析:在 T2I 规模化设置下,分别移除或评估维度相关的噪声调度、噪声增强解码、宽扩散头(DiTDH)等组件的影响。
    • 与 SOTA VAE 的比较:在相同的模型规模、数据和训练设置下,将 RAE-based 模型与 FLUX VAE 进行预训练和微调阶段的全面比较。
    • 模型规模扩展实验:在不同 DiT 模型大小(0.5B 到 9.8B)和 LLM 大小(1.5B 到 7B)下,比较 RAE 和 VAE 的性能。
    • 微调鲁棒性实验:在不同 epoch 数量下,观察 RAE 和 VAE 模型在微调阶段的性能变化,特别是过拟合现象。
    • 统一模型能力验证:通过 Latent Test-Time Scaling 实验,展示了在共享潜在空间中进行推理和选择的可能性。
  • 关键结果

    • 数据组合的重要性:仅 ImageNet 数据不足以处理 T2I 的复杂性,添加 Web 和 Synthetic 数据能提升通用图像质量,但文本渲染数据对于文本生成至关重要
    • 规模化简化设计:维度相关的噪声调度是必需的,而 DiTDH 和噪声增强解码在大规模模型下收益递减
    • RAE 优于 VAE
      • 预训练:RAE 模型收敛速度更快(GenEval 快 4.0x,DPG-Bench 快 4.6x),且在所有模型规模下性能都优于 VAE。
      • 微调:RAE 模型在 256 epoch 后仍保持稳定,而 VAE 在 64 epoch 后开始显著过拟合。RAE 在 GenEval 和 DPG-Bench 上持续优于 VAE。
    • LLM 规模化收益:在 RAE 框架下,LLM 规模化(从 1.5B 到 7B)能带来更显著的性能提升,尤其是在与大型 DiT 模型结合时。
    • 共享潜在空间的优势:统一模型可以在共享的语义空间中进行理解和生成,支持了 Latent Test-Time Scaling 等新颖的应用。
  • 优势场景

    • 大规模 T2I 生成:在 0.5B 到 9.8B 参数的 DiT 模型上,RAE 始终优于 VAE。
    • 需要高保真度和语义准确性的生成:RAE 的高维潜在空间能捕捉更多细节。
    • 对训练稳定性要求高:RAE 在长期微调中表现出更好的抗过拟合能力。
    • 需要统一理解和生成能力:共享潜在空间为多模态任务提供了基础。
  • 局限性

    • 数据敏感性:RAE 对训练数据的组成非常敏感,特别是对于特定领域(如文本)需要专门的数据。
    • 编码器选择:虽然 RAE 对编码器选择具有一定的鲁棒性(如 WebSSL-DINO),但编码器的质量仍然是关键。
    • 计算开销:虽然 RAE 在某些方面(如收敛速度)更高效,但高维潜在空间的表示和处理仍然需要相当大的计算资源。
    • 对编码器依赖:RAE 的性能很大程度上依赖于预训练表示编码器的质量和特性。

6. 实用指南

  • 开源情况:论文作者表示将发布所有代码、数据和模型检查点,以促进开放和可复现的研究。
  • 实现细节
    • 编码器:选择一个强大的、预训练的视觉表示编码器(如 SigLIP-2, WebSSL-DINO)。
    • 解码器训练:使用 $l_1$, LPIPS, Gram, Adversarial 损失,并注意数据组合,特别是文本渲染数据。
    • T2I 模型:采用 MetaQuery 框架,使用 LLM + DiT + Query Tokens 的架构。
    • 扩散目标:使用 Flow Matching,并应用维度相关的噪声调度。
    • 超参数:注意 LLM 和 DiT 的优化器设置、学习率调度、batch size 等。论文 Appendix A 提供了详细的实现细节和超参数。
    • 模型规模:在选择 DiT 和 LLM 的规模时,需要权衡计算资源和性能需求。
  • 迁移可能
    • 其他生成任务:RAE 的核心思想(在高维语义空间中进行生成)可以迁移到其他生成任务,如图像编辑、视频生成等,前提是存在合适的预训练表示编码器。
    • 不同模态:如果存在跨模态的预训练表示编码器,RAE 的思想也可以应用于其他模态的生成任务。
    • 统一模型:RAE 框架为构建更通用的统一多模态模型提供了坚实的基础,可以探索更多在共享潜在空间中的任务。

7. 总结

  • 核心思想:在高维语义空间中进行扩散生成,实现 T2I 的高效、高质量生成。
  • 速记版 pipeline
    1. 冻结强编码器:用预训练模型提取高维图像特征。
    2. 训练高维解码器:让解码器学会从特征重建图像。
    3. 用文本引导扩散:在特征空间用扩散模型生成文本匹配的特征。
    4. 解码生成图像:用训练好的解码器将特征转为图像。

Key Findings:

  • Our analysis reveals that scaling simplifies the framework: while dimension-dependent noise scheduling remains critical, architectural complexities such as wide diffusion heads and noise-augmented decoding offer negligible benefits at scale Building on this simplified framework, we conduct a controlled comparison of RAE against the state-of-the-art FLUX VAE across diffusion transformer scales from 0.5B to 9.8B parameters.
  • Additionally, because both visual understanding and generation can operate in a shared representation space, the multimodal model can directly reason over generated latents, opening new possibilities for unified models.

Links:


IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance

Authors: Jongwoo Park, Kanchana Ranasinghe, Jinhyeok Jang, Cristina Mata, Yoo Sung Jang, Michael S Ryoo

Published: 2026-01-22

Categories: cs.RO

Abstract:

Many Vision-Language-Action (VLA) models flatten image patches into a 1D token sequence, weakening the 2D spatial cues needed for precise manipulation. We introduce IVRA, a lightweight, training-free method that improves spatial understanding by exploiting affinity hints already available in the model's built-in vision encoder, without requiring any external encoder or retraining. IVRA selectively injects these affinity signals into a language-model layer in which instance-level features reside. This inference-time intervention realigns visual-token interactions and better preserves geometric structure while keeping all model parameters fixed. We demonstrate the generality of IVRA by applying it to diverse VLA architectures (LLaRA, OpenVLA, and FLOWER) across simulated benchmarks spanning both 2D and 3D manipulation (VIMA and LIBERO) and on various real-robot tasks. On 2D VIMA, IVRA improves average success by +4.2% over the baseline LLaRA in a low-data regime. On 3D LIBERO, it yields consistent gains over the OpenVLA and FLOWER baselines, including improvements when baseline accuracy is near saturation (96.3% to 97.1%). All code and models will be released publicly. Visualizations are available at: jongwoopark7978.github.io/IVRA

Analysis:

好的,作为计算机视觉和机器学习领域的专家,我将根据您提供的论文摘要进行深入分析。

论文摘要分析:IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance

1. 论文的主要贡献 (2-3句话的简洁总结)

该论文提出了一种名为 IVRA 的轻量级、无需训练的方法,旨在解决现有视觉-语言-动作 (VLA) 模型在处理机器人精确操作时,因将图像展平为一维 token 序列而丢失二维空间信息的问题。IVRA 通过利用模型内置视觉编码器中已有的亲和力提示,在推理时选择性地将这些空间信号注入到语言模型层,从而在不改变模型参数的情况下,改善视觉-语言交互,更好地保留几何结构,提升机器人动作策略的性能。

2. 关键创新或方法论

IVRA 的核心创新在于其训练无关 (training-free)基于提示的引导 (hint-based guidance) 方法,其关键点在于:

  • 利用内置的亲和力提示 (Exploiting Built-in Affinity Hints): 论文的核心洞察是,现有的视觉编码器(如 ViT 的自注意力机制)已经隐式地学习到了图像 patch 之间的空间关系(即亲和力)。IVRA 并没有引入新的外部编码器或进行额外的训练来获取这些信息,而是直接从模型内部提取这些“提示”。
  • 选择性注入 (Selective Injection): IVRA 将这些提取到的亲和力信号,以一种精心设计的方式,注入到 VLA 模型中的语言模型层。这个注入点很关键,因为语言模型层通常负责处理实例级别的特征,而这些特征与具体的动作指令和目标相关。通过在这个层级注入空间信息,可以更有效地将视觉的几何结构与语言指令对齐。
  • 推理时干预 (Inference-Time Intervention): 整个过程在推理阶段完成,这意味着 IVRA 可以应用于任何预训练好的 VLA 模型,而无需对其进行微调或重新训练。这极大地降低了方法的门槛和计算成本,并使其具有高度的通用性。
  • 保留几何结构 (Preserving Geometric Structure): 通过这种方式,IVRA 能够“重塑”或“增强”视觉 token 与语言 token 之间的关系,使其更能反映原始图像的二维空间布局,从而为机器人执行精确操作提供更准确的几何上下文。

3. 对该领域的潜在影响

IVRA 的提出可能对 VLA 模型和机器人控制领域产生显著影响:

  • 提升 VLA 模型在精确操作任务中的性能: 许多 VLA 模型在需要精细空间理解的任务(如抓取、放置、导航等)上表现不佳,IVRA 提供了一种简单而有效的方法来弥补这一不足,有望显著提升这些任务的成功率和鲁棒性。
  • 降低 VLA 模型部署的门槛: 训练无关的特性意味着研究人员和工程师可以更容易地将 IVRA 应用到现有的 VLA 模型上,而无需昂贵的计算资源和大量标注数据进行再训练。这加速了 VLA 技术在实际机器人应用中的落地。
  • 推动对 VLA 模型内部机制的理解: IVRA 的成功表明,现有模型中可能蕴含着丰富的、未被充分利用的空间信息。这可能会激发更多研究去探索如何更好地提取和利用这些内置的“提示”,从而更深入地理解 VLA 模型的工作原理。
  • 促进通用机器人学习: 通过在不同 VLA 架构和不同维度的任务(2D/3D)上都取得良好效果,IVRA 展示了其方法的通用性,为构建更通用的机器人学习系统提供了新的思路。

4. 可能受益的相关领域或应用

除了论文中提到的机器人动作策略,IVRA 的方法论还可以应用于以下相关领域:

  • 视觉问答 (Visual Question Answering - VQA): 特别是那些需要理解图像中物体空间关系的问题,例如“左边的物体是什么?”或“哪个物体在另一个物体的后面?”。
  • 图像字幕生成 (Image Captioning): 能够生成更具空间描述性的字幕,例如“一个杯子放在桌子的右侧”。
  • 视觉推理 (Visual Reasoning): 需要理解图像中元素之间复杂空间交互的任务。
  • 场景理解 (Scene Understanding): 提升对复杂三维场景中物体位置、朝向和相互关系的理解。
  • 增强现实 (Augmented Reality - AR) 和虚拟现实 (Virtual Reality - VR): 在 AR/VR 中,精确的空间理解对于用户交互和沉浸式体验至关重要。
  • 自动驾驶: 理解车辆、行人、障碍物之间的相对位置和运动轨迹。

5. 从摘要中可以推断出的局限性

尽管 IVRA 听起来非常有前景,但从摘要中可以推断出一些潜在的局限性:

  • 对“亲和力提示”的依赖性: IVRA 的有效性很大程度上依赖于模型内置视觉编码器中“亲和力提示”的质量和可提取性。如果基础模型的视觉编码器本身在捕获空间关系方面存在固有缺陷,IVRA 的效果可能会受到限制。
  • 注入机制的普适性: 虽然论文声称适用于多种 VLA 架构,但注入信号的具体方式和效果可能因模型架构的差异而有所不同。可能需要针对特定架构进行一定程度的调整或优化。
  • “低数据稀疏”的定义: 论文提到在“低数据稀疏” (low-data regime) 下,IVRA 对 LLaRA 进行了改进。但“低数据稀疏”的具体阈值和定义并未明确,这可能影响对改进幅度的客观评估。
  • 计算开销的增加: 尽管是训练无关,但推理时注入信号的过程仍然会增加一定的计算开销。虽然论文称其为“轻量级”,但具体增加的推理延迟需要进一步评估。
  • 对复杂几何结构的捕捉能力: 对于非常复杂或非欧几里得的空间关系,IVRA 的“亲和力提示”是否足够捕捉到所有细节仍有待验证。
  • “饱和”情况下的改进幅度: 在 3D LIBERO 任务中,即使基线准确率已接近饱和(96.3% 到 97.1%),IVRA 仍能带来提升。这表明 IVRA 能够进一步挤压模型的性能上限,但这种提升的幅度(0.8%)可能在某些应用场景下被认为是微小的。

总而言之,IVRA 是一项非常有价值的研究,它通过一种巧妙且高效的方法,解决了 VLA 模型在处理需要精确空间理解的任务时的一个关键瓶颈。其训练无关的特性使其具有广泛的应用前景,并可能推动 VLA 技术在机器人领域的进一步发展。

Key Findings:

  • We introduce IVRA, a lightweight, training-free method that improves spatial understanding by exploiting affinity hints already available in the model's built-in vision encoder, without requiring any external encoder or retraining.
  • We demonstrate the generality of IVRA by applying it to diverse VLA architectures (LLaRA, OpenVLA, and FLOWER) across simulated benchmarks spanning both 2D and 3D manipulation (VIMA and LIBERO) and on various real-robot tasks.

Links:


Provable Robustness in Multimodal Large Language Models via Feature Space Smoothing

Authors: Song Xia, Meiwen Ding, Chenqi Kong, Wenhan Yang, Xudong Jiang

Published: 2026-01-22

Categories: cs.LG, cs.CV

Abstract:

Multimodal large language models (MLLMs) exhibit strong capabilities across diverse applications, yet remain vulnerable to adversarial perturbations that distort their feature representations and induce erroneous predictions. To address this vulnerability, we propose the Feature-space Smoothing (FS) and theoretically prove that FS offers certified robustness on the feature representations of MLLMs. Specifically, FS transforms any feature encoder into a smoothed variant that is guaranteed to maintain a certified lower bound on the feature cosine similarity between clean and adversarial representations under $\ell_2$-bounded attacks. Moreover, we indicate that the value of this Feature Cosine Similarity Bound (FCSB) derived from FS can be improved by enlarging the defined Gaussian robustness score on the vanilla encoder. Building upon this, we introduce the Purifier and Smoothness Mapper (PSM), a plug-and-play module that improves the Gaussian robustness score of MLLMs and thus enhances their certified robustness under FS, without requiring any retraining on MLLMs. We demonstrate that the FS with PSM not only provides a strong theoretical robustness guarantee but also exhibits superior empirical performance compared to adversarial training. Extensive experiments across diverse MLLMs and downstream tasks indicate the effectiveness of the FS-PSM, reducing the Attack Success Rate (ASR) of various white-box attacks from nearly 90% to about 1%.

Analysis:

好的,我将以一名AI领域高水平研究生的视角,深入分析这篇关于“Provable Robustness in Multimodal Large Language Models via Feature Space Smoothing”的论文,重点关注其方法创新点、设计逻辑、优势与不足,并提供实用的分析和指导。


论文方法分析与总结:《Provable Robustness in Multimodal Large Language Models via Feature Space Smoothing》

1. 摘要翻译

中文翻译:

通过特征空间平滑实现多模态大语言模型的可证明鲁棒性

多模态大语言模型(MLLMs)在各种应用中展现出强大的能力,但它们仍然容易受到对抗性扰动的攻击,这些扰动会扭曲其特征表示并导致错误的预测。为了解决这种脆弱性,我们提出了特征空间平滑(FS)方法,并从理论上证明FS能够为MLLMs的特征表示提供可证明的鲁棒性。具体来说,FS将任何特征编码器转换为一个平滑的变体,该变体保证在l2范数约束的攻击下,干净和对抗性表示之间的特征余弦相似度保持一个可证明的下界。此外,我们表明,这个由FS推导出的特征余弦相似度界(FCSB)可以通过增大原始编码器上定义的Gauss鲁棒性分数来提高。在此基础上,我们引入了净化器和光滑度映射器(PSM)模块,这是一个即插即用的模块,可以在不重新训练MLLMs的情况下,提高MLLMs的Gauss鲁棒性分数,从而增强其FS下的可证明鲁棒性。我们证明,FS结合PSM不仅提供了强大的理论鲁棒性保证,而且在经验性能上优于对抗性训练。在对各种MLLMs和下游任务进行的广泛实验表明,FS-PSM的有效性,将各种白盒攻击的攻击成功率(ASR)从近90%降低到约1%。

2. 方法动机分析

  • 驱动力

    • MLLMs在多模态理解和生成方面取得了巨大成功,但其在实际应用中面临严峻的安全挑战,即对抗性攻击。
    • 现有的对抗性攻击能够通过微小扰动操纵MLLMs的预测,暴露了模型在局部平滑性和Lipschitz连续性方面的不足。
    • 需要一种能够提供可证明鲁棒性的防御方法,而不仅仅是经验上的鲁棒性。
  • 现有方法痛点

    • 经验性防御(如对抗性训练、输入净化)
      • 虽然在经验上有效,但对于MLLMs的异构输入特性,确保鲁棒编码器能够泛化到各种场景具有挑战性且计算成本高昂。
      • 缺乏形式化的鲁棒性保证,容易受到更强或自适应的攻击者。
      • 对抗性训练通常需要昂贵的重新训练,并可能导致干净性能下降。
    • 可证明防御(如高斯平滑)
      • 传统的高斯平滑方法主要针对一维输出(如分类标签)的分类模型,其理论框架限制了其在多模态生成或回归等更通用任务上的适用性。
      • 估计高斯平滑所需的概率分布需要大量的计算开销(多次前向传播)。
  • 研究假设

    • 核心假设:模型的鲁棒性与其特征表示的局部平滑性密切相关。如果模型的特征编码器能够保证干净输入和对抗性输入产生的特征表示之间的相似度(例如,余弦相似度)有一个下界,那么模型的预测就能获得一定程度的鲁棒性。
    • 关键直觉:通过在特征空间进行平滑处理,可以比在整个模型或输出层进行平滑更高效、更通用地提升MLLMs的鲁棒性。

3. 方法设计详解

方法Pipeline:特征空间平滑(FS) + 净化器与光滑度映射器(PSM)

该方法的核心是两个主要组件:特征空间平滑(FS)作为理论框架,以及净化器与光滑度映射器(PSM)作为实现和增强FS的实用工具。

3.1. 特征空间平滑 (Feature-space Smoothing, FS)

  • 目标:将任何MLLM的特征编码器 $f_e: x \rightarrow z$ 转换为一个平滑的编码器 $f'_e$,该平滑编码器能够保证在 $l_2$ 范数约束的对抗性扰动下,干净特征 $f_e(x)$ 和对抗性特征 $f_e(x')$ 之间的余弦相似度有一个可证明的下界(FCSB)。

  • 流程

    1. 定义平滑特征编码器 $f'_e(x)$

      • 对于一个给定的特征编码器 $f_e$,其输出的特征向量 $z$ 被归一化到 $l_2$ 单位球上。
      • FS通过对输入 $x$ 添加高斯噪声 $\epsilon \sim \mathcal{N}(0, \sigma^2 I)$,然后取期望来定义平滑的特征编码器: $$ f'e(x) = \mathbb{E}{\epsilon \sim \mathcal{N}(0, \sigma^2 I)} [f_e(x + \epsilon)] $$
      • 这个操作可以理解为对特征编码器进行“高斯平滑”,使其输出的特征表示更加平滑,对输入的小扰动不那么敏感。
    2. 定义Gauss鲁棒性分数 $\hat{S}(x)$

      • 首先定义一个分数函数 $S_{x_t}(x)$ 来衡量输入 $x$ 和目标输入 $x_t$ 的特征差异: $$ S_{x_t}(x) = (1 + \cos(f_e(x), f_e(x_t))) $$ 其中 $\cos(\cdot, \cdot)$ 是余弦相似度。
      • Gauss鲁棒性分数 $\hat{S}(x)$ 是在输入 $x$ 上添加高斯噪声 $\epsilon$ 后,特征表示与原始干净特征 $f_e(x)$ 之间余弦相似度的期望: $$ \hat{S}(x) = \mathbb{E}{\epsilon \sim \mathcal{N}(0, \sigma^2 I)} [S{x}(x + \epsilon)] = \mathbb{E}_{\epsilon \sim \mathcal{N}(0, \sigma^2 I)} \left[ \frac{1 + \cos(f_e(x + \epsilon), f_e(x))}{2} \right] $$
      • $\hat{S}(x)$ 的值域在 $[0, 1]$ 之间。它衡量了原始特征编码器在面对高斯噪声时的“一致性”或“鲁棒性”。
    3. 理论保证(Theorem 1)

      • FS保证平滑后的特征编码器 $f'_e$ 能够维持一个特征余弦相似度下界(FCSB),该下界与原始编码器的Gauss鲁棒性分数 $\hat{S}(x)$ 相关。具体来说,对于干净输入 $x$ 和 $l_2$ 范数有界($|x' - x|_2 \le \epsilon$)的对抗性输入 $x'$,有: $$ \cos(f'_e(x'), f'_e(x)) \ge 2\Phi^{-1}(\hat{S}(x)) - \epsilon - 1 $$ 其中 $\Phi^{-1}$ 是标准正态累积分布函数的逆函数。
      • FCSB 被定义为 $2\Phi^{-1}(\hat{S}(x)) - \epsilon - 1$。这个下界表明,即使存在对抗性扰动,干净特征和对抗性特征的余弦相似度也不会低于某个阈值。
      • 关键洞察:通过最大化原始编码器的Gauss鲁棒性分数 $\hat{S}(x)$,可以有效地提高FCSB的值,从而增强FS提供的可证明鲁棒性。
    4. 可证明半径(Corollary 1)

      • 论文还推导了一个可证明的半径 $R$,使得当扰动 $|x' - x|_2 \le R$ 时,余弦相似度保证大于0.5。 $$ R = \Phi^{-1}(\hat{S}(x)) - \Phi^{-1}(0.75) $$
  • 优势

    • 效率:相比于对整个MLLM进行平滑,只平滑特征编码器(通常更轻量级)大大降低了计算成本。
    • 通用性:FS提供的是特征表示层面的鲁棒性保证,因此可以应用于各种下游任务(如图像字幕、分类、视觉问答),而无需修改任务特定的头部。
    • 有效性:特征表示在最终预测中起着关键作用,保证特征表示的鲁棒性可以有效提升模型的预测可靠性和鲁棒性。

3.2. 净化器与光滑度映射器 (Purifier and Smoothness Mapper, PSM)

  • 动机:虽然FS提供了理论保证,但实际的MLLM特征编码器通常具有有限的Gauss鲁棒性 $\hat{S}(x)$,这导致FCSB的值不高。直接通过训练来最大化 $\hat{S}(x)$ 可能需要对整个MLLM进行微调,这既复杂又昂贵。PSM旨在无需微调MLLM即可提升 $\hat{S}(x)$。

  • 结构:PSM是一个即插即用的模块,包含两个子模块:

    1. 净化器 (Purifier, P)

      • 功能:在特征提取之前,对输入进行预处理,以“净化”掉可能存在的对抗性扰动(特别是高斯噪声)。
      • 实现:论文采用了一个ImageNet预训练的引导式扩散模型作为净化器。
      • 训练目标:最小化重构损失 $l_{mse}$(使净化后的输入 $P(x+\epsilon)$ 尽可能接近原始输入 $x$)和鼓励特征一致性的鲁棒性损失 $l_{rb}$(使净化后的特征 $f_e(P(x+\epsilon))$ 与干净特征 $f_e(x)$ 相似)。 $$ l_{mse} = \mathbb{E}{x \sim D, \epsilon \sim \mathcal{N}(0, \sigma^2 I)} [|x - P(x + \epsilon)|2] $$ $$ l{rb} = \mathbb{E}{x \sim D, \epsilon \sim \mathcal{N}(0, \sigma^2 I)} [\cos(f_e(P(x + \epsilon)), f_e(x))] $$
      • 最终的净化器损失为 $L_P = l_{diff} + \lambda_1 l_{rb} + \lambda_2 l_{mse}$,其中 $l_{diff}$ 是原始扩散模型的损失。
    2. 光滑度映射器 (Smoothness Mapper, M)

      • 功能:在特征提取之后,对特征表示进行后处理,以增强其统计结构和鲁棒性,同时保持其统计分布。
      • 实现:采用一个噪声感知残差模块。该模块包含多头注意力、MLP分支、深度卷积等,并注入了噪声水平 $\sigma$ 作为条件。
      • 训练目标
        • 映射器鲁棒性损失 $l_{rb}^M$:鼓励映射后的特征 $z_m$ 与原始干净特征 $f_e(x)$ 之间保持高余弦相似度。 $$ l_{rb}^M = \mathbb{E}_{x \sim D, \epsilon \sim \mathcal{N}(0, \sigma^2 I)} [\cos(z_m, f_e(x))] $$
        • 恒等损失 $l_{id}$:当噪声水平 $\sigma=0$ 时,约束映射器M不引入大的变化,保持干净输入的特征。 $$ l_{id} = \mathbb{E}_{x \sim D} [|M(\hat{z}, 0)|_2^2] $$
        • 统计损失 $l_{stats}$:确保映射后的特征 $z_m$ 的统计特性(均值和标准差)与原始干净特征 $f_e(x)$ 保持一致,防止分布漂移。 $$ l_{stats} = \sum_{d=1}^{D} [(\hat{\mu}_d - \mu_d)^2 + (\hat{\sigma}_d - \sigma_d)^2] $$
      • 最终的映射器损失为 $L_M = l_{rb}^M + \lambda_3 l_{stats} + \lambda_4 l_{id}$。
  • 协同工作:净化器P预处理输入,减少噪声;光滑度映射器M精炼特征,增强鲁棒性并保持统计特性。两者协同工作,共同提升特征编码器的Gauss鲁棒性分数 $\hat{S}(x)$,从而间接增强FS提供的理论鲁棒性。

  • 训练流程:PSM采用两阶段训练:先训练净化器P,然后训练光滑度映射器M。MLLM的参数在PSM训练过程中保持冻结。

4. 方法对比分析

  • 本质区别

    • 与经验性防御(如对抗性训练)
      • 保证形式:FS提供可证明的理论鲁棒性保证(FCSB下界),而经验性防御仅提供经验上的鲁棒性,无法保证在所有情况下都有效。
      • 训练方式:FS-PSM是即插即用的,不需要对原始MLLM进行昂贵的重新训练或微调。经验性防御通常需要对模型进行修改和重新训练。
      • 鲁棒性来源:FS通过平滑特征表示来增强鲁棒性,而对抗性训练通过学习对对抗样本的抵抗力。
    • 与传统高斯平滑
      • 适用范围:FS专注于特征空间的平滑,并推导出特征余弦相似度下界,使其能应用于更广泛的MLLM任务,而不仅仅是分类。传统高斯平滑主要针对分类任务的输出。
      • 效率:FS只平滑特征编码器,比平滑整个模型更高效。
      • 增强机制:FS-PSM引入了净化器和映射器来主动提升原始编码器的Gauss鲁棒性分数,从而增强FS的效果,而传统高斯平滑只是直接应用平滑操作。
  • 创新贡献

    1. 特征空间平滑(FS)框架:首次提出在特征空间进行平滑以实现MLLMs的可证明鲁棒性,并理论证明了其与特征余弦相似度下界的关系。
    2. 净化器与光滑度映射器(PSM):设计了一个高效、即插即用的模块,无需微调MLLM即可显著提升特征编码器的Gauss鲁棒性分数,从而增强FS的鲁棒性保证。
    3. 理论与实践结合:将理论上的FS与实践中的PSM相结合,在理论和实验上都证明了其在提升MLLMs鲁棒性方面的有效性。
  • 适用场景

    • 核心适用场景:任何需要提升MLLM在对抗性攻击下的鲁棒性的场景,特别是那些对模型预测的可靠性和安全性要求较高的应用。
    • 具体任务:图像字幕、图像分类、视觉问答等。
    • 模型类型:适用于任何具有可访问特征编码器的MLLM,包括开源和部分闭源模型(只要能提取中间特征)。
    • 攻击类型:对 $l_2$ 范数约束的对抗性攻击具有理论保证,实验中也展示了对 $l_\infty$ 范数攻击的有效性。

5. 实验分析

  • 验证方法

    • 实验设置
      • 模型:在LLaVA-1.5-7B、OpenFlamingo-9B、CLIP-L14等多种开源MLLMs上进行评估。
      • 任务:图像字幕、图像分类、视觉问答(VQA)。
      • 攻击:使用三种SOTA的MLLM对抗攻击方法:AttackVLM [51]、M-Attack [23]、FOA [14],并测试了不同扰动预算($\epsilon$)。
      • 对比方法:与对抗性训练方法(FARE [37]、TeCoA [29])进行比较。
      • 评估指标
        • 特征余弦相似度 (FCS):衡量干净特征与对抗性特征的相似度。
        • 准确率 (ACC):衡量模型在对抗性攻击下的预测准确性。
        • 攻击成功率 (ASR):衡量攻击者成功操纵模型预测的比例。
    • 消融实验
      • 分析了FS本身、FS+Mapper、FS+PSM(Purifier+Mapper)的效果。
      • 分析了不同噪声采样数 $n_0$ 对鲁棒性和效率的影响。
      • 分析了使用轻量级U-Net作为净化器时的效果。
  • 关键结果

    • 显著提升鲁棒性:FS-PSM将多种MLLMs在多种攻击下的ASR从近90%降低到约1%,ACC显著提高。例如,在LLaVA上,FS-PSM使ACC从1%提升到87%,ASR从94%降至1%。
    • 优于对抗性训练:在强攻击下,FS-PSM表现出比FARE和TeCoA等对抗性训练方法更稳定、更强的鲁棒性。
    • 即插即用性:即使直接将PSM应用于已有的对抗性训练模型(FARE, TeCoA),也能带来显著的鲁棒性提升,无需额外微调。
    • 理论与实践一致:实验结果与理论预测的鲁棒性提升趋势一致。
    • 消融实验验证:FS、Mapper、Purifier各自都对鲁棒性有贡献,PSM的组合效果最佳。
  • 优势场景

    • 强对抗性攻击:在面对强扰动(如FOA攻击)时,FS-PSM的优势尤为明显,而其他方法性能下降严重。
    • 跨模型泛化:PSM模块可以跨模型应用,证明了其通用性。
    • 需要可证明鲁棒性:对于对安全性要求极高的场景,FS提供的理论保证是关键优势。
  • 局限性

    • 计算开销:虽然比微调整个模型高效,但FS-PSM仍然会增加一定的计算开销(主要是PSM模块的推理时间)。实验显示,增加噪声采样数 $n_0$ 会提高鲁棒性,但也会显著增加推理延迟。
    • 对 $l_2$ 范数攻击的理论保证:虽然实验也展示了对 $l_\infty$ 攻击的有效性,但理论保证主要针对 $l_2$ 范数。
    • 依赖于特征编码器:FS-PSM的效果依赖于原始特征编码器的质量和可访问性。
    • 净化器和映射器的训练:PSM模块本身需要训练,虽然是独立的,但仍需要一定的数据和计算资源。

6. 实用指南

  • 开源情况:论文提供了代码和补充材料,表明其是开源的。

    • 实现/复现的关键步骤
      1. 获取MLLM特征编码器:需要能够访问目标MLLM的特征提取部分。
      2. 集成PSM模块:将预训练好的PSM模块(净化器P和映射器M)插入到特征编码器之前或之后。
      3. 应用FS:在推理时,对输入的特征进行高斯平滑(理论上是取期望,实践中通过蒙特卡洛采样近似)。
      4. 训练PSM(如果需要定制):如果需要针对特定MLLM或数据集优化PSM,需要按照论文中的算法1进行训练。
  • 实现细节

    • PSM训练
      • 净化器P:使用ImageNet预训练的引导式扩散模型,并在目标数据集上进行微调。
      • 映射器M:采用噪声感知残差模块,通过多阶段损失函数进行训练。
      • 超参数:论文中给出了 $\lambda_1, \lambda_2, \lambda_3, \lambda_4$ 和 $\sigma$ 的建议值,实验中也提到了 $n_0$ 的选择(如 $n_0=8$)。
    • FS推理
      • 高斯噪声采样:在实践中,通过蒙特卡洛采样来近似期望值。采样数量 $n_0$ 是一个重要的超参数,需要在鲁棒性和效率之间权衡。
      • 特征归一化:确保特征编码器的输出被归一化到单位球上。
  • 迁移可能

    • 跨任务迁移:FS本身是针对特征表示的,因此非常适合迁移到不同的下游任务,只要这些任务依赖于相同的特征编码器。
    • 跨模型迁移:PSM模块经过训练后,可以作为独立的组件,尝试迁移到其他具有相似特征空间的模型上。论文中也展示了将为某个模型训练的PSM应用于另一个模型(如将为CLIP训练的PSM应用于FARE/TeCoA)也能带来提升,这表明了一定的跨模型泛化能力。
    • 迁移到其他模态:理论上,FS框架可以推广到任何具有“特征表示”概念的模态,但PSM模块的设计可能需要根据具体模态的特点进行调整。

7. 总结

  • 核心思想特征空间平滑增强MLLM可证明鲁棒性

  • 速记版pipeline

    1. 特征提取:用MLLM的编码器获取输入特征。
    2. 特征平滑:对特征进行高斯噪声采样取期望,得到平滑特征。
    3. PSM增强:使用预训练的净化器和映射器模块,进一步提升特征的鲁棒性。
    4. 模型预测:使用平滑增强后的特征进行最终预测。

Key Findings:

  • To address this vulnerability, we propose the Feature-space Smoothing (FS) and theoretically prove that FS offers certified robustness on the feature representations of MLLMs. Specifically, FS transforms any feature encoder into a smoothed variant that is guaranteed to maintain a certified lower bound on the feature cosine similarity between clean and adversarial representations under $\ell_2$-bounded attacks.
  • Building upon this, we introduce the Purifier and Smoothness Mapper (PSM), a plug-and-play module that improves the Gaussian robustness score of MLLMs and thus enhances their certified robustness under FS, without requiring any retraining on MLLMs. We demonstrate that the FS with PSM not only provides a strong theoretical robustness guarantee but also exhibits superior empirical performance compared to adversarial training.

Links:


360Anything: Geometry-Free Lifting of Images and Videos to 360°

Authors: Ziyi Wu, Daniel Watson, Andrea Tagliasacchi, David J. Fleet, Marcus A. Brubaker, Saurabh Saxena

Published: 2026-01-22

Categories: cs.CV

Abstract:

Lifting perspective images and videos to 360° panoramas enables immersive 3D world generation. Existing approaches often rely on explicit geometric alignment between the perspective and the equirectangular projection (ERP) space. Yet, this requires known camera metadata, obscuring the application to in-the-wild data where such calibration is typically absent or noisy. We propose 360Anything, a geometry-free framework built upon pre-trained diffusion transformers. By treating the perspective input and the panorama target simply as token sequences, 360Anything learns the perspective-to-equirectangular mapping in a purely data-driven way, eliminating the need for camera information. Our approach achieves state-of-the-art performance on both image and video perspective-to-360° generation, outperforming prior works that use ground-truth camera information. We also trace the root cause of the seam artifacts at ERP boundaries to zero-padding in the VAE encoder, and introduce Circular Latent Encoding to facilitate seamless generation. Finally, we show competitive results in zero-shot camera FoV and orientation estimation benchmarks, demonstrating 360Anything's deep geometric understanding and broader utility in computer vision tasks. Additional results are available at https://360anything.github.io/.

Analysis:

好的,我将按照您提供的框架,对这篇论文进行深入分析。


论文方法分析与总结:360Anything: Geometry-Free Lifting of Images and Videos to 360°

1. 摘要翻译

360Anything:无几何约束的图像与视频到360°全景提升

将视角图像和视频提升到360°全景图能够实现沉浸式的3D世界生成。现有方法通常依赖于视角图像与等距柱状投影(ERP)空间之间的显式几何对齐。然而,这需要已知的相机元数据,这使得其难以应用于通常缺乏此类校准或校准不准确的“野外”数据。我们提出了360Anything,一个基于预训练的扩散 Transformer 的无几何约束框架。通过将视角输入和全景目标简单地视为 token 序列,360Anything 以纯粹的数据驱动方式学习视角到等距柱状的映射,从而消除了对相机信息的需求。我们的方法在图像和视频的视角到360°生成方面取得了最先进的性能,优于使用真实相机信息的方法。我们还追溯了 ERP 边界处接缝伪影的根本原因——VAE 编码器中的零填充,并引入了循环潜在编码(Circular Latent Encoding)以实现无缝生成。最后,我们在零样本相机视场角(FoV)和方向估计基准测试中取得了有竞争力的结果,展示了360Anything 深刻的几何理解能力及其在计算机视觉任务中的广泛效用。更多结果可在 https://360anything.github.io 获得。

2. 方法动机分析

  • 驱动力
    • 沉浸式3D世界生成的需求:生成360°全景图是实现真正沉浸式3D体验的关键一步,尤其是在AR/VR和游戏领域。
    • 现有方法的局限性:当前主流方法在处理“野外”(in-the-wild)数据时存在瓶颈,这些数据通常缺乏精确的相机元数据(如相机内参和外参),或者这些元数据不可靠。
  • 现有方法痛点
    • 依赖显式几何对齐:大多数现有方法需要将输入视角图像显式地投影到目标等距柱状(ERP)空间,这需要精确的相机内参(如FoV)和外参(如姿态)。
    • 对相机元数据的敏感性:当相机元数据缺失或不准确时,这些方法性能会急剧下降,甚至失效。
    • 接缝伪影问题:即使在有相机元数据的情况下,生成的全景图也常常存在边界接缝伪影,影响视觉质量。
  • 研究假设
    • 几何对齐并非必需:作者假设,通过足够的数据和强大的模型(如Transformer),模型可以从数据中隐式地学习到视角与全景之间的几何关系,而无需显式的相机元数据。
    • 接缝伪影的根源在训练阶段:作者提出,接缝伪影并非仅是生成过程的问题,而是源于VAE编码器在处理全景图时引入的边界伪影。

3. 方法设计详解

流程总结

360Anything 的核心思想是将视角图像/视频到360°全景图的生成任务,视为一个无几何约束的序列到序列(sequence-to-sequence)的转换问题,并利用扩散 Transformer(DiT)模型来解决。其pipeline可以概括为以下几个关键步骤:

  1. 数据预处理与规范化(针对训练数据)

    • 图像数据:使用现有的3D场景数据集(如Structured3D, Polyhaven, Humus等)作为训练数据。为了处理“野外”数据中任意的相机FoV和姿态,作者在训练时进行了数据增强:随机采样FoV([30°, 120°])、俯仰角([-60°, 60°])和翻滚角([-15°, 15°]),并从中裁剪视角图像。同时,对全景图进行水平滚动增强。
    • 视频数据:使用360-1M数据集中的视频,并进行过滤以去除低质量或非全景视频。关键步骤是视频规范化(Video Canonicalization)
      • 相机姿态估计与稳定:使用COLMAP [64]估计每帧的相机姿态,并旋转帧以消除帧间相机旋转,从而稳定视频
      • 重力对齐:使用GeoCalib [77]估计视频的全局重力方向,并旋转视频以使重力方向与垂直轴对齐,确保生成重力对齐的、直立的全景视频帧。
      • 数据增强:为了处理“野外”视频,作者结合了模拟的线性运动轨迹(80%)和从真实世界视频中提取的轨迹(20%)来生成视角视频作为模型输入。
  2. 视角到全景的映射(Geometry-Free Scalable Panorama Generation)

    • 核心模型:基于预训练的扩散 Transformer (DiT) [34, 54]。
    • 输入表示
      • 视角输入 (Xpers):经过预训练的 VAE 编码器 E 编码为潜在表示 xpers
      • 目标全景 (Yequi):在扩散过程中,目标全景被添加噪声得到 Yequi,然后通过 VAE 编码器 E 编码为潜在表示 yequi
    • 序列拼接 (Sequence Concatenation):与以往将视角图像投影到ERP空间并进行通道拼接不同,360Anything 将视角输入的潜在表示 xpers 和目标全景的噪声潜在表示 yequi 沿着序列维度拼接起来:Concat([xpers, yequi])
    • DiT 处理:DiT 模型通过全局自注意力机制(global self-attention)同时处理拼接后的序列。模型通过这种方式学习视角信息与全景信息之间的几何关系,并隐式地推断出相机内参和外参。
    • 生成规范化全景:通过训练,模型被强制生成重力对齐的、直立的全景图(Canonical Coordinate constraint)。这意味着模型需要隐式地推断输入视角图像的相机姿态,并将其“放置”在规范化的360°画布上,然后生成剩余的全景内容。
  3. 接缝伪影的消除(Seam-free Generation via Circular Latent Encoding)

    • 问题根源识别:作者认为,接缝伪影的根源在于 VAE 编码器在处理全景图时,卷积层中的**零填充(zero-padding)**在图像边界引入了伪影,导致潜在表示(latent representation)不连续。
    • 解决方案:循环潜在编码 (Circular Latent Encoding, CLE)
      • 预处理:在将全景图输入 VAE 编码器 E 之前,对全景图进行循环填充。具体操作是:从全景图的左右两侧各裁剪 w'(例如 W/8)列,并将左侧裁剪出的列填充到右侧,右侧裁剪出的列填充到左侧。
      • 编码:将循环填充后的全景图 Yequi_pad 输入 VAE 编码器 E 得到潜在表示 yequi_pad
      • 后处理:在编码后,丢弃掉对应于填充区域的潜在表示。
      • 效果:这种方法确保了潜在表示具有循环连续性,从而消除了接缝伪影的根本原因。重要的是,这种方法不会增加输入序列长度,对训练和推理没有额外开销。

模型结构

  • VAE (Encoder E, Decoder D):用于将高分辨率的全景图像/视频映射到低维的潜在空间,以及从潜在空间恢复到高分辨率图像/视频。
  • Diffusion Transformer (DiT):核心的生成模型,基于 Transformer 架构,用于在潜在空间中进行去噪生成。它接收拼接后的条件(视角潜在表示)和目标(噪声全景潜在表示)序列,并输出去噪后的全景潜在表示。
  • Positional Encoding (3D ROPE):为了区分视角和全景的 token,并处理时间维度(视频),作者使用了 3D Relative Positional Encoding (ROPE) [72]。对于视角 token,时间索引偏移量为1(或0.1用于视频),而全景 token 则使用标准的时间索引。

算法解释

  • Flow Matching:论文采用了 Flow Matching [41, 44] 的框架来训练 denoiser 。其目标是学习一个 denoiser,能够将标准正态分布的噪声映射回数据分布。损失函数为最小化预测噪声与真实噪声之间的 L2 距离。
  • 序列拼接 (Sequence Concatenation):这是区别于传统方法的关键。作者将视角输入的潜在表示 xpers 和目标全景的噪声潜在表示 yequi 拼接在一起,让 DiT 通过自注意力机制同时关注两者,从而学习它们之间的几何关系。这避免了显式的几何投影和通道拼接。
  • 循环潜在编码 (Circular Latent Encoding):这是解决接缝伪影的核心创新。通过在 VAE 编码前进行循环填充,然后在编码后丢弃填充部分,确保了潜在表示的循环连续性,从而从根本上消除了接缝伪影。

4. 方法对比分析

  • 本质区别
    • 几何约束:360Anything 是无几何约束的,它通过数据驱动的方式隐式学习几何关系,而大多数现有方法依赖于显式的几何投影(需要相机元数据)。
    • 输入表示:360Anything 使用序列拼接来融合条件信息,而许多方法使用通道拼接(在投影到ERP空间后)。
    • 接缝伪影处理:360Anything 认为根源在于 VAE 编码器的零填充,并提出循环潜在编码来解决;而许多方法依赖于推理时的技巧(如旋转去噪)或 VAE 解码器的循环填充。
  • 创新贡献
    • 无几何约束的视角到全景生成:首次提出完全摆脱相机元数据依赖的通用框架。
    • 序列拼接的条件化机制:一种新颖的融合条件信息的方式,使得模型能够从数据中学习几何关系。
    • 循环潜在编码:一种简单而有效的接缝伪影解决方案,从训练阶段根治问题。
    • 统一的图像和视频生成框架:能够同时处理图像和视频,并取得SOTA性能。
  • 适用场景
    • “野外”数据:最适合处理缺乏精确相机元数据的真实世界图像和视频。
    • 需要高质量、无接缝全景图的场景:如VR内容创作、3D场景重建等。
    • 需要隐式相机姿态估计的场景:论文也展示了其在相机FoV和姿态估计上的潜力。

5. 实验分析

  • 验证方法
    • 数据集:Laval Indoor, SUN360 (图像生成);Argus 的测试集(视频生成)。
    • 评估指标
      • 图像质量:FID, KID, CLIP-FID, FAED (衡量整体几何质量)。
      • 文本对齐:CLIP-score。
      • 视频质量:PSNR, LPIPS (衡量输入保留度),FVD (衡量整体几何和视觉质量),VBench (Imag., Aes., Motion)。
      • 相机估计:FoV 估计误差,Roll/Pitch 估计误差。
    • 基线方法:OmniDreamer, PanoDiffusion, Diffusion360, CubeDiff (图像);Imagine360, Argus, ViewPoint (视频)。
  • 关键结果
    • 图像生成:在Laval Indoor和SUN360数据集上,360Anything 在 FID, KID, FAED 指标上均显著优于基线,尤其在 FAED 上有近50%的提升,证明了其生成全景图的几何质量。CLIP-score 也表现最佳。
    • 视频生成:在所有指标上均优于基线,尤其在 PSNR, LPIPS, FVD 上表现突出,证明了其生成视频的保真度和时空一致性。
    • 相机估计:零样本(zero-shot)FoV 和姿态估计误差低,接近甚至优于许多监督方法,证明了其隐式几何理解能力。
    • 接缝伪影:CLE 方法显著降低了接缝伪影的Discontinuity Score (DS),在图像和视频任务上均有大幅改善。
  • 优势场景
    • 处理任意相机参数的输入:在 Table 6 中,即使在训练时未见过的 FoV, Pitch, Roll 参数下,360Anything 仍表现出良好的鲁棒性。
    • 处理“野外”视频:Figure 13 展示了使用真实世界相机轨迹训练的模型,能够生成稳定、直立的全景视频,而仅使用模拟轨迹的模型则会产生重力方向不一致的问题。
    • 处理复杂场景和运动:Figure 11, 12, 14, 15 展示了在大型运动、AI生成视频、复杂光照等挑战性输入下,360Anything 仍能生成高质量、几何一致的全景图/视频。
  • 局限性
    • 计算开销:作为基于 Transformer 的扩散模型,训练和推理成本较高。
    • 复杂物理场景:论文提到,对于涉及复杂物理的场景,生成可能仍有挑战(C部分)。
    • 训练数据偏见:模型可能继承训练数据的偏见,例如在YouTube视频中常见的黑边或特定物体(如三脚架、手)的出现。
    • 视频长度限制:受限于计算资源,当前视频模型只能处理81帧的视频。

6. 实用指南

  • 开源情况:论文提供了项目主页 (https://360anything.github.io),通常意味着代码会公开。
  • 实现细节
    • 模型选择:基于预训练的 FLUX.1-dev (图像) 和 Wan2.1-14B (视频) 扩散 Transformer。
    • 训练参数:Adam 优化器,学习率 5e-5 (图像) / 1e-5 (视频),批次大小 512 (图像) / 64 (视频),训练步数 50k (图像) / 20k (视频)。
    • 数据增强:随机采样 FoV, Pitch, Roll,水平滚动。
    • CLE 参数w' 设置为 W/8。
    • 推理参数:50 采样步数,CFG 缩放系数。
  • 迁移可能
    • 其他生成任务:该框架的核心思想(无几何约束的序列拼接+DiT)可以迁移到其他需要融合多模态或多视角信息的生成任务,例如文本到3D生成、多视角图像生成等。
    • 相机估计:其隐式学习几何关系的能力,可以进一步探索用于更精确的相机姿态和内参估计任务。
    • 接缝伪影解决方案:CLE 方法可以独立于 DiT 模型,应用于其他基于 VAE 的生成模型,以解决全景图的接缝问题。

7. 总结

  • 核心思想数据驱动,无几何约束,Transformer 学习视角到全景的映射。
  • 速记版pipeline
    1. 预处理:规范化视频,增强图像/视频数据。
    2. 编码:将视角和目标全景编码为潜在表示。
    3. 拼接:将视角和目标潜在表示拼接成序列。
    4. 扩散生成:用 DiT 模型在潜在空间中生成全景表示。
    5. 循环编码:用循环潜在编码消除接缝伪影。
    6. 解码:将潜在表示解码为最终全景图/视频。

Key Findings:

  • We propose 360Anything, a geometry-free framework built upon pre-trained diffusion transformers.
  • Our approach achieves state-of-the-art performance on both image and video perspective-to-360° generation, outperforming prior works that use ground-truth camera information.
  • Finally, we show competitive results in zero-shot camera FoV and orientation estimation benchmarks, demonstrating 360Anything's deep geometric understanding and broader utility in computer vision tasks.

Links:


Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

Authors: Moo Jin Kim, Yihuai Gao, Tsung-Yi Lin, Yen-Chen Lin, Yunhao Ge, Grace Lam, Percy Liang, Shuran Song, Ming-Yu Liu, Chelsea Finn, Jinwei Gu

Published: 2026-01-22

Categories: cs.AI, cs.RO

Abstract:

Recent video generation models demonstrate remarkable ability to capture complex physical interactions and scene evolution over time. To leverage their spatiotemporal priors, robotics works have adapted video models for policy learning but introduce complexity by requiring multiple stages of post-training and new architectural components for action generation. In this work, we introduce Cosmos Policy, a simple approach for adapting a large pretrained video model (Cosmos-Predict2) into an effective robot policy through a single stage of post-training on the robot demonstration data collected on the target platform, with no architectural modifications. Cosmos Policy learns to directly generate robot actions encoded as latent frames within the video model's latent diffusion process, harnessing the model's pretrained priors and core learning algorithm to capture complex action distributions. Additionally, Cosmos Policy generates future state images and values (expected cumulative rewards), which are similarly encoded as latent frames, enabling test-time planning of action trajectories with higher likelihood of success. In our evaluations, Cosmos Policy achieves state-of-the-art performance on the LIBERO and RoboCasa simulation benchmarks (98.5% and 67.1% average success rates, respectively) and the highest average score in challenging real-world bimanual manipulation tasks, outperforming strong diffusion policies trained from scratch, video model-based policies, and state-of-the-art vision-language-action models fine-tuned on the same robot demonstrations. Furthermore, given policy rollout data, Cosmos Policy can learn from experience to refine its world model and value function and leverage model-based planning to achieve even higher success rates in challenging tasks. We release code, models, and training data at https://research.nvidia.com/labs/dir/cosmos-policy/

Analysis:

好的,作为计算机视觉和机器学习领域的专家,我将根据您提供的论文摘要进行深入分析。

论文摘要分析:Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

1. 论文的主要贡献(2-3句话):

本研究提出了一种名为 Cosmos Policy 的新颖方法,能够直接将大型预训练视频模型(Cosmos-Predict2)通过单阶段的机器人演示数据微调,转化为高效的机器人策略。该方法无需修改模型架构,而是将机器人动作、未来状态图像以及价值函数编码为视频模型潜在扩散过程中的潜在帧,从而直接生成动作轨迹并支持测试时规划,在多个基准测试和真实世界任务中取得了最先进的性能。

2. 关键创新或方法论:

Cosmos Policy 的核心创新在于其统一的潜在空间表示和单阶段微调范式

  • 统一的潜在空间表示: 论文的关键在于将原本用于视频生成的潜在扩散模型(Latent Diffusion Model, LDM)的潜在空间,巧妙地扩展用于表示机器人控制任务中的多种信息。具体来说,它将:
    • 机器人动作(actions) 编码为潜在帧。
    • 未来状态图像(future state images) 也编码为潜在帧。
    • 价值函数(values,即预期累积奖励) 也编码为潜在帧。 这种做法使得视频模型能够在一个统一的潜在空间中学习和生成这些不同的模态,极大地简化了策略学习的流程。
  • 单阶段微调(Single-stage Post-training): 传统上,将视频模型应用于机器人控制通常需要多阶段的后训练和复杂的架构修改。Cosmos Policy 则通过直接在目标平台的机器人演示数据上进行单阶段的微调,就能够有效地适配预训练模型的时空先验知识,实现高效的策略学习。这大大降低了将大型预训练模型应用于机器人控制的门槛和复杂性。
  • 利用预训练模型的时空先验(Leveraging Spatiotemporal Priors): 论文强调了利用大型预训练视频模型(如 Cosmos-Predict2)强大的时空理解能力。这些模型在海量视频数据上训练,已经学习到了丰富的物理交互、场景演变以及因果关系等先验知识。Cosmos Policy 通过微调,能够将这些强大的先验知识迁移到机器人控制任务中,从而在数据量相对有限的情况下也能取得优异的表现。
  • 测试时规划(Test-time Planning): Cosmos Policy 不仅能生成动作,还能生成未来状态图像和价值函数。这使得在测试时,可以通过规划具有更高成功概率的动作轨迹来实现更鲁棒的控制。这种规划能力是基于模型对未来状态和奖励的预测,能够提前优化决策。
  • 模型学习与规划的结合(Learning from Experience for Model-based Planning): 论文还提到,Cosmos Policy 可以利用策略执行后的数据来进一步精炼其世界模型和价值函数,并结合模型预测进行规划,从而在挑战性任务中获得更高的成功率。这展示了其在在线学习和自适应能力方面的潜力。

3. 对该领域的潜在影响:

  • 降低机器人策略学习的门槛: Cosmos Policy 的方法极大地简化了将强大的预训练视频模型应用于机器人控制的过程。它证明了通过简单的微调,就可以有效地利用这些模型的强大能力,而无需复杂的工程和架构设计。这将使得更多研究者和开发者能够更容易地利用先进的视觉模型来解决机器人问题。
  • 推动通用机器人智能的发展: 通过将视频模型强大的时空理解能力直接迁移到机器人控制,Cosmos Policy 有助于构建更通用、更智能的机器人系统。这些系统能够更好地理解和预测环境动态,从而执行更复杂的任务。
  • 促进视频模型在机器人领域的应用: 本研究为视频生成模型在机器人领域的应用开辟了新的途径。它展示了视频模型不仅仅是生成内容,还可以作为强大的“大脑”来驱动物理世界的交互。
  • 加速机器人策略的迭代和部署: 单阶段微调和高效的规划能力,有望加速机器人策略的开发、测试和部署周期。
  • 为多模态融合提供新思路: 将动作、状态和价值等不同模态的信息统一编码到视频模型的潜在空间中,为多模态信息在统一模型中的融合与处理提供了新的视角。

4. 可能受益于此研究的相关领域或应用:

  • 机器人学(Robotics):
    • 操作(Manipulation): 精细操作、装配、抓取等任务。
    • 导航(Navigation): 动态环境中的自主导航。
    • 人机协作(Human-Robot Collaboration): 理解人类意图并协同工作。
    • 服务机器人(Service Robots): 家庭服务、工业自动化等。
  • 计算机视觉(Computer Vision):
    • 视频理解(Video Understanding): 进一步探索视频模型在理解复杂动态场景中的能力。
    • 多模态学习(Multimodal Learning): 将视觉信息与控制信号、奖励信号等进行有效融合。
    • 生成模型(Generative Models): 探索生成模型在生成控制信号方面的潜力。
  • 强化学习(Reinforcement Learning):
    • 模型基强化学习(Model-based Reinforcement Learning): 利用其世界模型和规划能力。
    • 模仿学习(Imitation Learning): 直接从演示数据中学习策略。
  • 自动驾驶(Autonomous Driving): 预测其他车辆和行人的行为,规划安全驾驶路径。
  • 虚拟现实/增强现实(VR/AR): 驱动虚拟角色的交互行为,实现更真实的沉浸式体验。
  • 游戏AI(Game AI): 创造更智能、更具适应性的游戏角色。

5. 从摘要中可以推断出的局限性:

  • 对预训练模型的依赖性: Cosmos Policy 的成功很大程度上依赖于预训练视频模型(Cosmos-Predict2)的质量和泛化能力。如果预训练模型在某些关键的时空动态或物理规律上存在不足,那么微调后的策略性能也会受到限制。
  • 数据效率的潜在问题: 虽然论文声称是“单阶段微调”,但其有效性仍然可能依赖于演示数据的质量和数量。对于非常复杂或罕见的任务,可能仍然需要大量的演示数据才能达到最佳性能。
  • “潜在帧”的解释性: 将动作、状态和价值编码为“潜在帧”是一种抽象表示。虽然这带来了效率,但可能使得直接理解模型内部的决策过程变得更加困难,缺乏直观的可解释性。
  • 计算资源需求: 大型预训练视频模型本身通常需要巨大的计算资源进行训练和推理。虽然微调过程可能相对高效,但部署和运行这样的模型仍然可能需要强大的硬件支持。
  • 泛化到全新环境的挑战: 尽管论文在 LIBERO 和 RoboCasa 等基准上表现优异,但其泛化能力到完全不同于训练数据的真实世界环境的程度仍需进一步验证。
  • “编码为潜在帧”的具体实现细节: 摘要中并未详细说明动作、状态和价值是如何具体地映射到视频模型的潜在空间中的,这部分实现细节对于理解其鲁棒性和局限性至关重要。

总而言之,Cosmos Policy 是一项令人兴奋的研究,它巧妙地利用了大型预训练视频模型的强大能力,为机器人策略学习提供了一种更简洁、更有效的方法。其核心创新在于将多种控制相关信息统一到视频模型的潜在空间中进行处理,并实现了单阶段的策略微调。这有望极大地推动机器人智能的发展,并为计算机视觉和机器人领域的交叉研究开辟新的方向。

Key Findings:

  • To leverage their spatiotemporal priors, robotics works have adapted video models for policy learning but introduce complexity by requiring multiple stages of post-training and new architectural components for action generation.
  • In this work, we introduce Cosmos Policy, a simple approach for adapting a large pretrained video model (Cosmos-Predict2) into an effective robot policy through a single stage of post-training on the robot demonstration data collected on the target platform, with no architectural modifications.
  • In our evaluations, Cosmos Policy achieves state-of-the-art performance on the LIBERO and RoboCasa simulation benchmarks (98.5% and 67.1% average success rates, respectively) and the highest average score in challenging real-world bimanual manipulation tasks, outperforming strong diffusion policies trained from scratch, video model-based policies, and state-of-the-art vision-language-action models fine-tuned on the same robot demonstrations.

Links:


ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion

Authors: Remy Sabathier, David Novotny, Niloy J. Mitra, Tom Monnier

Published: 2026-01-22

Categories: cs.CV

Abstract:

Generating animated 3D objects is at the heart of many applications, yet most advanced works are typically difficult to apply in practice because of their limited setup, their long runtime, or their limited quality. We introduce ActionMesh, a generative model that predicts production-ready 3D meshes "in action" in a feed-forward manner. Drawing inspiration from early video models, our key insight is to modify existing 3D diffusion models to include a temporal axis, resulting in a framework we dubbed "temporal 3D diffusion". Specifically, we first adapt the 3D diffusion stage to generate a sequence of synchronized latents representing time-varying and independent 3D shapes. Second, we design a temporal 3D autoencoder that translates a sequence of independent shapes into the corresponding deformations of a pre-defined reference shape, allowing us to build an animation. Combining these two components, ActionMesh generates animated 3D meshes from different inputs like a monocular video, a text description, or even a 3D mesh with a text prompt describing its animation. Besides, compared to previous approaches, our method is fast and produces results that are rig-free and topology consistent, hence enabling rapid iteration and seamless applications like texturing and retargeting. We evaluate our model on standard video-to-4D benchmarks (Consistent4D, Objaverse) and report state-of-the-art performances on both geometric accuracy and temporal consistency, demonstrating that our model can deliver animated 3D meshes with unprecedented speed and quality.

Analysis:

好的,我将以一名AI领域高水平研究生的视角,深入分析这篇关于ActionMesh的论文,重点关注其方法创新、设计逻辑、优势与不足,并提供实用的研究借鉴。


ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion

1. 摘要翻译

ActionMesh 是一种生成模型,能够以“动作中”的 3D 网格形式进行预测,并且是前馈式的。受早期视频模型的启发,我们的核心洞察是修改现有的 3D 扩散模型以包含时间轴,从而形成一个我们称之为“时间 3D 扩散”的框架。具体来说,我们首先采用 3D 扩散阶段来生成代表时间变化且独立的 3D 形状的同步潜在表示。其次,我们设计了一个时间 3D 自编码器,将一系列独立的形状转换为预定义参考形状的相应变形,从而构建动画。通过结合这两个组件,ActionMesh 可以从单目视频、文本描述,甚至带有动画文本提示的 3D 网格等不同输入生成动画 3D 网格。此外,与现有方法相比,我们的方法速度快,并且生成结果无骨架且拓扑一致,从而能够快速迭代和无缝应用,例如纹理映射和重定向。我们在标准的视频到 4D 基准(Consistent4D、Objaverse)上评估了我们的模型,并在几何精度和时间一致性方面取得了最先进的性能,证明了我们的模型能够以前所未有的速度和质量交付动画 3D 网格。

2. 方法动机分析

  • 驱动力
    • 生成高质量、可用于生产的动画 3D 网格的迫切需求:在游戏、电影、AR/VR 等领域,自动生成逼真且可编辑的动画 3D 内容至关重要。
    • 现有方法的局限性:当前方法在设置复杂性、运行时长、输出质量以及对特定输入模态和对象类别的依赖性方面存在显著不足。
  • 现有方法痛点
    • 设置复杂/特定输入:许多方法仅限于特定输入(如视频)或特定对象类别(如双足动物)。
    • 长优化循环:通常需要耗时(30-45 分钟)的优化过程,效率低下且容易陷入局部最优。
    • 质量不足:输出的 3D 网格在几何精度、时间一致性或拓扑一致性方面未能达到生产标准。
    • 缺乏时间一致性:直接对视频帧独立进行 3D 重建会导致全局方向不一致或几何细节闪烁。
    • 拓扑不一致:生成的 4D 网格(不同时间点的 3D 网格)通常不共享相同的拓扑结构,这给后续处理(如纹理映射、重定向)带来巨大困难。
    • 需要骨架(Rigging):许多方法需要手动或自动生成骨架(rigging)才能实现动画,这对于复杂或未知拓扑的对象来说非常困难。
  • 研究假设
    • 通过引入时间维度来修改现有的 3D 扩散模型,可以实现时间同步且拓扑一致的 3D 网格生成。
    • 将 3D 形状的生成与时间变形的预测解耦,可以更有效地处理动画过程。
    • 利用预训练的 3D 模型(如 TripoSG)作为强大的先验知识,可以弥补 3D 动画数据的稀缺性。

3. 方法设计详解

ActionMesh 的核心是一个两阶段的生成框架,旨在从视频输入生成动画 3D 网格。

整体 Pipeline 概览

输入:视频序列 ${I_k}{k=1}^N$ 输出:动画 3D 网格 ${(V_k, F)}{k=1}^N$ (共享相同拓扑的 3D 网格序列)

阶段 I:时间 3D 扩散 (Temporal 3D Diffusion)

  • 目标:从视频生成一系列时间上同步但拓扑独立的 3D 网格的潜在表示(latents)。
  • 输入
    • 视频帧 ${I_k}_{k=1}^N$
    • 一个参考 3D 网格的潜在表示 $z_1$ (通过一个预训练的图像到 3D 模型,如 TripoSG,从视频的某一帧生成)。
  • 核心技术
    1. 时间 3D 扩散模型:这是对标准的 3D 扩散模型(如 3DShape2VecSet [54])的修改。
      • 修改点 1:Inflated Attention (膨胀注意力)
        • 动机:标准的自注意力层只关注同一帧内的 token。为了实现跨帧的同步和一致性,需要让 token 能够“看到”其他帧的信息。
        • 实现:将输入张量(包含 N 帧的 T 个 token,维度 D,即 $X \in \mathbb{R}^{N \times T \times D}$)进行 reshape 操作,使其变为 $1 \times NT \times D$ 的形式。然后应用标准的自注意力(selfattn),最后再 reshape 回原始维度。
        • 作用:使得模型在生成每个时间步的潜在表示时,能够考虑所有时间步的信息,从而实现跨帧的同步和一致性。
        • 优化:为了减少 $(NT)^2$ 的计算复杂度,使用了 FlashAttention2 [6]。
      • 修改点 2:Rotary Positional Embedding (旋转位置嵌入)
        • 动机:即使有了膨胀注意力,仍然可能出现帧间微小的抖动。为了进一步增强时间上的平滑性,需要显式地注入相对时间信息。
        • 实现:在膨胀注意力层内部,将相对帧位置信息通过旋转位置嵌入 [37] 注入。
        • 作用:提供更精细的相对时间信息,帮助模型生成更平滑的运动。
      • 修改点 3:Masked Generation (掩码生成)
        • 动机:允许用户提供已知的 3D 网格(例如,从视频中提取的某一帧的网格),并在此基础上生成动画。这对于 {3D+text}-to-animation 等应用至关重要。
        • 实现:在训练时,随机保留一部分 3D latents(称为 source latents)不加噪声,而对其他 latents(target latents)进行扩散过程。在推理时,将用户提供的 3D 网格的 latents 复制到对应的位置,让模型在生成其他 latents 时能够参考这些“干净”的 latents。
        • 作用:使得模型能够从部分已知的 3D 形状开始生成动画,极大地扩展了应用范围。
    2. 时间 3D 自编码器 (Temporal 3D Autoencoder)
      • 目标:将阶段 I 生成的、拓扑可能不一致的独立 3D 形状潜在表示序列,转换为一个具有固定拓扑的动画 3D 网格。
      • 输入:阶段 I 生成的独立 3D 形状潜在表示序列 ${z_k}_{k=1}^N$。
      • 核心技术
        • 修改的 VAE 结构:基于预训练的 3D VAE(如 3DShape2VecSet 的 encoder $E_{3D}$ 和 decoder $D_{3D}$),但对 decoder $D_{4D}$ 进行了修改。
        • 输入:将 ${z_k}{k=1}^N$ 输入到 $D{4D}$。
        • 输出:预测一个参考网格 $(V, F)$ 的顶点位置变形场 $\delta_k$。最终的动画网格为 $(V + \delta_k, F)$。
        • 关键设计
          • 时间编码:通过将源帧和目标帧的时间戳($t_{src}, t_{tgt}$)进行 Fourier 嵌入并作为额外 token 注入,来指导变形场的预测。
          • 查询点:在训练时,使用随机采样的点云;在推理时,使用参考网格的顶点位置。
          • 法线信息:将查询点的法线信息也作为输入,以帮助区分空间上接近但拓扑上不同的点。
          • Inflated Attention & Rotary Embeddings:同样在自注意力层中使用了膨胀注意力和旋转位置嵌入,以增强跨帧的一致性。
        • 作用:将一系列独立的 3D 形状“粘合”成一个具有统一拓扑的动画序列,解决了 4D 网格拓扑不一致的问题。

总结流程

  1. 初始化参考网格:从视频中提取一帧,使用预训练的图像到 3D 模型(如 TripoSG)生成一个初始的 3D 网格及其潜在表示 $z_1$。
  2. 生成时间同步的 3D Latents:使用修改后的时间 3D 扩散模型(包含 Inflated Attention 和 Rotary Embeddings),结合视频帧和参考网格的潜在表示 $z_1$,生成一系列时间上同步但拓扑独立的 3D 形状潜在表示 ${z_k}_{k=1}^N$。如果使用了 Masked Generation,则会注入已知的 3D latents。
  3. 预测变形场:使用时间 3D 自编码器,将 ${z_k}{k=1}^N$ 作为输入,预测参考网格 $(V, F)$ 的顶点位置变形场 ${\delta_k}{k=1}^N$。
  4. 生成动画 3D 网格:将预测的变形场 ${\delta_k}{k=1}^N$ 应用于参考网格 $(V, F)$,得到最终的动画 3D 网格序列 ${(V + \delta_k, F)}{k=1}^N$。

4. 方法对比分析

  • 本质区别
    • 时间 3D 扩散 vs. 独立帧重建:ActionMesh 引入了“时间 3D 扩散”的概念,通过膨胀注意力等机制强制跨帧一致性,而许多早期方法(如直接对每帧独立进行 3D 重建)缺乏这种机制,导致不一致。
    • 解耦形状生成与拓扑一致性动画:ActionMesh 将 3D 形状的生成(阶段 I)与具有固定拓扑的动画预测(阶段 II)解耦。阶段 I 生成独立的 3D 形状,阶段 II 则通过预测变形场来保证拓扑一致性。这与直接生成 4D 网格(可能拓扑不一致)或需要骨架的方法不同。
    • 前馈生成 vs. 优化:ActionMesh 是一个前馈模型,一次性生成动画 3D 网格,避免了耗时的每场景优化过程。
    • 无骨架 (Rig-free):方法直接生成动画网格,无需显式生成骨架和蒙皮权重,这对于复杂或未知拓扑的对象尤其有利。
  • 创新贡献
    • 时间 3D 扩散框架:首次将时间轴引入 3D 扩散模型,通过 Inflated Attention 和 Rotary Positional Embedding 实现跨帧同步和一致性。
    • 时间 3D 自编码器:设计了一个能够将独立 3D 形状序列转换为固定拓扑动画序列的自编码器,解决了 4D 网格的拓扑一致性问题。
    • Masked Generation 机制:使得模型能够从部分已知的 3D 形状(如用户提供的网格)开始生成动画,极大地扩展了应用场景。
    • 端到端、前馈、无骨架、拓扑一致:这些特性共同构成了 ActionMesh 的核心优势,使其在实际应用中更具吸引力。
  • 适用场景
    • 视频到 4D:从单目视频生成动画 3D 网格。
    • {3D+video}-to-animation:给定一个 3D 模型和一段视频,生成该模型的动画。
    • {3D+text}-to-animation:给定一个 3D 模型和一段文本描述的动作,生成该模型的动画。
    • {Image+text}-to-4D:给定一张图像和一个文本描述的动作,生成动画 3D 网格。
    • Text-to-4D:给定一个文本描述的对象和动作,生成动画 3D 网格。
    • Motion Transfer / Retargeting:将一个视频中的运动应用到另一个 3D 对象上。
    • Animation Extrapolation:生成比训练数据更长的动画序列。

5. 实验分析

  • 验证方法
    • 数据集:在标准的 Consistent4D [14] 和 Objaverse [8] 基准上进行评估。Objaverse 用于构建了一个新的定量评估基准。
    • 评估指标
      • CD-3D (Chamfer Distance - 3D):逐帧的 3D 重建质量,通过 ICP 对齐后计算。
      • CD-4D (Chamfer Distance - 4D):整个序列的 4D 重建质量,通过对第一帧进行全局 ICP 对齐后计算。
      • CD-M (Motion Chamfer Distance):运动保真度,衡量动画的准确性。
    • 对比方法:LIM [31], DreamMesh4D (DM4D) [18], V2M4 [4], ShapeGen4D (SG4D) [50]。
  • 关键结果
    • 定量结果 (Objaverse):ActionMesh 在 CD-3D, CD-4D, CD-M 指标上均显著优于所有基线方法,分别提升了 21%, 46%, 45%。
    • 速度优势:ActionMesh 推理时间仅需 3 分钟,而基线方法需要 15-45 分钟,速度提升了约 10 倍。
    • 定性结果 (Consistent4D)
      • LIM 和 DM4D 产生粗糙几何体,细节不足。
      • V2M4 和 SG4D 恢复了更锐利的细节,但存在伪影和部分漂移。
      • ActionMesh 在几何保真度、时间一致性和运动保真度方面均表现最佳。
    • 真实世界视频:在 DAVIS [27] 数据集上展示了对真实世界视频的鲁棒性,能够处理复杂运动、多物体和遮挡。
    • 消融实验
      • Stage I vs. Stage II:移除 Stage II(仅使用 Stage I)无法生成动画 3D 网格,表明 Stage II 对于生成动画至关重要。Stage I 本身是生成准确 4D 重建的关键。
      • Inflated Attention & Rotary Embeddings:移除这些组件会导致性能下降,证明了它们在增强时间一致性方面的有效性。
      • Masked Generation:移除 Masked Generation 机制会影响 {3D+text}-to-4D 等应用,并导致视频到 4D 的重建指标略有下降,说明了其对应用范围和性能的积极影响。
      • 骨架选择:使用 Craftsman [16] 作为骨架替换 TripoSG [17] 仍能获得有竞争力的性能,表明方法的通用性。
  • 优势场景
    • 需要快速迭代和生产就绪的动画:其前馈、无骨架、拓扑一致的特性使其非常适合这些场景。
    • 处理复杂或未知拓扑的对象:无骨架的生成方式避免了手动 rigging 的困难。
    • 需要时间一致性的动画:时间 3D 扩散机制保证了动画的平滑性和连贯性。
  • 局限性
    • 拓扑变化:方法假设固定拓扑,无法直接处理拓扑变化的场景(如物体变形、分裂、合并)。
    • 强遮挡:虽然模型能推断缺失部分,但在参考帧或运动过程中存在强遮挡时,仍可能出现重建失败。
    • 数据依赖:虽然利用了预训练模型,但训练仍需要大量的 3D 动画数据。

6. 实用指南

  • 开源情况:论文提供了代码和预训练权重,网址为 https://remysabathier.github.io/actionmesh/
  • 实现细节
    • 骨架选择:作者推荐使用 TripoSG [17] 作为图像到 3D 的骨架。
    • 训练设置:AdamW 优化器,bfloat16 混合精度,全局 Batch Size 96,约 170,000 步。
    • 数据:使用了 Objaverse [8], Objaverse-XL [7] 和内部数据集,包含约 13,200 个动画对象序列。
    • 输入处理:视频帧需要渲染多个视角,点云需要包含 XYZ 和法线信息。
    • 超参数:论文中提到了关键的超参数设置,如上下文窗口 $c_w=1$。
  • 迁移可能
    • 通用性:ActionMesh 的核心思想(时间 3D 扩散和时间 3D 自编码器)可以应用于其他需要生成时间序列 3D 数据的任务。
    • 迁移到其他任务
      • {3D+text}-to-animation:通过 Masked Generation 机制,可以直接实现。
      • Text-to-4D:可以先用文本生成视频,再输入 ActionMesh。
      • Motion Transfer:直接应用模型即可,无需额外训练。
    • 改进方向
      • 拓扑变化处理:研究如何通过显式或隐式的拓扑编辑来处理拓扑变化。
      • 遮挡鲁棒性:探索更强的遮挡推理能力。
      • 更高效的自编码器:进一步优化自编码器以提高速度和效率。

7. 总结

  • 核心思想:通过时间 3D 扩散和拓扑一致的变形预测,实现高效、无骨架的动画 3D 网格生成。
  • 速记版 pipeline
    1. 视频转 3D 形状:用时间扩散模型生成一系列独立的 3D 形状。
    2. 固定拓扑动画:用自编码器将形状序列转为有固定拓扑的动画。
    3. 前馈生成:一次性输出,速度快。
    4. 无骨架、拓扑一致:直接生成动画网格,易于后续处理。

Key Findings:

  • We introduce ActionMesh, a generative model that predicts production-ready 3D meshes "in action" in a feed-forward manner.
  • Besides, compared to previous approaches, our method is fast and produces results that are rig-free and topology consistent, hence enabling rapid iteration and seamless applications like texturing and retargeting.
  • We evaluate our model on standard video-to-4D benchmarks (Consistent4D, Objaverse) and report state-of-the-art performances on both geometric accuracy and temporal consistency, demonstrating that our model can deliver animated 3D meshes with unprecedented speed and quality.

Links: