Arxiv Report 2025 12 02 - Owen-Liuyuxuan/everyday_my_arxiv GitHub Wiki

Arxiv Computer Vision Papers - 2025-12-02

Executive Summary

好的，作为一名专注于计算机视觉和机器学习的研究助理，我将为您提供一份关于2025年12月1日Arxiv计算机视觉领域论文的简明执行摘要。

执行摘要：2025年12月1日 Arxiv 计算机视觉论文精选

日期： 2025年12月1日

主要主题与趋势：

本期Arxiv论文集聚焦于多模态理解、生成模型改进、以及机器人与自动驾驶的实际应用。我们观察到对视频理解和生成的持续深入研究，特别是在运动同步、生成内容真实性以及视频编辑方面。同时，统一视觉表示和跨模态学习（如视觉与音频、视觉与文本）是构建更强大、更通用AI模型的关键方向。此外，仿真平台的进步和闭环学习在自动驾驶领域的应用也值得关注。

亮点与创新：

“Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion” 提出了一种新颖的多摄像头同步方法，利用跨视图物体运动进行校准，这对于多视角3D重建和场景理解至关重要。
“Objects in Generated Videos Are Slower Than They Appear: Models Suffer Sub-Earth Gravity and Don't Know Galileo's Principle...for now” 揭示了当前生成视频模型在物理规律（如重力）上的不足，并提出了改进方向，这对提升生成视频的真实感和可信度具有重要意义。
“TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models” 探索了如何为原生统一的多模态模型构建更有效的统一视觉表示，是迈向更通用AI的关键一步。
“ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation” 展示了一个统一的视觉语言模型，能够同时处理思维链式推理和机器人操作，预示着AI在复杂任务执行上的潜力。

新兴研究方向与技术：

生成模型中的物理一致性： 关注如何让生成模型（尤其是视频）遵循现实世界的物理规律，例如重力、运动学等。
跨模态的深度融合： 探索视觉信息与音频、文本、甚至触觉等其他模态的更深层次融合，以实现更全面的理解和交互。
统一的多模态表示学习： 研究如何构建能够有效处理多种模态数据的通用表示，为构建更强大的多模态模型奠定基础。
仿真平台与闭环学习： 利用先进的仿真平台（如AirSim360）进行大规模数据生成和模型训练，并结合闭环学习方法（如RoaD）提升自动驾驶等领域的性能。
细粒度的视频运动理解与编辑： 进一步研究视频中物体的精确跟踪、同步以及基于3D点轨迹的生成式编辑。

建议阅读全文的论文：

考虑到其潜在的广泛影响和技术创新性，以下论文值得深入阅读：

“Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion”：对于需要精确多视角几何理解的研究领域（如3D重建、SLAM、增强现实）具有直接应用价值。
“Objects in Generated Videos Are Slower Than They Appear: Models Suffer Sub-Earth Gravity and Don't Know Galileo's Principle...for now”：对于所有从事视频生成研究的研究人员都至关重要，它指出了当前模型的一个普遍性缺陷，并可能启发新的评估指标和训练策略。
“TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models”：对于希望构建更通用、更强大的多模态AI系统的研究者来说，理解其表示学习方法将非常有益。
“ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation”：对于机器人学、人机交互以及需要复杂推理和操作的AI应用领域的研究者，这篇论文提供了重要的思路和方法。

希望这份执行摘要能帮助您快速了解近期Arxiv计算机视觉领域的最新动态。

Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion
Objects in Generated Videos Are Slower Than They Appear: Models Suffer Sub-Earth Gravity and Don't Know Galileo's Principle...for now
Generative Video Motion Editing with 3D Point Tracks
TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models
ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation
Improved Mean Flows: On the Challenges of Fastforward Generative Models
AirSim360: A Panoramic Simulation Platform within Drone View
MV-TAP: Tracking Any Point in Multi-View Videos
Learning Visual Affordance from Audio
RoaD: Rollouts as Demonstrations for Closed-Loop Supervised Fine-Tuning of Autonomous Driving Policies

Papers

Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion

Authors: Shaowei Liu, David Yifan Yao, Saurabh Gupta, Shenlong Wang

Published: 2025-12-01

Categories: cs.CV, cs.AI, cs.LG, cs.RO

Abstract:

Today, people can easily record memorable moments, ranging from concerts, sports events, lectures, family gatherings, and birthday parties with multiple consumer cameras. However, synchronizing these cross-camera streams remains challenging. Existing methods assume controlled settings, specific targets, manual correction, or costly hardware. We present VisualSync, an optimization framework based on multi-view dynamics that aligns unposed, unsynchronized videos at millisecond accuracy. Our key insight is that any moving 3D point, when co-visible in two cameras, obeys epipolar constraints once properly synchronized. To exploit this, VisualSync leverages off-the-shelf 3D reconstruction, feature matching, and dense tracking to extract tracklets, relative poses, and cross-view correspondences. It then jointly minimizes the epipolar error to estimate each camera's time offset. Experiments on four diverse, challenging datasets show that VisualSync outperforms baseline methods, achieving an median synchronization error below 50 ms.

Analysis:

好的，这是一篇关于“VisualSync: Multi-Camera Synchronization via Cross-View Object Motion”论文的中文摘要，其中包含了您要求的各个部分：

论文题目： VisualSync: Multi-Camera Synchronization via Cross-View Object Motion

作者： Shaowei Liu, David Yifan Yao, Saurabh Gupta, Shenlong Wang

摘要：

1. 研究问题： 本文旨在解决一个普遍存在的挑战：如何精确地同步来自多个不同视角的、未预先校准且不同步的视频流。现有的同步方法通常依赖于受控环境、特定目标、手动干预或昂贵的硬件，这限制了它们在日常生活中“随处可见”的视频场景中的应用。

2. 核心创新与方法论贡献： VisualSync 提出了一种基于多视角动态的优化框架，能够以毫秒级精度对未预先校准、不同步的视频进行对齐。其核心洞察在于：当一个三维运动点在两个摄像机中同时可见时，一旦视频被正确同步，该点将遵循对极约束。为了利用这一原理，VisualSync 整合了现有的先进技术，包括：

三维重建与相机姿态估计： 利用 VGGT 等工具估计相机参数（内参和外参）。
密集跟踪与跨视角匹配： 利用 CoTracker 等工具提取密集的三维点轨迹（tracklets），并利用 Mast3R 等工具建立跨视角的对应关系。
基于对极几何的优化： 将同步问题转化为一个优化问题，通过最小化跨视角对应点对之间的对极误差来估计每个摄像机的精确时间偏移量。该方法采用三阶段策略：首先估计相机参数和跨视角对应关系（Stage 0），然后通过穷举搜索估计每对摄像机之间的最优时间偏移量（Stage 1），最后全局优化所有摄像机的偏移量以实现整体同步（Stage 2）。

3. 主要结果与意义： 在四个多样化且具有挑战性的数据集上进行的实验表明，VisualSync 在同步精度上显著优于现有基线方法，实现了低于 50 毫秒的中位数同步误差。该方法在处理具有大尺度运动、视角变化、运动模糊和变焦的真实世界视频时表现出强大的鲁棒性和通用性。其意义在于，它为处理日常生活中普遍存在的、未同步的多视角视频数据提供了一个实用且高效的解决方案，为后续的 4D 场景理解、新视角合成等下游应用奠定了基础。

4. 提及的局限性： 论文中指出了 VisualSync 的三个主要局限性：

相机姿态的依赖性： 方法需要一个可靠的相机姿态子集（尽管不要求整个序列都精确）。
运动速度变化的处理： 对于包含非均匀运动速度的视频片段（例如，慢动作和快动作交替的场景）可能难以处理。
计算复杂度： 成对估计步骤的计算复杂度为 O(N^2)，其中 N 是视频的数量，这在大规模设置下可能会影响效率。

5. 潜在的未来研究方向： 虽然论文没有明确列出未来研究方向，但基于其方法和局限性，可以推测以下潜在方向：

完全无监督的相机姿态估计： 进一步减少对预先估计的相机姿态的依赖。
处理更复杂的运动模式： 探索能够处理非均匀运动速度和更极端运动场景的方法。
提高大规模场景的效率： 研究更高效的成对估计策略或全局优化方法，以支持更多数量的摄像机。
端到端学习： 探索将同步过程与下游任务（如新视角合成）进行端到端联合优化的可能性。
实时同步： 进一步优化算法以实现实时或近实时的多视角视频同步。

Key Findings:

We present VisualSync, an optimization framework based on multi-view dynamics that aligns unposed, unsynchronized videos at millisecond accuracy.
Experiments on four diverse, challenging datasets show that VisualSync outperforms baseline methods, achieving an median synchronization error below 50 ms.

Links:

PDF
arXiv

Objects in Generated Videos Are Slower Than They Appear: Models Suffer Sub-Earth Gravity and Don't Know Galileo's Principle...for now

Authors: Varun Varma Thozhiyoor, Shivam Tripathi, Venkatesh Babu Radhakrishnan, Anand Bhattad

Published: 2025-12-01

Categories: cs.CV

Abstract:

Video generators are increasingly evaluated as potential world models, which requires them to encode and understand physical laws. We investigate their representation of a fundamental law: gravity. Out-of-the-box video generators consistently generate objects falling at an effectively slower acceleration. However, these physical tests are often confounded by ambiguous metric scale. We first investigate if observed physical errors are artifacts of these ambiguities (e.g., incorrect frame rate assumptions). We find that even temporal rescaling cannot correct the high-variance gravity artifacts. To rigorously isolate the underlying physical representation from these confounds, we introduce a unit-free, two-object protocol that tests the timing ratio $t_1^2/t_2^2 = h_1/h_2$, a relationship independent of $g$, focal length, and scale. This relative test reveals violations of Galileo's equivalence principle. We then demonstrate that this physical gap can be partially mitigated with targeted specialization. A lightweight low-rank adaptor fine-tuned on only 100 single-ball clips raises $g_{\mathrm{eff}}$ from $1.81,\mathrm{m/s^2}$ to $6.43,\mathrm{m/s^2}$ (reaching $65%$ of terrestrial gravity). This specialist adaptor also generalizes zero-shot to two-ball drops and inclined planes, offering initial evidence that specific physical laws can be corrected with minimal data.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将根据您提供的论文摘要进行深入分析。

论文摘要分析：

Title: Objects in Generated Videos Are Slower Than They Appear: Models Suffer Sub-Earth Gravity and Don't Know Galileo's Principle...for now Authors: Varun Varma Thozhiyoor, Shivam Tripathi, Venkatesh Babu Radhakrishnan, Anand Bhattad Categories: cs.CV Published Date: 2025-12-1

Abstract: Video generators are increasingly evaluated as potential world models, which requires them to encode and understand physical laws. We investigate their representation of a fundamental law: gravity. Out-of-the-box video generators consistently generate objects falling at an effectively slower acceleration. However, these physical tests are often confounded by ambiguous metric scale. We first investigate if observed physical errors are artifacts of these ambiguities (e.g., incorrect frame rate assumptions). We find that even temporal rescaling cannot correct the high-variance gravity artifacts. To rigorously isolate the underlying physical representation from these confounds, we introduce a unit-free, two-object protocol that tests the timing ratio $t_1^2/t_2^2 = h_1/h_2$, a relationship independent of $g$, focal length, and scale. This relative test reveals violations of Galileo's equivalence principle. We then demonstrate that this physical gap can be partially mitigated with targeted specialization. A lightweight low-rank adaptor fine-tuned on only 100 single-ball clips raises $g_{\mathrm{eff}}$ from $1.81,\mathrm{m/s^2}$ to $6.43,\mathrm{m/s^2}$ (reaching $65%$ of terrestrial gravity). This specialist adaptor also generalizes zero-shot to two-ball drops and inclined planes, offering initial evidence that specific physical laws can be corrected with minimal data.

1. 论文的主要贡献（2-3句话的简洁总结）：

本研究揭示了当前视频生成模型在模拟重力方面存在显著的物理不准确性，它们生成的物体下落速度比实际慢，表现出“亚地表重力”。研究者提出了一种创新的、无单位的相对测试方法，以克服尺度模糊性，并证明了模型违反了伽利略的等效原理。更重要的是，他们展示了通过少量特定数据的微调，可以显著改善模型对重力的物理理解，并能泛化到更复杂的物理场景。

2. 关键创新或方法论：

单位无关的相对测试协议： 这是本研究的核心创新。为了解决传统物理测试中常见的尺度模糊性（如相机焦距、物体真实尺寸、帧率不确定性等），作者设计了一个“单位无关”的测试方法。该方法基于伽利略自由落体定律的一个推论：对于两个同时开始下落、高度分别为 $h_1$ 和 $h_2$ 的物体，其下落时间 $t_1$ 和 $t_2$ 满足关系 $t_1^2/t_2^2 = h_1/h_2$。这个关系式不依赖于重力加速度 $g$、相机参数或物体尺寸，因此能够更纯粹地评估模型对物理规律的内在理解。
识别“亚地表重力”和伽利略等效原理的违反： 通过上述单位无关的测试，研究者能够精确地量化模型在模拟重力加速度上的偏差，并发现模型未能遵循伽利略的等效原理（即不同质量的物体在同一重力场下自由落体时具有相同的加速度）。
轻量级适配器进行物理规律的“特化”： 研究者提出了一种通过“低秩适配器”（Low-Rank Adaptor, LoRA）进行微调的方法。这种方法仅使用少量（100个）单球下落的视频片段，就能显著提升模型对重力加速度的模拟精度，并且这种改进还能零样本（zero-shot）地泛化到更复杂的场景，如双球下落和斜面运动。

3. 对该领域的潜在影响：

提升视频生成模型的“世界模型”能力： 随着视频生成模型被视为潜在的“世界模型”，理解和模拟物理规律是其核心能力之一。这项研究直接指出了当前模型在物理模拟上的一个关键短板，并提供了一种评估和改进的方法，将推动视频生成模型向更逼真、更具物理一致性的方向发展。
为物理模拟和验证提供新工具： 该研究提出的单位无关测试协议，为评估AI模型对物理规律的理解提供了一个更鲁棒、更通用的工具，可以应用于其他需要物理模拟的AI任务。
加速AI在物理相关领域的应用： 如果模型能够更准确地模拟物理现象，将极大地促进AI在机器人学、自动驾驶、游戏开发、科学模拟等领域的应用。
数据效率的提升： 展示了通过少量数据进行针对性微调即可显著改善特定物理规律的模拟能力，这对于在数据稀缺的物理场景下训练模型具有重要意义。

4. 可能受益的相关领域或应用：

视频生成和内容创作： 提高生成视频的真实感和物理一致性，避免出现不自然的运动轨迹。
虚拟现实 (VR) 和增强现实 (AR)： 创造更具沉浸感和物理真实感的虚拟环境。
机器人学和仿真： 训练机器人模型时，需要准确的物理仿真来预测和规划动作。
自动驾驶： 模拟车辆在不同物理条件下的运动，用于训练和测试自动驾驶算法。
游戏开发： 创造更逼真的游戏物理引擎。
科学研究和教育： 用于可视化和模拟物理实验，辅助科学理解和教学。

5. 从摘要中可以推断出的局限性：

“亚地表重力”的根本原因未完全揭示： 摘要指出了模型存在“亚地表重力”的问题，但并未深入探讨模型内部机制导致这一现象的根本原因（例如，是训练数据中的偏差，还是模型架构本身的限制）。
物理规律的修复仍不完美： 尽管通过微调显著提升了重力模拟的精度（达到65%），但摘要也明确指出是“部分缓解”和“达到65%”，这意味着模型尚未完全掌握真实的地球重力，仍有改进空间。
仅关注重力这一单一物理定律： 研究聚焦于重力，虽然是基础物理定律，但世界模型需要理解的物理规律远不止于此。这项研究的成果是否能直接推广到其他物理定律（如惯性、摩擦力、弹性碰撞等）仍需进一步验证。
“零样本泛化”的范围有限： 虽然展示了对双球下落和斜面运动的零样本泛化能力，但这些场景仍然相对简单，且是基于重力定律的直接延伸。对于更复杂的物理交互和多体动力学，其泛化能力可能受到限制。
微调数据的来源和多样性： 摘要提到使用“100个单球剪辑”，但这些剪辑的具体内容、多样性（例如，不同材质、不同初始速度、不同背景等）并未详细说明，这可能影响微调效果的普适性。

总结：

这篇论文在计算机视觉领域具有重要的理论和实践意义。它不仅揭示了当前视频生成模型在物理模拟方面的一个普遍且关键的缺陷，更重要的是，它提供了一种创新的、鲁棒的评估方法，并展示了一种高效的数据驱动的修复策略。这项研究为构建更具物理智能的AI模型铺平了道路，尤其是在需要精确物理交互的应用场景中，其潜在价值巨大。

Key Findings:

To rigorously isolate the underlying physical representation from these confounds, we introduce a unit-free, two-object protocol that tests the timing ratio $t_1^2/t_2^2 = h_1/h_2$, a relationship independent of $g$, focal length, and scale.

Links:

PDF
arXiv

Generative Video Motion Editing with 3D Point Tracks

Authors: Yao-Chih Lee, Zhoutong Zhang, Jiahui Huang, Jui-Hsien Wang, Joon-Young Lee, Jia-Bin Huang, Eli Shechtman, Zhengqi Li

Published: 2025-12-01

Categories: cs.CV

Abstract:

Camera and object motions are central to a video's narrative. However, precisely editing these captured motions remains a significant challenge, especially under complex object movements. Current motion-controlled image-to-video (I2V) approaches often lack full-scene context for consistent video editing, while video-to-video (V2V) methods provide viewpoint changes or basic object translation, but offer limited control over fine-grained object motion. We present a track-conditioned V2V framework that enables joint editing of camera and object motion. We achieve this by conditioning a video generation model on a source video and paired 3D point tracks representing source and target motions. These 3D tracks establish sparse correspondences that transfer rich context from the source video to new motions while preserving spatiotemporal coherence. Crucially, compared to 2D tracks, 3D tracks provide explicit depth cues, allowing the model to resolve depth order and handle occlusions for precise motion editing. Trained in two stages on synthetic and real data, our model supports diverse motion edits, including joint camera/object manipulation, motion transfer, and non-rigid deformation, unlocking new creative potential in video editing.

Analysis:

好的，这是对论文“Generative Video Motion Editing with 3D Point Tracks”的全面中文摘要：

论文题目： Generative Video Motion Editing with 3D Point Tracks 作者： Yao-Chih Lee, Zhoutong Zhang, Jiahui Huang, Jui-Hsien Wang, Joon-Young Lee, Jia-Bin Huang, Eli Shechtman, Zhengqi Li

摘要：

1. 研究问题/核心挑战： 视频的叙事性很大程度上依赖于相机运动和物体运动的协同。然而，精确地编辑这些运动，尤其是在物体运动复杂且存在遮挡的情况下，仍然是一个重大挑战。现有的图像到视频（I2V）方法往往缺乏对整个场景的上下文感知，导致编辑不一致；而视频到视频（V2V）方法虽然能实现视角变化或基本物体平移，但对精细的物体运动控制能力有限。

2. 主要创新与方法贡献： 本文提出了一种名为 Edit-by-Track 的新颖 基于3D点轨迹的视频到视频（V2V）框架，实现了相机和物体运动的联合编辑。其核心创新包括：

3D点轨迹作为统一的运动表示： 利用3D点轨迹来捕捉相机和物体运动的丰富上下文信息，并建立稀疏对应关系，从而将源视频的丰富上下文转移到新的运动中，同时保持时空连贯性。与2D轨迹相比，3D轨迹提供了明确的深度线索，有助于解决深度顺序和遮挡问题，实现更精确的运动编辑。
3D轨迹条件化V2V模型： 框架的核心是一个基于预训练的文本到视频（T2V）扩散模型（Wan-2.1）进行微调的V2V模型。通过一个新颖的 3D轨迹条件化模块，该模块能够自适应地从源视频中采样视觉上下文，并将其投射到目标帧空间，实现3D感知的运动控制。该模块采用交叉注意力机制，能够处理可变数量的3D轨迹，并对噪声轨迹具有鲁棒性。
两阶段训练策略： 为了解决高质量、带标注的视频对稀缺的问题，论文采用了两阶段训练策略：
- 第一阶段（合成数据引导）： 在合成的视频对上进行训练，以学习核心的运动控制能力。
- 第二阶段（真实数据微调）： 在从单目视频中采样的大量真实视频对上进行微调，以显著提高模型的泛化能力，并弥合合成与真实数据之间的领域差距。
支持多种编辑任务： 该框架能够实现多种多样的编辑任务，包括：
- 联合相机和物体运动编辑。
- 运动迁移（例如，多舞者同步）。
- 非刚性形变（例如，物体形状变形）。
- 物体移除和复制。
- 处理部分轨迹输入，减轻用户负担。

3. 主要结果与意义： 论文通过在DyCheck数据集和“in-the-wild”视频上的大量实验证明了Edit-by-Track的有效性。

定量结果： 在PSNR、SSIM、LPIPS等指标上，该方法在联合相机和物体运动编辑任务上显著优于现有方法，尤其是在保持场景上下文和处理复杂运动方面。
定性结果： 论文展示了Edit-by-Track能够实现精细的相机视角和物体运动控制，生成逼真且连贯的视频，甚至在不切实际的编辑场景下也能取得良好效果。
意义： 该方法为视频编辑领域带来了新的可能性，使得用户能够以前所未有的精度和灵活性来控制视频的动态内容，解锁了新的创意潜力。

4. 论文提及的局限性：

密集轨迹的挑战： 当点轨迹密集聚集，尤其是在小物体上且伴随大运动时，模型可能难以准确提取视觉上下文和应用运动条件，导致失真。
复杂物理现象的合成： 模型可能难以正确合成由编辑运动引起的复杂物理现象（例如，液体动力学），尽管它能处理一些二次效应（如水花、阴影）。
对生成先验的依赖： 模型在合成复杂物理现象方面的局限性，反映了当前生成模型在物理约束方面的不足。

5. 未来研究方向： 论文指出，上述局限性可以通过以下方式缓解：

物理约束的生成模型： 发展更强的物理约束生成模型。
数据规模化： 利用更大规模的数据进行训练。
用户界面改进： 开发更易于使用的3D GUI编辑器，使相机和3D物体运动编辑更加便捷。

总而言之，Edit-by-Track通过引入3D点轨迹作为统一的运动表示和创新的3D轨迹条件化V2V框架，显著提升了视频运动编辑的精度和灵活性，为视频创作和后期制作开辟了新的途径。

Key Findings:

We present a track-conditioned V2V framework that enables joint editing of camera and object motion.
We achieve this by conditioning a video generation model on a source video and paired 3D point tracks representing source and target motions.
These 3D tracks establish sparse correspondences that transfer rich context from the source video to new motions while preserving spatiotemporal coherence.
Trained in two stages on synthetic and real data, our model supports diverse motion edits, including joint camera/object manipulation, motion transfer, and non-rigid deformation, unlocking new creative potential in video editing.

Links:

PDF
arXiv

TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

Authors: Zhiheng Liu, Weiming Ren, Haozhe Liu, Zijian Zhou, Shoufa Chen, Haonan Qiu, Xiaoke Huang, Zhaochong An, Fanny Yang, Aditya Patel, Viktar Atliha, Tony Ng, Xiao Han, Chuyan Zhu, Chenyang Zhang, Ding Liu, Juan-Manuel Perez-Rua, Sen He, Jürgen Schmidhuber, Wenhu Chen, Ping Luo, Wei Liu, Tao Xiang, Jonas Schult, Yuren Cong

Published: 2025-12-01

Categories: cs.CV

Abstract:

Unified multimodal models (UMMs) aim to jointly perform multimodal understanding and generation within a single framework. We present TUNA, a native UMM that builds a unified continuous visual representation by cascading a VAE encoder with a representation encoder. This unified representation space allows end-to-end processing of images and videos for both understanding and generation tasks. Compared to prior UMMs with decoupled representations, TUNA's unified visual space avoids representation format mismatches introduced by separate encoders, outperforming decoupled alternatives in both understanding and generation. Moreover, we observe that stronger pretrained representation encoders consistently yield better performance across all multimodal tasks, highlighting the importance of the representation encoder. Finally, in this unified setting, jointly training on both understanding and generation data allows the two tasks to benefit from each other rather than interfere. Our extensive experiments on multimodal understanding and generation benchmarks show that TUNA achieves state-of-the-art results in image and video understanding, image and video generation, and image editing, demonstrating the effectiveness and scalability of its unified representation design.

Analysis:

好的，这是对论文“TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models”的全面中文摘要：

论文题目： TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models (TUNA：驯服统一视觉表示以实现原生统一多模态模型)

作者： Zhiheng Liu, Weiming Ren, Haozhe Liu, Zijian Zhou, Shoufa Chen, Haonan Qiu, Xiaoke Huang, Zhaochong An, Fanny Yang, Aditya Patel, Viktar Atliha, Tony Ng, Xiao Han, Chuyan Zhu, Chenyang Zhang, Ding Liu, Juan-Manuel Perez-Rua, Sen He, Jürgen Schmidhuber, Wenhu Chen, Ping Luo, Wei Liu, Tao Xiang, Jonas Schult, Yuren Cong

摘要：

1. 主要问题/研究目标：

该论文旨在解决当前统一多模态模型（UMMs）在处理图像和视频的理解与生成任务时面临的挑战。现有模型通常采用解耦的视觉表示，这会导致不同编码器之间的格式不匹配，增加模型复杂性并可能影响性能。研究目标是开发一种“原生”的统一多模态模型，能够在一个统一的视觉表示空间内，高效且协同地完成多种多模态任务，包括图像和视频的理解、生成以及图像编辑。

2. 关键创新/方法贡献：

统一视觉表示： TUNA 的核心创新在于其“统一连续视觉表示”的设计。它通过级联一个变分自编码器（VAE）编码器和一个表示编码器来构建这一表示。这种统一的空间避免了不同编码器产生的表示格式不匹配问题，使得模型能够端到端地处理图像和视频，用于理解和生成任务。
原生统一多模态模型： TUNA 被设计为一个“原生”模型，意味着它从头开始联合训练理解和生成目标，而不是将预训练好的独立模型进行组合。
三阶段训练策略： 论文提出了一种三阶段的训练策略，逐步适应模型组件：
- 阶段 1： 预训练统一表示和流匹配头，冻结 LLM 解码器。
- 阶段 2： 全模型继续预训练，引入更多模态和任务。
- 阶段 3： 监督微调（SFT），进一步优化模型性能。
结合自回归和流匹配： TUNA 结合了自回归文本生成和流匹配（flow matching）的视觉生成方法，以实现高效且高质量的图像和视频生成。

3. 主要结果及其意义：

状态艺术（State-of-the-Art）性能： TUNA 在多个多模态理解和生成基准测试中取得了最先进的性能，包括图像和视频理解、图像和视频生成以及图像编辑。
优于解耦表示： 实验表明，TUNA 的统一视觉表示在理解和生成任务上均优于采用解耦表示的现有模型，证明了其设计的有效性。
表示编码器重要性： 研究发现，更强大的预训练表示编码器能够显著提升模型在所有多模态任务上的性能，强调了表示编码器在 TUNA 框架中的关键作用。
理解与生成协同增益： 在统一的设置下，联合训练理解和生成数据能够使两个任务相互促进，而非相互干扰，这得益于统一视觉表示带来的跨任务依赖性。
效率和可扩展性： TUNA 的统一设计简化了训练和推理过程，并且在不同模型规模下都展现出良好的性能，证明了其有效性和可扩展性。

4. 论文中提到的局限性：

计算成本： 论文中提到，视频训练的计算成本很高，因此 7B 变体在训练时没有包含视频数据。这暗示了处理大规模视频数据仍然是一个挑战。
模型规模的影响： 虽然 TUNA 在不同规模下表现良好，但更强大的预训练表示编码器能带来更好的性能，这表明模型性能可能仍然受限于基础模型的表示能力。
与 Show-o2 的比较： 尽管 TUNA 优于 Show-o2，但 Show-o2 的方法也展示了统一视觉表示的潜力，TUNA 的优势在于其更早期的特征融合和端到端的训练方式。

5. 潜在的未来研究方向：

进一步提升视频处理能力： 论文中提到视频训练的成本问题，未来可以探索更高效的视频理解和生成方法。
探索更强大的表示编码器： 持续研究和开发更强大的预训练表示编码器，以进一步提升 TUNA 的整体性能。
扩展到更多模态： 将 TUNA 的统一表示框架扩展到音频、3D 数据等更多模态，构建更全面的多模态模型。
更精细的控制和可解释性： 进一步研究如何对 TUNA 的生成过程进行更精细的控制，并提高模型的可解释性。
更复杂的指令遵循： 探索 TUNA 在处理更复杂、更具挑战性的指令遵循任务上的能力。

总结：

TUNA 论文提出了一种创新的“原生统一多模态模型”，通过级联 VAE 编码器和表示编码器，构建了一个统一的连续视觉表示空间。这一设计有效解决了现有 UMMs 中表示格式不匹配的问题，实现了图像和视频理解、生成以及图像编辑等多种任务的端到端处理。实验结果表明，TUNA 在多项基准测试中取得了最先进的性能，并且优于采用解耦表示的模型。论文强调了强大的预训练表示编码器和联合训练理解与生成任务的重要性，展示了 TUNA 在多模态 AI 领域的重要进展。

Key Findings:

We present TUNA, a native UMM that builds a unified continuous visual representation by cascading a VAE encoder with a representation encoder.
Our extensive experiments on multimodal understanding and generation benchmarks show that TUNA achieves state-of-the-art results in image and video understanding, image and video generation, and image editing, demonstrating the effectiveness and scalability of its unified representation design.

Links:

PDF
arXiv

ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation

Authors: Chenyang Gu, Jiaming Liu, Hao Chen, Runzhong Huang, Qingpo Wuwu, Zhuoyang Liu, Xiaoqi Li, Ying Li, Renrui Zhang, Peng Jia, Pheng-Ann Heng, Shanghang Zhang

Published: 2025-12-01

Categories: cs.RO

Abstract:

Vision-Language-Action (VLA) models have recently emerged, demonstrating strong generalization in robotic scene understanding and manipulation. However, when confronted with long-horizon tasks that require defined goal states, such as LEGO assembly or object rearrangement, existing VLA models still face challenges in coordinating high-level planning with precise manipulation. Therefore, we aim to endow a VLA model with the capability to infer the "how" process from the "what" outcomes, transforming goal states into executable procedures. In this paper, we introduce ManualVLA, a unified VLA framework built upon a Mixture-of-Transformers (MoT) architecture, enabling coherent collaboration between multimodal manual generation and action execution. Unlike prior VLA models that directly map sensory inputs to actions, we first equip ManualVLA with a planning expert that generates intermediate manuals consisting of images, position prompts, and textual instructions. Building upon these multimodal manuals, we design a Manual Chain-of-Thought (ManualCoT) reasoning process that feeds them into the action expert, where each manual step provides explicit control conditions, while its latent representation offers implicit guidance for accurate manipulation. To alleviate the burden of data collection, we develop a high-fidelity digital-twin toolkit based on 3D Gaussian Splatting, which automatically generates manual data for planning expert training. ManualVLA demonstrates strong real-world performance, achieving an average success rate 32% higher than the previous hierarchical SOTA baseline on LEGO assembly and object rearrangement tasks.

Analysis:

好的，这是对论文“ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation”的全面中文摘要：

论文题目： ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation

作者： Chenyang Gu, Jiaming Liu, Hao Chen, Runzhong Huang, Qingpo Wuwu, Zhuoyang Liu, Xiaoqi Li, Ying Li, Renrui Zhang, Peng Jia, Pheng-Ann Heng, Shanghang Zhang

摘要：

1. 主要问题/研究问题： 该论文旨在解决当前视觉-语言-动作（VLA）模型在处理需要长时序规划和精确操作的任务时面临的挑战，特别是当任务目标明确但中间步骤未知时（例如，乐高积木组装或物体重排）。现有VLA模型难以将高层规划与精确的机器人操作协调起来，即难以从“做什么”（What）推断出“怎么做”（How）。

2. 关键创新/方法贡献：

ManualVLA框架： 提出了一种名为ManualVLA的统一VLA框架，基于混合专家（Mixture-of-Transformers, MoT）架构，实现了多模态手动指令生成和动作执行的协同工作。
规划专家与动作专家： ManualVLA包含一个规划专家，用于生成包含图像、位置提示和文本指令的多模态中间手册（manuals）。然后，通过Manual Chain-of-Thought (ManualCoT)推理过程，将这些手册输入到动作专家中，其中每一步手册都提供明确的控制条件，同时其潜在表示提供隐式引导，以实现精确操作。
显式与隐式CoT推理： 引入了显式CoT（通过将位置提示作为视觉提示嵌入到动作专家的观察中）和隐式CoT（在潜在空间中利用手册作为动作建模的条件信号）相结合的推理机制。
高保真数字孪生工具包： 为了缓解数据收集的负担，开发了一个基于**3D高斯溅射（3D Gaussian Splatting）**的高保真数字孪生工具包，能够自动生成用于规划专家训练的手册数据。

3. 主要结果及其意义：

显著的性能提升： 在乐高积木组装和物体重排等长时序、目标导向的任务上，ManualVLA取得了显著的成功率提升，平均成功率比之前的分层SOTA基线高出32%。
准确的手册生成： 规划专家能够生成高质量的中间手册，包括准确的图像、位置和文本描述，这对于后续的精确操作至关重要。
鲁棒的动作执行： ManualCoT推理过程使得动作专家能够有效地利用手册信息，即使手册存在轻微不准确，也能保持稳定的操作性能。
泛化能力： 实验证明ManualVLA在目标状态、物体形状、背景和光照条件变化方面表现出良好的泛化能力。
高效的数据利用： 尽管ManualVLA需要大量数据进行规划专家训练，但通过数字孪生工具包有效解决了数据收集难题。同时，在下游任务微调时，ManualVLA仅需约100个轨迹即可实现可泛化的操作。

4. 论文中提到的局限性：

乐高放置错误： 在乐高组装任务中，ManualVLA偶尔会出现错误的积木放置，尽管系统通常能够从错误中恢复。
大角度旋转下的放置误差： 在物体重排任务中，当需要进行大角度旋转以实现精确放置时，ManualVLA可能会失败。作者推测这可能是由于训练数据中此类极端旋转案例数量有限所致。

5. 潜在的未来研究方向：

处理更复杂的旋转场景： 增加训练数据中包含极端旋转的案例，以提高在物体重排等任务中的鲁棒性。
进一步提升手册的准确性和精细度： 探索更先进的手册生成技术，以减少中间步骤的误差累积。
扩展到更广泛的任务和环境： 将ManualVLA的框架和方法应用于更多样化的机器人操作任务和更复杂的真实世界环境。
探索更高效的训练策略： 研究如何进一步减少对大量预训练数据的依赖，或者开发更高效的迁移学习方法。

论文的重要性： 该论文的重要贡献在于提出了一种新颖的ManualVLA框架，成功地将长时序规划与精确的机器人操作相结合，解决了现有VLA模型在复杂任务中的瓶颈。通过引入多模态手册生成和ManualCoT推理机制，ManualVLA能够从“What”推断出“How”，为实现更通用的机器人智能迈出了重要一步。其数字孪生工具包的开发也为未来机器人学习研究提供了有价值的数据生成方法。该研究在实际机器人操作任务中取得了显著的性能提升，证明了其在长时序机器人任务规划和执行方面的潜力。

Key Findings:

In this paper, we introduce ManualVLA, a unified VLA framework built upon a Mixture-of-Transformers (MoT) architecture, enabling coherent collaboration between multimodal manual generation and action execution.
To alleviate the burden of data collection, we develop a high-fidelity digital-twin toolkit based on 3D Gaussian Splatting, which automatically generates manual data for planning expert training.

Links:

PDF
arXiv

Improved Mean Flows: On the Challenges of Fastforward Generative Models

Authors: Zhengyang Geng, Yiyang Lu, Zongze Wu, Eli Shechtman, J. Zico Kolter, Kaiming He

Published: 2025-12-01

Categories: cs.CV, cs.LG

Abstract:

MeanFlow (MF) has recently been established as a framework for one-step generative modeling. However, its ``fastforward'' nature introduces key challenges in both the training objective and the guidance mechanism. First, the original MF's training target depends not only on the underlying ground-truth fields but also on the network itself. To address this issue, we recast the objective as a loss on the instantaneous velocity $v$, re-parameterized by a network that predicts the average velocity $u$. Our reformulation yields a more standard regression problem and improves the training stability. Second, the original MF fixes the classifier-free guidance scale during training, which sacrifices flexibility. We tackle this issue by formulating guidance as explicit conditioning variables, thereby retaining flexibility at test time. The diverse conditions are processed through in-context conditioning, which reduces model size and benefits performance. Overall, our $\textbf{improved MeanFlow}$ ($\textbf{iMF}$) method, trained entirely from scratch, achieves $\textbf{1.72}$ FID with a single function evaluation (1-NFE) on ImageNet 256$\times$256. iMF substantially outperforms prior methods of this kind and closes the gap with multi-step methods while using no distillation. We hope our work will further advance fastforward generative modeling as a stand-alone paradigm.

Analysis:

好的，这是对论文“Improved Mean Flows: On the Challenges of Fastforward Generative Models”的全面中文摘要：

论文题目： Improved Mean Flows: On the Challenges of Fastforward Generative Models 作者： Zhengyang Geng, Yiyang Lu, Zongze Wu, Eli Shechtman, J. Zico Kolter, Kaiming He

摘要：

这篇论文深入探讨了近期提出的“均值流”（MeanFlow, MF）框架在单步生成模型方面存在的两个关键挑战，并提出了改进方法，即“改进均值流”（Improved MeanFlow, iMF）。

1. 研究问题/研究目标：

问题一：训练目标不标准且依赖网络。 原始MF的训练目标不仅依赖于真实的底层场，还依赖于网络自身的预测，这使得它不是一个标准的回归问题，并可能导致训练不稳定。
问题二：固定引导尺度牺牲灵活性。 原始MF在训练时固定了分类器无关引导（Classifier-Free Guidance, CFG）的尺度，这限制了在推理时调整引导强度的灵活性，而最优的引导尺度会随模型能力和设置而变化。

2. 主要创新和方法贡献：

将MF重构为基于瞬时速度 $v$ 的损失函数。 作者将原始MF的训练目标从依赖于网络预测的平均速度 $u$ 的损失（$u$-loss）重构为基于瞬时速度 $v$ 的损失（$v$-loss），但该损失仍然通过网络预测的平均速度 $u$ 来参数化。这种重构使得训练目标不再依赖于网络本身，形成了一个更标准的回归问题，从而提高了训练稳定性。
引入灵活的CFG条件化。 作者将CFG的引导尺度 $w$ 以及引导区间的参数（$t_{min}, t_{max}$）视为可学习的条件变量，并使用“上下文内条件化”（in-context conditioning）机制来处理这些多样化的条件。这使得模型在训练和推理时都能灵活地调整CFG尺度，从而获得更好的性能和更强的泛化能力。
改进的上下文内条件化。 论文提出了一种改进的上下文内条件化方法，通过将不同类型的条件（时间步、类别、CFG参数）转换为多个可学习的token，并与图像的latent token一起输入Transformer，从而更有效地处理异构条件。这种方法还显著减少了模型参数量，因为可以移除参数量大的adaLN-zero层。

3. 主要结果及其意义：

在ImageNet 256x256上的卓越性能。 iMF模型在ImageNet 256x256数据集上，仅用一次函数评估（1-NFE）就达到了 1.72 FID 的优异成绩。
大幅超越现有单步生成模型。 iMF在1-NFE生成方面，相比于原始MF和其他同类方法，取得了显著的性能提升，甚至缩小了与多步生成模型之间的差距，而无需使用蒸馏（distillation）。
证明了单步生成模型的潜力。 论文表明，经过改进的单步生成模型（fastforward generative models）可以作为一种独立的、高性能的生成范式。
灵活CFG的优势。 通过灵活的CFG条件化，模型能够适应不同的引导尺度，并在推理时实现“无CFG”的效果，显著提高了FID。

4. 提及的局限性：

对tokenizer的依赖。 论文中使用的模型仍然依赖于预训练的VAE tokenizer将图像编码为latent space，这在一定程度上增加了推理成本。
CFG尺度的选择。 虽然模型支持灵活的CFG尺度，但找到最优的引导尺度仍然需要一定的探索。

5. 潜在的未来研究方向：

去除tokenizer。 论文提到，随着1-NFE生成技术的进步，tokenizer的成本变得越来越显著，未来的研究可以探索更高效的tokenizer或直接进行像素空间生成。
进一步探索单步生成模型。 论文的成功为单步生成模型作为一种独立的范式奠定了基础，未来的工作可以继续探索其在其他任务和数据集上的应用。

总而言之，这篇论文通过解决原始MeanFlow在训练目标和引导机制上的核心问题，提出了iMF模型，在单步生成领域取得了突破性的进展，为未来高效、高质量的生成模型研究开辟了新方向。

Key Findings:

iMF substantially outperforms prior methods of this kind and closes the gap with multi-step methods while using no distillation.

Links:

PDF
arXiv

AirSim360: A Panoramic Simulation Platform within Drone View

Authors: Xian Ge, Yuling Pan, Yuhang Zhang, Xiang Li, Weijun Zhang, Dizhe Zhang, Zhaoliang Wan, Xin Lin, Xiangkai Zhang, Juntao Liang, Jason Li, Wenjie Jiang, Bo Du, Ming-Hsuan Yang, Lu Qi

Published: 2025-12-01

Categories: cs.CV

Abstract:

The field of 360-degree omnidirectional understanding has been receiving increasing attention for advancing spatial intelligence. However, the lack of large-scale and diverse data remains a major limitation. In this work, we propose AirSim360, a simulation platform for omnidirectional data from aerial viewpoints, enabling wide-ranging scene sampling with drones. Specifically, AirSim360 focuses on three key aspects: a render-aligned data and labeling paradigm for pixel-level geometric, semantic, and entity-level understanding; an interactive pedestrian-aware system for modeling human behavior; and an automated trajectory generation paradigm to support navigation tasks. Furthermore, we collect more than 60K panoramic samples and conduct extensive experiments across various tasks to demonstrate the effectiveness of our simulator. Unlike existing simulators, our work is the first to systematically model the 4D real world under an omnidirectional setting. The entire platform, including the toolkit, plugins, and collected datasets, will be made publicly available at https://insta360-research-team.github.io/AirSim360-website.

Analysis:

好的，作为一名计算机视觉和机器学习领域的专家，我将根据您提供的论文摘要进行深入分析。

论文摘要分析：AirSim360: A Panoramic Simulation Platform within Drone View

1. 论文的主要贡献 (2-3句话的简洁总结)

该论文提出了AirSim360，一个创新的全景式无人机视角仿真平台，旨在解决当前360度全景理解领域大规模、多样化数据稀缺的瓶颈。该平台通过渲染对齐的数据和标注范式、交互式行人感知系统以及自动化轨迹生成，为像素级几何、语义和实体理解以及导航任务提供了强大的支持。通过生成超过60K的全景样本并进行广泛实验，AirSim360首次系统性地在全景设置下对4D真实世界进行了建模。

2. 关键创新或方法论

AirSim360的核心创新在于其**“渲染对齐的数据和标注范式”**。这表明该平台不仅仅是生成全景图像，而是能够生成与渲染过程紧密结合的、像素级别的精确几何、语义和实体标注。这意味着从仿真中提取的数据具有高度的可用性和准确性，可以直接用于训练和评估各种计算机视觉模型。

此外，以下几点也是重要的创新点：

交互式行人感知系统： 这意味着仿真能够模拟人类的行为，这对于需要理解和预测行人动态的应用（如自动驾驶、城市规划）至关重要。这超越了静态场景的模拟，增加了动态和交互性。
自动化轨迹生成： 这为无人机导航任务提供了直接的支持，使得研究人员可以方便地生成不同场景下的飞行路径，并评估导航算法的性能。
首次系统性建模4D真实世界下的全景设置： 这是对现有仿真技术的一个重要突破。以往的仿真可能侧重于2D图像或特定视角的3D，而AirSim360则将全景视角与4D（空间+时间）的真实世界动态结合起来，这在处理时空信息方面具有重要意义。

3. 对该领域的潜在影响

AirSim360的出现有望对360度全景理解领域产生深远影响：

数据驱动研究的加速： 解决了数据稀缺问题，将极大地推动全景图像理解、场景重建、目标检测、语义分割、实例分割等任务的研究进展。研究人员无需再花费大量精力收集和标注昂贵的全景数据集。
更鲁棒和泛化的模型： 通过大规模、多样化的仿真数据，可以训练出更鲁棒、泛化能力更强的模型，能够更好地应对真实世界中各种复杂和未知的场景。
推动新的应用落地： 仿真平台为开发和测试新的全景应用提供了基础，例如更智能的VR/AR体验、更精确的机器人导航、更全面的城市监控等。
促进跨模态和多任务学习： 平台提供的多维度标注（几何、语义、实体）为研究跨模态学习和多任务学习提供了丰富的资源。

4. 可能受益的相关领域或应用

自动驾驶： 全景视角对于理解车辆周围环境至关重要，尤其是在十字路口、环岛等复杂场景。仿真数据可用于训练感知模型，预测行人行为，以及测试导航策略。
机器人导航与感知： 无人机和地面机器人需要360度的环境感知来安全有效地进行导航和任务执行。
虚拟现实 (VR) 和增强现实 (AR)： 逼真的全景环境仿真可以用于创建更沉浸式的VR/AR体验，以及开发新的交互方式。
城市规划与监控： 通过无人机视角的全景数据，可以对城市进行全面的建模和分析，用于交通流量监测、基础设施评估、安全监控等。
3D重建与场景理解： 平台提供的几何信息有助于开发更精确的3D重建算法，并深入理解场景的结构和内容。
内容创作： 为全景视频、360度图像的后期制作和特效提供仿真基础。

5. 从摘要中可以推断出的局限性

尽管摘要中强调了平台的优势，但仍可以推断出一些潜在的局限性：

仿真与真实世界的差距 (Sim-to-Real Gap)： 任何仿真平台都存在与真实世界之间的差距。尽管AirSim360力求逼真，但其生成的图像和标注可能无法完全捕捉真实世界中所有细微的物理现象、光照变化、传感器噪声以及复杂的材质表现。这仍然是使用仿真数据训练模型时需要考虑的关键问题。
行人行为建模的复杂度： 尽管引入了“交互式行人感知系统”，但人类行为的复杂性和不可预测性是极难完全建模的。仿真中的行人行为可能仍然是简化的，无法完全覆盖所有真实情况。
计算资源需求： 生成大规模、高分辨率的全景图像和详细的标注通常需要大量的计算资源和时间。这可能会限制研究人员在本地进行大规模实验的能力。
特定场景的覆盖范围： 尽管提到了“wide-ranging scene sampling”，但摘要并未详细说明平台能够覆盖的场景类型和多样性。可能存在某些特定类型的场景（如极端天气、特殊工业环境）在仿真中难以充分体现。
对现有仿真器的依赖或改进： 摘要提到“Unlike existing simulators”，暗示AirSim360可能基于现有的仿真引擎（如AirSim本身）进行扩展或改进。其性能和功能可能在一定程度上受限于底层引擎的特性。

总而言之，AirSim360是一个非常有前景的研究工作，它通过提供一个强大的全景仿真平台，有望解决当前360度全景理解领域面临的关键挑战，并推动相关研究和应用的发展。其“渲染对齐”的数据生成范式和对4D真实世界的系统性建模是其核心亮点。

Key Findings:

In this work, we propose AirSim360, a simulation platform for omnidirectional data from aerial viewpoints, enabling wide-ranging scene sampling with drones.

Links:

PDF
arXiv

MV-TAP: Tracking Any Point in Multi-View Videos

Authors: Jahyeok Koo, Inès Hyeonsu Kim, Mungyeom Kim, Junghyun Park, Seohyun Park, Jaeyeong Kim, Jung Yi, Seokju Cho, Seungryong Kim

Published: 2025-12-01

Categories: cs.CV

Abstract:

Multi-view camera systems enable rich observations of complex real-world scenes, and understanding dynamic objects in multi-view settings has become central to various applications. In this work, we present MV-TAP, a novel point tracker that tracks points across multi-view videos of dynamic scenes by leveraging cross-view information. MV-TAP utilizes camera geometry and a cross-view attention mechanism to aggregate spatio-temporal information across views, enabling more complete and reliable trajectory estimation in multi-view videos. To support this task, we construct a large-scale synthetic training dataset and real-world evaluation sets tailored for multi-view tracking. Extensive experiments demonstrate that MV-TAP outperforms existing point-tracking methods on challenging benchmarks, establishing an effective baseline for advancing research in multi-view point tracking.

Analysis:

好的，这是一篇关于“MV-TAP: Tracking Any Point in Multi-View Videos”论文的全面中文摘要，重点突出了其研究问题、方法创新、结果、局限性和未来方向：

论文题目： MV-TAP: Tracking Any Point in Multi-View Videos

作者： Jahyeok Koo, Inès Hyeonsu Kim, Mungyeom Kim, Junghyun Park, Seohyeon Park, Jaeyeong Kim, Jung Yi, Seokju Cho, Seungryong Kim

摘要：

1. 研究问题/核心挑战： 该论文旨在解决多视角视频中的任意点跟踪（Multi-view Point Tracking）这一新兴且重要的任务。在复杂的真实世界场景中，多视角摄像系统提供了丰富的观测信息，理解动态物体在多视角下的运动至关重要，这在动作捕捉、机器人操作和自动驾驶等领域有着广泛应用。然而，现有的点跟踪方法主要集中在单视角视频，它们在处理遮挡、深度不确定性以及运动模糊等问题时存在固有的局限性。直接将单视角方法独立应用于每个视角，无法充分利用多视角信息来解决这些模糊性，也无法构建可靠的多视角点轨迹。因此，论文的核心研究问题是如何有效地利用多视角信息来提升点跟踪的鲁棒性和准确性，尤其是在像素空间中进行跟踪。

2. 主要创新与方法贡献： MV-TAP 的核心创新在于其提出的多视角点跟踪框架，该框架能够有效整合来自多个视角的信息，以实现更完整和可靠的轨迹估计。其关键贡献包括：

定义了多视角点跟踪任务： 首次明确提出了在像素空间中进行多视角点跟踪的任务，旨在建立鲁棒的时空对应关系。
MV-TAP 模型架构：
- 相机几何与跨视角注意力机制： 模型利用相机几何信息（通过 Plücker 坐标编码）和创新的跨视角注意力模块来聚合来自不同视角和时间步的信息。这使得模型能够理解点在不同视角下的相对几何关系。
- 多视角时空 Transformer： 采用 Transformer 架构，集成了时间注意力、空间注意力和视角注意力，以协同处理时空信息，并有效利用跨视角线索。
- 相机编码模块： 将相机参数编码为嵌入向量，注入模型，使模型能够显式地感知多视角相机几何信息，从而捕捉跨视角的空间对应关系。
- 局部 4D 相关性： 借鉴了单视角跟踪方法，利用局部 4D 相关性来捕捉时域上的外观线索。
大规模合成数据集与评估基准： 为了支持该任务的研究，论文构建了一个大规模的合成训练数据集，包含同步的多视角视频、点轨迹和相机参数。同时，还提出了一个真实世界评估集，专门用于多视角跟踪任务的评估。

3. 主要结果与意义： 通过在多个具有挑战性的多视角基准数据集（如 DexYCB, Panoptic Studio, Kubric, Harmony4D）上的广泛实验，MV-TAP 取得了显著的成果：

性能超越现有方法： MV-TAP 在各项评估指标（如 < δavg, OA, AJ）上均显著优于现有的单视角和多视角点跟踪方法，证明了其有效利用多视角信息的能力。
鲁棒性提升： 模型在处理遮挡、大运动和非刚性运动等复杂场景时表现出更强的鲁棒性，能够保持一致的轨迹。
有效性验证： 消融实验表明，视角注意力和相机编码模块对提升模型性能至关重要，它们共同作用，显著增强了模型的多视角感知能力。
奠定研究基础： MV-TAP 的成功不仅展示了其在多视角点跟踪任务上的优越性，更重要的是，它为该新兴领域提供了一个强大的基线模型和一套完整的解决方案（包括数据集和评估方法），极大地推动了该领域的研究进展。

4. 论文提及的局限性： 论文中也指出了 MV-TAP 的一些局限性：

查询点假设： MV-TAP 假设查询点在所有视角下都提供。然而，在实际应用中，这种假设往往不切实际，因为在某些视角下可能无法获得查询点。
单视角查询初始化： 论文的查询初始化实验表明，仅从单视角查询点出发，在其他视角找到可靠的对应关系仍然具有挑战性，这限制了模型的广泛适用性。

5. 未来研究方向： 基于上述局限性，论文提出了以下未来研究方向：

多视角查询初始化： 开发更先进的策略来处理单视角查询点，实现更可靠的多视角点跟踪。
更广泛的适用性： 探索 MV-TAP 在更广泛场景下的应用，例如处理更具挑战性的动态场景和更复杂的物体交互。
提升效率： 尽管 MV-TAP 已经取得了很好的性能，但进一步优化模型的计算效率，使其能够应用于实时场景，也是一个重要的研究方向。

总而言之，这篇论文成功地定义并解决了多视角点跟踪这一重要且具有挑战性的问题，通过引入创新的模型架构和数据集，显著提升了点跟踪的性能和鲁棒性，并为该领域未来的研究奠定了坚实的基础。

Key Findings:

In this work, we present MV-TAP, a novel point tracker that tracks points across multi-view videos of dynamic scenes by leveraging cross-view information.
Extensive experiments demonstrate that MV-TAP outperforms existing point-tracking methods on challenging benchmarks, establishing an effective baseline for advancing research in multi-view point tracking.

Links:

PDF
arXiv

Learning Visual Affordance from Audio

Authors: Lidong Lu, Guo Chen, Zhu Wei, Yicheng Liu, Tong Lu

Published: 2025-12-01

Categories: cs.CV

Abstract:

We introduce Audio-Visual Affordance Grounding (AV-AG), a new task that segments object interaction regions from action sounds. Unlike existing approaches that rely on textual instructions or demonstration videos, which often limited by ambiguity or occlusion, audio provides real-time, semantically rich, and visually independent cues for affordance grounding, enabling more intuitive understanding of interaction regions. To support this task, we construct the first AV-AG dataset, comprising a large collection of action sounds, object images, and pixel-level affordance annotations. The dataset also includes an unseen subset to evaluate zero-shot generalization. Furthermore, we propose AVAGFormer, a model equipped with a semantic-conditioned cross-modal mixer and a dual-head decoder that effectively fuses audio and visual signals for mask prediction. Experiments show that AVAGFormer achieves state-of-the-art performance on AV-AG, surpassing baselines from related tasks. Comprehensive analyses highlight the distinctions between AV-AG and AVS, the benefits of end-to-end modeling, and the contribution of each component. Code and dataset have been released on https://jscslld.github.io/AVAGFormer/.

Analysis:

好的，这是对论文“Learning Visual Affordance from Audio”的全面中文摘要：

论文题目： Learning Visual Affordance from Audio

作者： Lidong Lu, Guo Chen, Zhu Wei, Yicheng Liu, Tong Lu

摘要：

1. 研究问题与动机：

该论文旨在解决视觉感知中的交互区域识别（Affordance Grounding）问题，特别是如何利用声音信息来更直观、更鲁棒地识别物体可交互的区域。现有方法主要依赖文本指令或演示视频，但这些方法常受限于歧义、遮挡或需要精确的指令，难以在复杂或动态场景下有效工作。论文提出的核心问题是：声音能否揭示物体交互的区域？

2. 主要创新与方法贡献：

提出新的任务：Audio-Visual Affordance Grounding (AV-AG)。该任务专注于从动作声音中分割出物体可交互的区域，强调声音作为一种实时、语义丰富且视觉独立的线索。
构建首个 AV-AG 数据集 (AVAGD)。该数据集包含大量动作声音、物体图像以及像素级的交互区域（功能区域和依赖区域）标注。其特点是数据规模大、类别丰富（97个物体类别，55个交互类别），覆盖多种领域，并且包含一个用于评估零样本泛化的“未见”子集。
提出 AVAGFormer 模型。该模型是针对 AV-AG 任务设计的端到端模型，其核心创新包括：
- 语义条件化跨模态混合器 (Semantic-Conditioned Cross-Modal Mixer)：能够将文本语义（如“功能”或“依赖”）注入到跨模态融合过程中，引导模型更准确地对齐音频和视觉信息，生成功能和依赖区域的特定表示。
- 双头交互式解码器 (Dual-Head Affordance Decoder)：采用两个并行的解码头，一个用于预测功能区域掩码，另一个利用功能区域的预测结果来指导依赖区域的预测，实现隐式跨任务协同，提升整体性能和泛化能力。
详细的消融研究和分析：论文深入分析了模型各组件（如跨模态混合器、双头解码器、辅助损失等）的贡献，以及 AV-AG 任务与现有音频视觉分割 (AVS) 任务的区别。

3. 主要结果与意义：

AVAGFormer 在 AV-AG 任务上取得了最先进 (State-of-the-Art) 的性能，显著优于从相关任务（如 AVS）迁移过来的基线模型。
在零样本泛化评估中，AVAGFormer 也表现出强大的泛化能力，表明其学习到的跨模态表示能够有效应对未见过的数据。
研究结果证明了声音信息在视觉交互区域识别中的重要价值，尤其是在视觉信息不完整或存在遮挡的情况下。
AVAGD 数据集的发布为未来在音频视觉理解、多模态对齐和具身智能等领域的研究提供了重要的基准和资源。

4. 提及的局限性：

论文提到，现有 AVS 模型在 AV-AG 任务上表现不佳，表明从对象级 AVS 到部分级 AV-AG 的任务转变带来了显著的挑战，需要更强的语义理解能力。
对于依赖区域的预测，由于并非所有类别都有明确的依赖区域，这给模型训练带来了一定的不平衡性。
虽然 AVAGFormer 取得了优异的性能，但论文也指出，在复杂场景下，模型仍可能存在误识别，尤其是在处理多个声音源时。

5. 未来研究方向：

扩展 AVAGD 数据集以支持动态和多步交互：未来的工作可以进一步丰富数据集，包含更复杂的、需要一系列动作才能完成的交互场景，以更好地模拟真实世界的具身智能任务。
探索更精细的跨模态融合机制：进一步研究如何更有效地融合音频和视觉信息，以应对更具挑战性的场景和更细粒度的交互理解。
提升模型在复杂环境下的鲁棒性：例如，在存在背景噪声或多个声音源干扰的情况下，如何保持准确的交互区域识别。

总结：

这篇论文成功地提出了一个全新的音频视觉交互区域识别 (AV-AG) 任务，并为此构建了一个大规模、高质量的数据集 (AVAGD)。其核心贡献在于提出了AVAGFormer 模型，该模型通过创新的语义条件化跨模态混合器和双头交互式解码器，有效融合了音频和视觉信息，实现了在 AV-AG 任务上的最先进性能。这项工作不仅为多模态理解和具身智能领域开辟了新的研究方向，也为未来更智能的机器人交互提供了重要的技术基础。

Key Findings:

We introduce Audio-Visual Affordance Grounding (AV-AG), a new task that segments object interaction regions from action sounds.
Furthermore, we propose AVAGFormer, a model equipped with a semantic-conditioned cross-modal mixer and a dual-head decoder that effectively fuses audio and visual signals for mask prediction.
Experiments show that AVAGFormer achieves state-of-the-art performance on AV-AG, surpassing baselines from related tasks.
Comprehensive analyses highlight the distinctions between AV-AG and AVS, the benefits of end-to-end modeling, and the contribution of each component.

Links:

PDF
arXiv

RoaD: Rollouts as Demonstrations for Closed-Loop Supervised Fine-Tuning of Autonomous Driving Policies

Authors: Guillermo Garcia-Cobo, Maximilian Igl, Peter Karkus, Zhejun Zhang, Michael Watson, Yuxiao Chen, Boris Ivanovic, Marco Pavone

Published: 2025-12-01

Categories: cs.RO, cs.AI, cs.CV, cs.LG

Abstract:

Autonomous driving policies are typically trained via open-loop behavior cloning of human demonstrations. However, such policies suffer from covariate shift when deployed in closed loop, leading to compounding errors. We introduce Rollouts as Demonstrations (RoaD), a simple and efficient method to mitigate covariate shift by leveraging the policy's own closed-loop rollouts as additional training data. During rollout generation, RoaD incorporates expert guidance to bias trajectories toward high-quality behavior, producing informative yet realistic demonstrations for fine-tuning. This approach enables robust closed-loop adaptation with orders of magnitude less data than reinforcement learning, and avoids restrictive assumptions of prior closed-loop supervised fine-tuning (CL-SFT) methods, allowing broader applications domains including end-to-end driving. We demonstrate the effectiveness of RoaD on WOSAC, a large-scale traffic simulation benchmark, where it performs similar or better than the prior CL-SFT method; and in AlpaSim, a high-fidelity neural reconstruction-based simulator for end-to-end driving, where it improves driving score by 41% and reduces collisions by 54%.

Analysis:

好的，这是对论文“RoaD: Rollouts as Demonstrations for Closed-Loop Supervised Fine-Tuning of Autonomous Driving Policies”的全面中文摘要：

论文题目： RoaD: Rollouts as Demonstrations for Closed-Loop Supervised Fine-Tuning of Autonomous Driving Policies (RoaD：用于闭环监督精调自动驾驶策略的轨迹作为演示)

作者： Guillermo Garcia-Cobo, Maximilian Igl, Peter Karkus, Zhejun Zhang, Michael Watson, Yuxiao Chen, Boris Ivanovic, Marco Pavone

摘要

1. 研究问题/核心挑战：

自动驾驶策略通常采用开环行为克隆 (Behavior Cloning, BC) 的方式，基于人类演示数据进行训练。然而，当这些策略在闭环（即策略的输出会影响其未来的输入）环境中部署时，会遇到协变量偏移 (covariate shift) 的问题。这种偏移导致策略的预测与实际环境不匹配，从而引发累积误差，降低其鲁棒性，尤其是在长尾场景和交互式场景中。现有的闭环监督精调 (Closed-Loop Supervised Fine-Tuning, CL-SFT) 方法虽然有所改进，但通常依赖于离散动作空间、确定性动力学以及对专家演示的严格假设，限制了其在现代端到端 (End-to-End, E2E) 驾驶策略上的应用。

2. 关键创新/方法贡献：

本文提出了一种名为 RoaD (Rollouts as Demonstrations) 的新颖、简单且高效的闭环监督精调方法，旨在解决上述问题。RoaD的核心贡献在于：

利用策略自身的闭环轨迹作为额外训练数据： RoaD的核心思想是生成策略在闭环环境下的轨迹（称为“rollouts”），并将这些轨迹作为额外的监督信号来精调策略。这直接解决了开环训练与闭环部署之间的协变量偏移问题。
引入专家指导的轨迹生成： 在生成闭环轨迹时，RoaD会引入专家指导，使生成的轨迹更偏向于高质量的行为。这确保了生成的演示数据既具有信息量，又贴近策略实际可能遇到的情况。
移除对离散动作和确定性动力学的假设： 与先前工作（如CAT-K）不同，RoaD不要求动作空间是离散的，也不依赖于精确的逆动力学模型。它通过采样K个动作候选（Sample-K）并选择最接近专家轨迹的动作来指导轨迹生成，使其能够适用于更广泛的现代E2E驾驶策略（如基于Transformer或扩散模型的策略）。
轻量级恢复模式 (Recovery Mode)： 为了应对策略在某些情况下可能产生与专家轨迹相距甚远的动作，RoaD引入了一个可选的恢复模式。当检测到策略输出的动作偏离专家轨迹过远时，该模式会轻微地将策略的输出引导回专家轨迹，以确保轨迹的质量。
数据效率和可复用性： RoaD通过重用收集到的闭环轨迹数据集进行多次优化，显著提高了数据效率，这对于高成本的模拟器（如需要渲染传感器输入的E2E模拟器）尤为重要。

3. 主要结果与意义：

交通仿真 (WOSAC)： RoaD在WOSAC基准测试中表现出色，与现有的SOTA CL-SFT方法CAT-K相当，甚至在某些指标上有所超越。更重要的是，RoaD的成功表明其方法论可以应用于更广泛的场景，而不仅仅是交通仿真。
端到端驾驶 (AlpaSim)： 在高保真度的端到端驾驶模拟器AlpaSim中，RoaD取得了显著的性能提升。与基线模型相比，RoaD精调后的策略驾驶得分提高了41%，碰撞率降低了54%。这证明了RoaD在处理复杂、高保真度的E2E驾驶任务中的有效性。
数据效率： RoaD即使在仅收集一次闭环数据的情况下也能带来显著的性能提升，这对于高成本的模拟环境来说是一个重要的优势。
通用性： RoaD的创新使其能够应用于现代E2E驾驶策略，克服了先前CL-SFT方法在动作空间和动力学假设上的限制。

4. 提及的局限性：

对预训练策略的依赖： RoaD的有效性在一定程度上依赖于预训练策略本身具有较高的性能。
专家轨迹的假设： 方法假设专家轨迹代表了良好的行为，并且在策略的轻微偏差下仍然是可行的。
距离度量： 专家指导的轨迹生成依赖于一个合适的距离度量来衡量策略输出与专家轨迹的接近程度。
模拟器依赖： 该方法在AlpaSim等高保真度模拟器上进行了验证，其在真实世界中的表现仍需进一步验证。
Sim2Real差距： 论文提到，模拟环境与真实世界之间可能存在的差距（Sim2Real gap）是所有基于模拟的训练方法面临的挑战。

5. 潜在的未来研究方向：

显式解决Sim2Real差距： 未来工作可以更明确地解决模拟到现实的迁移问题，例如通过联合训练模拟和真实数据，或者引入特征相似性瓶颈。
多智能体交互： 虽然在交通仿真中考虑了多智能体，但进一步探索RoaD在更复杂的、动态交互式多智能体场景中的应用。
更广泛的策略类型： 探索RoaD在更多新兴的E2E策略类型上的适用性。
自动化超参数调优： 尽管RoaD对超参数不敏感，但进一步研究自动化超参数调优策略可以简化其实际应用。

总结：

RoaD方法通过巧妙地利用策略自身的闭环轨迹并结合专家指导，成功地解决了自动驾驶策略在闭环部署中面临的协变量偏移问题。它克服了先前CL-SFT方法的局限性，显著提升了策略在交通仿真和端到端驾驶任务中的性能，同时保持了数据效率和通用性。这项工作为开发更鲁棒、更高效的自动驾驶策略提供了一种有前景的解决方案。

Key Findings:

We introduce Rollouts as Demonstrations (RoaD), a simple and efficient method to mitigate covariate shift by leveraging the policy's own closed-loop rollouts as additional training data.
We demonstrate the effectiveness of RoaD on WOSAC, a large-scale traffic simulation benchmark, where it performs similar or better than the prior CL-SFT method; and in AlpaSim, a high-fidelity neural reconstruction-based simulator for end-to-end driving, where it improves driving score by 41% and reduces collisions by 54%.

Links:

PDF
arXiv

Arxiv Report 2025 12 02 - Owen-Liuyuxuan/everyday_my_arxiv GitHub Wiki

Arxiv Computer Vision Papers - 2025-12-02

Executive Summary

Table of Contents

Papers