Arxiv Report 2025 12 23 - Owen-Liuyuxuan/everyday_my_arxiv GitHub Wiki

Arxiv Computer Vision Papers - 2025-12-23

Executive Summary

好的，作为一名专注于计算机视觉和机器学习的研究助理，我将为您提供一份关于2025年12月22日 Arxiv 计算机视觉领域论文的简明执行摘要。

执行摘要：2025年12月22日 Arxiv 计算机视觉论文精选

主要趋势与主题：

本期论文集聚焦于几个关键领域，展现了计算机视觉研究的几个重要发展方向：

多模态融合与理解： 多个研究深入探讨了将视觉信息与其他模态（如音频、文本）相结合，以实现更强大、更全面的感知能力。
三维视觉与几何表示： 对三维场景的理解、重建和动态表示是另一大亮点，尤其是在视频和扩散模型方面的进展。
大型多模态模型（LMMs）的进步与挑战： 研究人员正在探索 LMMs 在不同任务中的应用，同时也揭示了其在空间推理等方面的局限性。
生成模型与表示学习： 利用自编码器和扩散模型等技术，在像素级和语义级表示的学习与生成方面取得了新进展。

亮点与创新：

"The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding" 提出了一种统一的自编码方法，旨在协调语义和像素级别的表示，这可能为更深层次的视觉理解提供新的框架。
"Pushing the Frontier of Audiovisual Perception with Large-Scale Multimodal Correspondence Learning" 在视听感知领域取得了显著进展，通过大规模多模态对应学习，有望提升模型对跨模态信息的理解能力。
"WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion" 引入了一种利用异步视频扩散模型传播三维几何的新方法，为动态三维场景的重建和理解提供了创新的解决方案。

新兴研究方向与技术：

统一表示学习： 将不同层次的视觉信息（像素、语义）整合到统一的表示空间中，是未来研究的重要方向。
视听感知： 视听信息的深度融合将成为提升模型感知能力的关键，尤其是在理解复杂场景和交互时。
动态三维几何传播： 利用扩散模型等生成技术处理视频中的三维几何信息，为实时三维重建和场景理解开辟了道路。
LMMs 的空间推理能力提升： 解决 LMMs 在处理室内和开放世界场景时存在的空间推理差距，是推动其落地应用的关键。
基于学习的动态系统： 将四维高斯溅射等技术视为学习到的动态系统，预示着对三维场景动态演化的新理解方式。

建议阅读论文：

为了快速了解本期论文的精髓和潜在影响，建议优先阅读以下论文：

"The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding": 探索统一表示学习的潜力。
"Pushing the Frontier of Audiovisual Perception with Large-Scale Multimodal Correspondence Learning": 了解视听融合的最新进展。
"WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion": 关注视频中三维几何传播的创新方法。
"From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs": 了解 LMMs 在空间推理方面的挑战与机遇。

这份摘要旨在为忙碌的研究人员提供一个快速了解 Arxiv 计算机视觉领域最新动态的窗口。希望它能帮助您高效地把握该领域的关键进展。

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
Pushing the Frontier of Audiovisual Perception with Large-Scale Multimodal Correspondence Learning
Visual-Aware CoT: Achieving High-Fidelity Visual Consistency in Unified Models
Zero-shot Reconstruction of In-Scene Object Manipulation from Video
From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs
VA-$π$: Variational Policy Alignment for Pixel-Aware Autoregressive Generation
WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion
Multimodal LLMs for Historical Dataset Construction from Archival Image Scans: German Patents (1877-1918)
4D Gaussian Splatting as a Learned Dynamical System
LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry

Papers

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

Authors: Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu

Published: 2025-12-22

Categories: cs.CV

Abstract:

Deep representations across modalities are inherently intertwined. In this paper, we systematically analyze the spectral characteristics of various semantic and pixel encoders. Interestingly, our study uncovers a highly inspiring and rarely explored correspondence between an encoder's feature spectrum and its functional role: semantic encoders primarily capture low-frequency components that encode abstract meaning, whereas pixel encoders additionally retain high-frequency information that conveys fine-grained detail. This heuristic finding offers a unifying perspective that ties encoder behavior to its underlying spectral structure. We define it as the Prism Hypothesis, where each data modality can be viewed as a projection of the natural world onto a shared feature spectrum, just like the prism. Building on this insight, we propose Unified Autoencoding (UAE), a model that harmonizes semantic structure and pixel details via an innovative frequency-band modulator, enabling their seamless coexistence. Extensive experiments on ImageNet and MS-COCO benchmarks validate that our UAE effectively unifies semantic abstraction and pixel-level fidelity into a single latent space with state-of-the-art performance.

Analysis:

好的，这是对论文“The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding”的全面摘要，重点关注其在计算机视觉和机器学习领域的贡献：

论文摘要：The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

1. 研究问题/核心挑战：

该论文旨在解决多模态深度表示（如图像和文本）之间固有的交织性问题。具体来说，研究人员发现，现有的语义编码器（用于理解抽象概念）和像素编码器（用于捕捉精细细节）在功能上存在显著差异，这导致了它们在表示上的不匹配。这种不匹配阻碍了统一模型的发展，并可能导致训练效率低下和表示冲突。论文的核心问题在于：如何有效地统一不同模态的表示，使其既能捕捉全局语义信息，又能保留精细的像素级细节，从而实现更强大的理解和生成能力。

2. 主要创新点/方法论贡献：

Prism Hypothesis（棱镜假说）： 作者提出了一个核心理论，即自然世界的输入（如图像）可以被视为投影到一个共享的特征频谱上。在这个频谱中，低频分量主要编码抽象的全局语义信息（如类别、属性、关系），而高频分量则捕捉精细的局部细节（如边缘、纹理）。这个假说将不同模态的表示统一在一个连续的频谱框架下。
Unified Autoencoding (UAE) 模型： 基于棱镜假说，作者提出了一种新颖的统一自编码器（UAE）模型。UAE的核心是一个创新的频率-频段调制器（frequency-band modulator），它能够将输入图像的表示分解成多个频率频段。
- 频率分解： UAE首先将编码器的潜在表示通过FFT（快速傅里叶变换）分解成多个频率频段。
- 残差分割流（Residual Split Flow）： 采用迭代分割的方式，将原始特征分解为低频基础频段和多个高频残差频段。
- 语义感知损失（Semantic-wise Loss）： 在训练过程中，作者引入了一个语义感知损失，将UAE的低频频段与预训练的语义编码器进行对齐，以保留全局语义信息。
- 像素级重建损失（Pixel-wise Reconstruction Loss）： 同时，通过像素解码器进行图像重建，并采用噪声注入等策略来增强模型对高频细节的捕捉能力，确保像素级保真度。
统一的潜在空间： UAE的目标是学习一个统一的潜在空间，该空间能够和谐地融合语义结构和像素细节，使得低频部分负责语义，高频部分负责细节，并能无缝地与现有的扩散Transformer等模型集成。

3. 主要结果及其意义：

卓越的重建质量： 在ImageNet和MS-COCO数据集上，UAE在PSNR、SSIM和rFID等指标上取得了最先进（state-of-the-art）的性能。与RAE等现有统一模型相比，UAE在PSNR和SSIM上显著提升，rFID大幅降低，表明其在保留精细细节和全局语义方面表现出色。
强大的语义理解能力： 通过线性探测实验，UAE在ImageNet-1K上达到了83.0%的top-1准确率，与大型模型相当，证明了其统一潜在空间能够有效保留强大的语义可辨识性。t-SNE可视化也表明，UAE的低频分量保留了原始DINOv2编码器的全局语义结构。
有效的生成基础： UAE生成的潜在空间被证明是扩散友好的（diffusion-friendly），为大规模视觉生成任务提供了坚实的基础。在类条件生成任务中，UAE取得了与现有SOTA模型相当的性能。
鲁棒性： 实验表明，UAE的频率分解设计对频段数量不敏感，具有良好的鲁棒性，并且使用更少的频段也能获得接近最优的性能。

意义： 该研究提供了一个统一的视角来理解和处理多模态表示，揭示了特征频谱与模型功能之间的深刻联系。UAE模型通过创新的频率分解和调制机制，成功地解决了语义抽象与像素保真度之间的矛盾，为构建更强大、更通用的视觉模型奠定了基础。

4. 提及的局限性：

论文中并未明确列出局限性，但可以推断出：

计算成本： 虽然UAE在性能上表现优异，但其频率分解和重构过程可能带来一定的计算开销，尤其是在处理高分辨率图像时。
预训练模型的依赖： UAE的初始化依赖于预训练的语义编码器（如DINOv2），这意味着其性能在一定程度上受限于预训练模型的质量和特性。

5. 潜在的未来研究方向：

更广泛的模态融合： 将UAE的频率分解思想扩展到更多模态（如音频、视频、3D数据）的融合，探索跨模态的统一表示。
更精细的频率控制： 研究更精细的频率频段划分和调制策略，以实现更精细的语义和细节控制。
自监督学习的进一步探索： 探索完全自监督的UAE模型，无需依赖预训练的语义编码器，以实现更通用的表示学习。
动态频率分配： 开发能够根据输入内容动态调整频率分配的机制，以更有效地捕捉不同场景下的信息。
更高效的实现： 优化UAE的计算效率，使其能够更广泛地应用于实时应用和大规模模型训练。

总而言之，这篇论文通过提出“棱镜假说”和创新的UAE模型，为统一多模态表示提供了一个新颖且有效的框架，在视觉理解和生成领域取得了显著的进展。

Key Findings:

Building on this insight, we propose Unified Autoencoding (UAE), a model that harmonizes semantic structure and pixel details via an innovative frequency-band modulator, enabling their seamless coexistence.
Extensive experiments on ImageNet and MS-COCO benchmarks validate that our UAE effectively unifies semantic abstraction and pixel-level fidelity into a single latent space with state-of-the-art performance.

Links:

PDF
arXiv

Pushing the Frontier of Audiovisual Perception with Large-Scale Multimodal Correspondence Learning

Authors: Apoorv Vyas, Heng-Jui Chang, Cheng-Fu Yang, Po-Yao Huang, Luya Gao, Julius Richter, Sanyuan Chen, Matt Le, Piotr Dollár, Christoph Feichtenhofer, Ann Lee, Wei-Ning Hsu

Published: 2025-12-22

Categories: cs.SD, cs.CV, cs.LG

Abstract:

We introduce Perception Encoder Audiovisual, PE-AV, a new family of encoders for audio and video understanding trained with scaled contrastive learning. Built on PE, PE-AV makes several key contributions to extend representations to audio, and natively support joint embeddings across audio-video, audio-text, and video-text modalities. PE-AV's unified cross-modal embeddings enable novel tasks such as speech retrieval, and set a new state of the art across standard audio and video benchmarks. We unlock this by building a strong audiovisual data engine that synthesizes high-quality captions for O(100M) audio-video pairs, enabling large-scale supervision consistent across modalities. Our audio data includes speech, music, and general sound effects-avoiding single-domain limitations common in prior work. We exploit ten pairwise contrastive objectives, showing that scaling cross-modality and caption-type pairs strengthens alignment and improves zero-shot performance. We further develop PE-A-Frame by fine-tuning PE-AV with frame-level contrastive objectives, enabling fine-grained audio-frame-to-text alignment for tasks such as sound event detection.

Analysis:

好的，这是一篇关于“推动视听感知前沿：大规模多模态对应学习”的论文的全面摘要，由Apoorv Vyas等人撰写。

论文题目： Pushing the Frontier of Audiovisual Perception with Large-Scale Multimodal Correspondence Learning (推动视听感知前沿：大规模多模态对应学习)

作者： Apoorv Vyas, Heng-Jui Chang, Cheng-Fu Yang, Po-Yao Huang, Luya Gao, Julius Richter, Sanyuan Chen, Matt Le, Piotr Dollár, Christoph Feichtenhofer, Ann Lee, Wei-Ning Hsu

摘要：

1. 主要问题/研究问题： 该研究旨在解决当前多模态（音频、视频、文本）学习中的一个关键挑战：音频-视频-文本模态之间的对齐和表示学习不足，尤其是在大规模、多样化的数据集上。 现有方法在整合这些模态时存在数据规模不均衡、跨模态对齐效果有限、以及音频模态在某些任务上表现滞后等问题。因此，研究的核心问题是如何构建一个能够有效整合音频、视频和文本信息，并在广泛的下游任务中实现最先进（SOTA）性能的统一多模态编码器。

2. 关键创新或方法论贡献：

Perception Encoder Audiovisual (PE-AV) 系列编码器： 论文引入了PE-AV，这是一个全新的音频-视频-文本多模态编码器家族。它基于现有的PE（Perception Encoder）模型，并将其扩展到音频模态，实现了音频-视频、音频-文本和视频-文本模态的联合嵌入。
大规模视听数据引擎： 为了实现大规模的跨模态学习，研究者构建了一个强大的视听数据引擎。该引擎能够合成高质量的、跨模态一致的文本描述（约1亿个音频-视频对），从而解决了数据稀疏性和标注成本高的问题。这种合成数据引擎能够生成包含语音、音乐和通用音效等多样化音频内容的数据，避免了以往工作中常见的单领域限制。
多样的对比学习目标： 论文利用了多达十种成对的对比学习目标，涵盖了多种模态对和文本描述类型。研究表明，扩大对比学习的范围和类型能够显著增强模态间的对齐，并提升零样本（zero-shot）性能。
PE-A-Frame：细粒度的音频-帧-文本对齐： 论文进一步提出了PE-A-Frame，通过在PE-AV基础上引入帧级别的对比学习目标，实现了音频信号中特定帧与文本描述之间的细粒度对齐。这使得模型能够处理诸如声音事件检测（SED）等需要精确时间对齐的任务。
统一的跨模态嵌入： PE-AV能够生成统一的跨模态嵌入，使得音频、视频和文本信息能够在一个共享的嵌入空间中被有效表示和关联，从而支持新颖的任务，如语音检索。

3. 主要结果及其意义：

SOTA性能： PE-AV在多个音频-视频基准测试中取得了最先进的零样本性能，显著优于现有的音频-文本和音频-视频-文本模型。例如，在AudioCaps上，文本到音频检索的R@1得分从35.4提升到45.8；在VGGSound上，分类准确率从36.0提升到47.1。
语音检索的突破： PE-AV是第一个能够实现语音检索（85.6 R@1）的模型，而其他模型在此任务上得分接近于零。
视频任务的提升： 在视频检索任务上，PE-AVL在ActivityNet上将文本到视频检索的R@1得分从60.4提升到66.5；在Kinetics-400上，视频分类准确率从76.9提升到78.9，超越了参数量大2-4倍的模型。
跨模态能力的展现： PE-AV能够有效地捕捉不同模态之间的对应关系，例如在视频-文本检索中，它能够利用音频信息来打破视频和文本之间的歧义，从而更准确地检索结果。
广泛的音频覆盖： 其音频编码器能够覆盖语音、音乐和通用音效等多种音频类型，克服了以往模型在单一领域上表现优异但泛化能力不足的缺点。

4. 论文中提到的局限性：

数据规模和计算成本： 尽管论文通过数据引擎解决了数据规模问题，但训练如此大规模的多模态模型仍然需要巨大的计算资源。
特定任务的性能差异： 虽然在许多任务上取得了SOTA，但论文也提到，在某些特定场景下，如需要更精细时间对齐的音频事件检测，仍有进一步优化的空间。
模型大小与性能的权衡： 论文展示了模型大小（参数量）对性能的影响，但达到最佳性能的模型（PEAVL）参数量较大，这可能限制其在资源受限环境下的应用。

5. 未来研究方向：

更广泛的模态整合： 将PE-AV的框架扩展到更多模态，如触觉、气味等，构建更全面的全模态感知模型。
更高效的训练方法： 探索更高效的训练策略和模型架构，以降低大规模多模态模型的训练成本。
更精细的跨模态理解： 进一步研究如何实现更深层次的跨模态理解，例如理解模态间的因果关系和更复杂的交互。
下游应用的拓展： 将PE-AV的能力应用于更广泛的下游应用，如多模态内容生成、人机交互、机器人感知等。
鲁棒性和公平性： 进一步研究模型在不同环境、不同人群数据下的鲁棒性和公平性问题。

对计算机视觉领域的意义：

这篇论文对计算机视觉领域具有重要意义，主要体现在以下几个方面：

推动了多模态学习的边界： 通过引入大规模的视听数据引擎和创新的对比学习方法，论文极大地推动了音频、视频和文本模态的有效融合，为构建更全面、更强大的多模态理解模型奠定了基础。
提升了零样本学习能力： PE-AV在广泛的零样本任务上取得了SOTA性能，证明了大规模、多样化的跨模态预训练能够赋予模型强大的泛化能力，使其能够应对未见过的数据和任务。
为音频模态的整合提供了新思路： 论文成功地将音频模态整合到多模态学习框架中，并取得了显著的性能提升，这对于过去在多模态研究中相对被忽视的音频模态具有重要启示。
为声音事件检测等任务带来了突破： PE-A-Frame在声音事件检测等需要精细时间对齐的任务上取得了显著进展，为相关领域的应用提供了新的可能性。
提供了可复现的研究基础： 论文公开了代码和模型，为后续研究者提供了宝贵的资源，有助于推动该领域的进一步发展。

总而言之，这篇论文通过大规模数据、创新的模型架构和训练策略，显著提升了视听文本多模态学习的能力，为构建更接近人类感知能力的通用人工智能模型迈出了重要一步。

Key Findings:

We introduce Perception Encoder Audiovisual, PE-AV, a new family of encoders for audio and video understanding trained with scaled contrastive learning.
Built on PE, PE-AV makes several key contributions to extend representations to audio, and natively support joint embeddings across audio-video, audio-text, and video-text modalities.
PE-AV's unified cross-modal embeddings enable novel tasks such as speech retrieval, and set a new state of the art across standard audio and video benchmarks.

Links:

PDF
arXiv

Visual-Aware CoT: Achieving High-Fidelity Visual Consistency in Unified Models

Authors: Zixuan Ye, Quande Liu, Cong Wei, Yuanxing Zhang, Xintao Wang, Pengfei Wan, Kun Gai, Wenhan Luo

Published: 2025-12-22

Categories: cs.CV

Abstract:

Recently, the introduction of Chain-of-Thought (CoT) has largely improved the generation ability of unified models. However, it is observed that the current thinking process during generation mainly focuses on the text consistency with the text prompt, ignoring the \textbf{visual context consistency} with the visual reference images during the multi-modal generation, e.g., multi-reference generation. The lack of such consistency results in the failure in maintaining key visual features (like human ID, object attribute, style). To this end, we integrate the visual context consistency into the reasoning of unified models, explicitly motivating the model to sustain such consistency by 1) Adaptive Visual Planning: generating structured visual check list to figure out the visual element of needed consistency keeping, and 2) Iterative Visual Correction: performing self-reflection with the guidance of check lists and refining the generated result in an iterative manner. To achieve this, we use supervised finetuning to teach the model how to plan the visual checking, conduct self-reflection and self-refinement, and use flow-GRPO to further enhance the visual consistency through a customized visual checking reward. The experiments show that our method outperforms both zero-shot unified models and those with text CoTs in multi-modal generation, demonstrating higher visual context consistency.

Analysis:

好的，这是对论文“Visual-Aware CoT: Achieving High-Fidelity Visual Consistency in Unified Models”的全面中文摘要：

论文题目： Visual-Aware CoT: Achieving High-Fidelity Visual Consistency in Unified Models (视觉感知思维链：在统一模型中实现高保真视觉一致性)

作者： Zixuan Ye, Quande Liu, Cong Wei, Yuanxing Zhang, Xintao Wang, Pengfei Wan, Kun Gai, Wenhan Luo

摘要：

1. 主要问题/研究问题： 该论文指出，尽管链式思维（Chain-of-Thought, CoT）在统一模型（unified models）的生成能力方面取得了显著进展，但现有的 CoT 方法主要关注文本与提示（prompt）的一致性，而忽略了在多模态生成（如多参考图像生成）中与视觉参考图像的视觉上下文一致性。这种视觉一致性的缺失导致关键视觉特征（如人物身份、物体属性、风格）无法得到有效保持，从而影响生成结果的质量。因此，研究的核心问题是如何在统一模型中实现高保真的视觉上下文一致性。

2. 关键创新/方法贡献： 为了解决上述问题，作者提出了 Visual-Aware CoT (VACOT) 框架，该框架将视觉上下文一致性显式地整合到统一模型的推理过程中。其核心创新点在于：

自适应视觉规划 (Adaptive Visual Planning)： 生成结构化的视觉检查清单（checklist），系统地识别需要保持一致性的视觉元素，使模型能够明确地推理哪些视觉特征需要被保留。
迭代视觉纠正 (Iterative Visual Correction)： 利用视觉检查清单进行自我反思和迭代式精炼。模型在检查清单的指导下评估其生成结果，并逐步改进。
两阶段训练策略：
- 第一阶段： 使用监督微调（SFT）来训练模型进行视觉规划和自我反思，构建了专门的视觉规划和纠正数据集。
- 第二阶段： 采用 flow-GRPO（一种强化学习框架），并设计了一个定制化的视觉一致性奖励函数，以进一步增强视觉一致性。

3. 主要结果及其意义： 通过广泛的实验，VACOT 在多模态生成任务上取得了显著的成果：

性能优越： VACOT 在多参考图像生成任务上显著优于零样本（zero-shot）的统一模型以及仅关注文本 CoT 的方法，在视觉上下文一致性方面表现出更高的水平。
身份和风格保持： 在定性比较中，VACOT 能够更稳定、更出色地保持人物身份和视觉风格，而基线模型（如 BAGEL）和仅关注文本对齐的方法（如 UiG, UniCoT）则存在明显不足。
不牺牲文本一致性： 实验表明，VACOT 在增强视觉一致性的同时，并未损害其在文本到图像（T2I）生成任务上的基本能力，甚至在某些组合生成任务上有所提升。这表明视觉感知能力的训练能够促进更连贯、更结构化的图像生成。
重要性验证： 消融研究表明，自适应视觉规划和迭代视觉纠正这两个核心组件都对提升性能至关重要。

4. 提及的局限性： 论文中提到，虽然 VACOT 在大多数情况下能有效解决问题，但迭代次数过多（超过 2-3 次）可能会导致性能下降。这可能是因为：

重复的编辑会累积噪声和伪影，降低图像质量。
对于一些根本性的、模型难以识别或有效解决的问题，过多的迭代可能导致模型误判或应用不恰当的修正。

5. 未来研究方向（隐含）： 虽然论文没有明确列出未来研究方向，但从其提出的方法和发现的局限性中可以推断出以下潜在方向：

更鲁棒的迭代机制： 研究如何设计更智能的迭代策略，避免因过度迭代而引入的负面影响，特别是在处理复杂或根本性问题时。
更精细的视觉元素识别与评估： 探索更高级的技术来识别和评估更细粒度的视觉特征，以应对更复杂的视觉一致性要求。
通用性与泛化能力： 进一步探索 VACOT 在更多样化的多模态生成任务（如视频生成、图像编辑等）中的应用和泛化能力。
效率优化： 尽管 flow-GRPO 是一种有效的强化学习方法，但其计算成本可能较高，未来可以探索更高效的训练和推理方法。

总结： 该论文的核心贡献在于提出了一种名为 VACOT 的新颖框架，通过引入自适应视觉规划和迭代视觉纠正，有效地解决了现有统一模型在多模态生成中忽视视觉上下文一致性的问题。VACOT 通过结构化的检查清单和迭代式精炼，显著提升了生成图像的视觉保真度，特别是在人物身份和风格保持方面。实验结果表明，VACOT 在多参考图像生成任务上取得了最先进的性能，并且不牺牲文本一致性，为实现更可靠、更高质量的多模态生成提供了新的思路。

Key Findings:

The experiments show that our method outperforms both zero-shot unified models and those with text CoTs in multi-modal generation, demonstrating higher visual context consistency.

Links:

PDF
arXiv

Zero-shot Reconstruction of In-Scene Object Manipulation from Video

Authors: Dixuan Lin, Tianyou Wang, Zhuoyang Pan, Yufu Wang, Lingjie Liu, Kostas Daniilidis

Published: 2025-12-22

Categories: cs.CV, cs.RO

Abstract:

We build the first system to address the problem of reconstructing in-scene object manipulation from a monocular RGB video. It is challenging due to ill-posed scene reconstruction, ambiguous hand-object depth, and the need for physically plausible interactions. Existing methods operate in hand centric coordinates and ignore the scene, hindering metric accuracy and practical use. In our method, we first use data-driven foundation models to initialize the core components, including the object mesh and poses, the scene point cloud, and the hand poses. We then apply a two-stage optimization that recovers a complete hand-object motion from grasping to interaction, which remains consistent with the scene information observed in the input video.

Analysis:

好的，这是对论文“Zero-shot Reconstruction of In-Scene Object Manipulation from Video”的全面摘要，重点关注其研究问题、方法创新、结果、局限性和未来方向：

论文题目： Zero-shot Reconstruction of In-Scene Object Manipulation from Video

作者： Dixuan Lin, Tianyou Wang, Zhuoyang Pan, Yufu Wang, Lingjie Liu, Kostas Daniilidis

摘要：

1. 研究问题： 该论文旨在解决从单目RGB视频中重建场景内物体操控（例如，抓取、移动、放置物体）的挑战性问题。现有方法通常在手部坐标系下进行，忽略了场景信息，导致重建的度量精度不足且难以在实际应用中使用。主要挑战包括：单目场景重建的固有不适定性、手部与物体深度估计的模糊性，以及实现物理上可信的手部-物体交互的困难。

2. 关键创新与方法贡献： 该研究提出了首个能够从单目RGB视频中重建场景内物体操控的系统。其核心创新在于：

场景对齐的重建： 与以往仅关注手部或物体的方法不同，该系统能够将手部和物体的运动重建到全局场景坐标系中，提高了度量精度和实用性。
两阶段优化框架：
- 初始化： 利用数据驱动的基础模型（如SpatialTrackerV2、Hi3DGen/Amodal3R、Foundationpose、HaPTIC）来初始化核心组件，包括场景点云、物体网格和姿态、以及手部姿态。
- 两阶段优化： 将手部-物体运动分解为两个阶段进行优化：
  - 交互阶段（Interaction Stage）： 重点在于实现深度一致的手部-物体运动，通过接触点匹配、物理碰撞约束（SDF损失）、运动平滑性和正则化来优化手部姿态和物体姿态。
  - 抓取阶段（Grasping Stage）： 专注于优化手部接近和抓取物体的过程，利用人类运动先验（Egoallo）来完成手部运动的补全，并进一步优化抓取姿态，避免手指与物体的穿透。
接触点约束： 提出了一种有效的接触点匹配算法，通过采样手部指尖顶点作为接触候选点，并将其与物体表面进行匹配，以实现精确的手部-物体对齐。
物理一致性： 引入了多种损失函数（如接触损失、穿透损失、平滑损失、正则化损失）来确保重建的运动在物理上是可信的。

3. 主要结果与意义：

性能提升： 在DexYCB和HOI4D等标准数据集上，该系统在手部姿态准确性、轨迹偏差以及物理交互指标（如穿透体积、穿透深度、运动平滑度）方面均取得了显著的改进，尤其是在场景对齐和物理交互方面。
“零样本”能力： 该系统能够处理之前未见过的物体和场景，展现了其“零样本”泛化能力。
实际应用潜力： 通过实现场景对齐的物体操控重建，该系统为机器人抓取、增强现实/虚拟现实交互等应用提供了更准确、更实用的基础。
定性结果： 在“in-the-wild”视频上的定性结果也表明，该方法能够生成逼真且与场景一致的手部-物体运动。

4. 局限性：

对场景分割和物体重建的依赖： 系统的性能在很大程度上依赖于初始场景分割和物体重建的准确性。在低光照或严重运动模糊的情况下，这些步骤可能失败，从而影响后续的接触点识别。
物体重建的单帧依赖： 目前，物体重建主要依赖于视频的第一帧。作者指出，利用整个视频序列的信息进行物体重建是一个有待改进的方向。
手部可见性限制： 手部检测算法在手部不可见时效果不佳，这使得在抓取阶段需要依赖人类运动先验来补全运动。

5. 未来研究方向：

利用多帧信息进行物体重建： 改进物体重建模块，使其能够从整个视频序列中提取信息，提高重建的鲁棒性。
处理更复杂的场景和交互： 扩展系统以处理多物体交互、更精细的物体操作以及更具挑战性的场景。
端到端的学习： 探索端到端的学习方法，以减少对预训练基础模型的依赖，并可能进一步提升性能。
实时性提升： 进一步优化算法以实现实时或近实时的场景内物体操控重建。

总而言之，该论文在从单目视频重建场景内物体操控这一具有挑战性的领域取得了重要进展，通过创新的两阶段优化框架和对基础模型的有效利用，实现了场景对齐、物理可信的手部-物体运动重建，为机器人和人机交互领域开辟了新的可能性。

Key Findings:

In our method, we first use data-driven foundation models to initialize the core components, including the object mesh and poses, the scene point cloud, and the hand poses.

Links:

PDF
arXiv

From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs

Authors: Mingrui Wu, Zhaozhi Wang, Fangjinhua Wang, Jiaolong Yang, Marc Pollefeys, Tong Zhang

Published: 2025-12-22

Categories: cs.CV

Abstract:

While Multimodal Large Language Models (MLLMs) have achieved impressive performance on semantic tasks, their spatial intelligence--crucial for robust and grounded AI systems--remains underdeveloped. Existing benchmarks fall short of diagnosing this limitation: they either focus on overly simplified qualitative reasoning or rely on domain-specific indoor data, constrained by the lack of outdoor datasets with verifiable metric ground truth. To bridge this gap, we introduce a large-scale benchmark built from pedestrian-perspective videos captured with synchronized stereo cameras, LiDAR, and IMU/GPS sensors. This dataset provides metrically precise 3D information, enabling the automatic generation of spatial reasoning questions that span a hierarchical spectrum--from qualitative relational reasoning to quantitative metric and kinematic understanding. Evaluations reveal that the performance gains observed in structured indoor benchmarks vanish in open-world settings. Further analysis using synthetic abnormal scenes and blinding tests confirms that current MLLMs depend heavily on linguistic priors instead of grounded visual reasoning. Our benchmark thus provides a principled platform for diagnosing these limitations and advancing physically grounded spatial intelligence.

Analysis:

作为计算机视觉和机器学习领域的专家，我对这篇论文摘要进行了深入分析，并为您提供以下中文解读：

1. 论文的主要贡献（2-3句话）

该论文指出，当前多模态大语言模型（MLLMs）在空间智能方面存在显著不足，尤其是在开放世界场景下。为了解决这一问题，作者构建了一个大规模、真实世界的基准数据集，该数据集包含同步的立体相机、LiDAR 和 IMU/GPS 数据，能够生成具有度量精度和层次化的空间推理问题。通过该基准的评估，揭示了 MLLMs 在开放世界中空间推理能力的局限性，并证明它们过度依赖语言先验而非视觉推理。

2. 关键创新或方法论

构建大规模、真实世界的开放世界空间推理基准： 这是论文的核心贡献。该基准数据集的创新之处在于：
- 数据来源： 使用行人视角捕捉的视频，并同步了多种传感器（立体相机、LiDAR、IMU/GPS），这使得数据更具真实性和开放性。
- 度量精度： 强调了“metrically precise 3D information”，这意味着数据集提供了精确的几何和尺度信息，这是以往许多室内基准所缺乏的。
- 问题生成： 能够自动生成跨越定性关系推理、定量度量和运动学理解的层次化空间推理问题。这种自动化和层次化设计有助于更全面地诊断 MLLMs 的能力。
揭示 MLLMs 的空间推理局限性： 通过在新的开放世界基准上进行评估，论文有效地揭示了现有 MLLMs 在从室内到开放世界的迁移中性能急剧下降的现象。
诊断 MLLMs 的推理机制： 通过合成异常场景和“blinding tests”（可能指一种剥离语言先验的测试方法），论文进一步证实了 MLLMs 依赖于语言先验而非真正的视觉推理。

3. 对该领域的潜在影响

推动 MLLMs 的空间智能发展： 该研究直接指出了 MLLMs 在空间理解上的短板，并提供了一个强有力的工具（基准数据集和评估方法）来衡量和改进这一能力。这将促使研究人员更加关注如何让 MLLMs 真正“理解”物理世界。
为更鲁棒和具身 AI 系统奠定基础： 空间智能是构建能够与物理世界交互的 AI 系统的关键。该研究的成果将有助于开发更可靠的机器人、自动驾驶系统以及其他需要精确空间感知的 AI 应用。
重新审视 MLLMs 的评估方法： 论文表明，现有的室内、定性或领域特定的基准不足以全面评估 MLLMs 的真实空间推理能力。这可能会促使社区开发更多样化、更具挑战性的开放世界基准。
促进语言模型与物理世界的连接： 该研究强调了将语言模型与真实的物理世界进行“接地”（grounding）的重要性，避免模型仅仅是“背诵”语言知识。

4. 可能受益的相关领域或应用

机器人学： 需要机器人能够理解和导航复杂的、动态的开放世界环境，进行物体抓取、路径规划等。
自动驾驶： 车辆需要精确的空间感知能力来理解道路状况、其他车辆和行人的位置及运动。
增强现实/虚拟现实 (AR/VR)： 需要将虚拟内容准确地叠加到真实世界中，或在虚拟环境中进行逼真的交互。
三维重建与场景理解： 提升对真实世界场景的几何和语义理解能力。
地理信息系统 (GIS) 和遥感： 分析和理解大范围的地理空间数据。
智能助手和问答系统： 使 AI 能够回答更复杂的关于空间关系和物理过程的问题。

5. 从摘要中可以推断出的局限性

基准数据集的规模和多样性： 虽然被称为“large-scale”，但具体规模和覆盖的场景多样性仍需进一步了解。开放世界是极其复杂的，一个基准可能无法完全捕捉所有挑战。
“自动生成”问题的质量和覆盖范围： 自动生成问题的能力很强大，但生成问题的质量、难度分布以及是否能完全覆盖所有重要的空间推理类型，可能需要进一步验证。
“blinding tests”的具体实现： 摘要中提到的“blinding tests”具体是如何设计的，以及它在多大程度上能够完全剥离语言先验，是评估其有效性的关键。
评估指标的全面性： 摘要提到了性能增益的消失，但具体的评估指标和分析的深度（例如，模型在哪些类型的空间推理上表现最差）需要论文正文来详细说明。
计算资源需求： 处理和推理大规模、高精度的 3D 数据通常需要大量的计算资源，这可能成为模型部署和训练的挑战。

总而言之，这篇论文通过构建一个创新性的开放世界空间推理基准，有力地揭示了当前 MLLMs 在理解物理世界方面的关键瓶颈，并为未来的研究指明了方向。其对“接地”AI 的关注，以及对模型推理机制的深入分析，使其在计算机视觉和机器学习领域具有重要的理论和实践意义。

Key Findings:

To bridge this gap, we introduce a large-scale benchmark built from pedestrian-perspective videos captured with synchronized stereo cameras, LiDAR, and IMU/GPS sensors.

Links:

PDF
arXiv

VA-$π$: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

Authors: Xinyao Liao, Qiyuan He, Kai Xu, Xiaoye Qu, Yicong Li, Wei Wei, Angela Yao

Published: 2025-12-22

Categories: cs.CV

Abstract:

Autoregressive (AR) visual generation relies on tokenizers to map images to and from discrete sequences. However, tokenizers are trained to reconstruct clean images from ground-truth tokens, while AR generators are optimized only for token likelihood. This misalignment leads to generated token sequences that may decode into low-quality images, without direct supervision from the pixel space. We propose VA-$π$, a lightweight post-training framework that directly optimizes AR models with a principled pixel-space objective. VA-$π$ formulates the generator-tokenizer alignment as a variational optimization, deriving an evidence lower bound (ELBO) that unifies pixel reconstruction and autoregressive modeling. To optimize under the discrete token space, VA-$π$ introduces a reinforcement-based alignment strategy that treats the AR generator as a policy, uses pixel-space reconstruction quality as its intrinsic reward. The reward is measured by how well the predicted token sequences can reconstruct the original image under teacher forcing, giving the model direct pixel-level guidance without expensive free-running sampling. The regularization term of the ELBO serves as a natural regularizer, maintaining distributional consistency of tokens. VA-$π$ enables rapid adaptation of existing AR generators, without neither tokenizer retraining nor external reward models. With only 1% ImageNet-1K data and 25 minutes of tuning, it reduces FID from 14.36 to 7.65 and improves IS from 86.55 to 116.70 on LlamaGen-XXL, while also yielding notable gains in the text-to-image task on GenEval for both visual generation model (LlamaGen: from 0.306 to 0.339) and unified multi-modal model (Janus-Pro: from 0.725 to 0.744). Code is available at https://github.com/Lil-Shake/VA-Pi.

Analysis:

好的，这是对论文“VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation”的全面中文摘要，重点关注其研究问题、创新点、主要结果、局限性和未来方向：

论文题目： VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

作者： Xinyao Liao, Qiyuan He, Kai Xu, Xiaoye Qu, Yicong Li, Wei Wei, Angela Yao

摘要：

1. 主要问题/研究问题：

该论文主要解决了当前自回归（AR）视觉生成模型在生成图像质量方面存在的问题。核心挑战在于，AR生成器仅针对离散的token序列进行优化（最大化token似然度），而用于将图像编码为token的tokenizer则是在重构真实图像的监督下训练的。这种“token似然度”与“像素空间真实性”之间的不匹配，导致AR生成器产生的token序列在解码后会生成低质量、带有伪影的图像，即使这些token序列在token层面具有高似然度。论文的研究问题是：能否设计一个目标函数，将token级别的建模与像素级别的分布对齐起来，从而直接优化AR生成器以生成更高质量的图像？

2. 关键创新点/方法论贡献：

像素感知ELBO（Evidence Lower Bound）框架： 论文提出了一种新的变分优化目标，将生成器-tokenizer的对齐问题形式化为一个ELBO，该ELBO统一了像素重构和自回归建模。这提供了一个原则性的像素空间目标。
基于强化学习的对齐策略： 为了在离散的token空间中进行优化，VA-π引入了一种基于强化学习（RL）的对齐策略。它将AR生成器视为一个策略，并利用像素空间重构质量作为内在奖励。这种奖励是通过在“教师强制”（teacher forcing）模式下评估预测token序列重构原始图像的能力来获得的，从而为模型提供了直接的像素级指导，避免了计算成本高昂的“自由运行”（free-running）采样。
轻量级后训练框架： VA-π是一个轻量级的后训练（post-training）框架，可以直接优化现有的AR生成器，而无需重新训练tokenizer或引入外部奖励模型。
结合了像素重构奖励和先验正则化： ELBO中的正则化项自然地充当了保持token分布一致性的角色，而像素重构奖励则直接驱动模型生成更符合像素空间分布的图像。

3. 主要结果及其意义：

显著提升图像质量： 在ImageNet-1K数据集上，VA-π对LlamaGen-XXL模型进行后训练，仅使用1%的数据和25分钟的调优时间，就将FID（Fréchet Inception Distance）从14.36降低到7.65，IS（Inception Score）从86.55提高到116.70。这表明VA-π在图像保真度和多样性方面取得了显著提升。
文本到图像生成任务的改进： 在GenEval基准上，VA-π在文本到图像生成任务中也取得了显著的性能提升。对于纯视觉生成模型LlamaGen，其整体得分从0.306提升到0.339；对于统一的多模态模型Janus-Pro，得分从0.725提升到0.744。这证明了VA-π的泛化能力。
效率和成本效益： VA-π的后训练过程非常高效，仅需少量数据和计算资源（25分钟），并且不需要外部奖励模型，这使其成为一种实用的方法。
理论基础： 论文提供了扎实的理论分析，将像素感知对齐问题形式化为ELBO，并解释了其与VAE和VQVAE的关系。

4. 提及的局限性：

对教师强制的依赖： 论文中提出的像素重构奖励是基于“教师强制”模式下的重构质量。虽然这避免了自由运行采样，但可能无法完全捕捉自由运行模式下的所有挑战。
潜在的“过平滑”问题（通过消融实验间接提及）： 在消融研究中，论文提到仅对tokenizer进行后训练可能会导致生成图像的纹理过于平滑，FID和IS反而恶化。这暗示了仅优化重构路径可能不足以解决所有问题，需要AR生成器本身的像素级对齐。
对现有AR模型的依赖： VA-π是一个后训练框架，其效果依赖于预训练AR模型的质量。

5. 潜在的未来研究方向：

更精细的奖励函数设计： 探索更复杂的像素空间奖励函数，可能包含更细粒度的感知损失或对抗性损失，以进一步提升生成质量。
自由运行模式下的对齐： 研究如何在自由运行模式下直接优化像素空间目标，以克服教师强制的局限性。
与其他生成模型的结合： 将VA-π的对齐思想应用于其他类型的生成模型，如扩散模型或GANs。
更广泛的多模态应用： 探索VA-π在更复杂的跨模态生成任务中的应用，例如视频生成或3D内容生成。
更高效的正则化策略： 研究更有效的正则化方法，以进一步稳定训练并提升模型性能。

总而言之，VA-π提出了一种新颖且高效的后训练框架，通过将自回归生成器的优化目标与像素空间重构质量相结合，显著提升了AR视觉生成模型的图像质量和文本对齐能力。其基于强化学习的像素感知对齐策略，为解决AR生成模型中的核心挑战提供了一个有前景的解决方案。

Key Findings:

We propose VA-$π$, a lightweight post-training framework that directly optimizes AR models with a principled pixel-space objective.

Links:

PDF
arXiv

WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion

Authors: Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, Xinchao Wang

Published: 2025-12-22

Categories: cs.CV, cs.AI

Abstract:

Generating long-range, geometrically consistent video presents a fundamental dilemma: while consistency demands strict adherence to 3D geometry in pixel space, state-of-the-art generative models operate most effectively in a camera-conditioned latent space. This disconnect causes current methods to struggle with occluded areas and complex camera trajectories. To bridge this gap, we propose WorldWarp, a framework that couples a 3D structural anchor with a 2D generative refiner. To establish geometric grounding, WorldWarp maintains an online 3D geometric cache built via Gaussian Splatting (3DGS). By explicitly warping historical content into novel views, this cache acts as a structural scaffold, ensuring each new frame respects prior geometry. However, static warping inevitably leaves holes and artifacts due to occlusions. We address this using a Spatio-Temporal Diffusion (ST-Diff) model designed for a "fill-and-revise" objective. Our key innovation is a spatio-temporal varying noise schedule: blank regions receive full noise to trigger generation, while warped regions receive partial noise to enable refinement. By dynamically updating the 3D cache at every step, WorldWarp maintains consistency across video chunks. Consequently, it achieves state-of-the-art fidelity by ensuring that 3D logic guides structure while diffusion logic perfects texture. Project page: \href{https://hyokong.github.io/worldwarp-page/}{https://hyokong.github.io/worldwarp-page/}.

Analysis:

好的，这是对论文“WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion”的全面中文摘要：

论文题目： WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion

作者： Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, Xinchao Wang

摘要：

1. 研究问题/核心挑战： 论文旨在解决生成长距离、几何一致性视频的根本性难题。现有生成模型在像素空间中严格遵循3D几何信息时表现不佳，而它们在相机条件下的潜在空间中表现最佳。这种脱节导致当前方法在处理遮挡区域和复杂相机轨迹时遇到困难，容易产生视觉伪影和几何不一致。

2. 关键创新与方法贡献： 作者提出了 WorldWarp 框架，该框架巧妙地结合了3D结构锚点和2D生成精炼器，以弥合几何一致性与生成模型能力之间的差距。其核心创新包括：

在线3D几何缓存 (Online 3D Geometric Cache)： 利用3D Gaussian Splatting (3DGS) 技术构建一个动态更新的3D几何缓存。这个缓存充当结构支架，通过将历史内容向前投影到新视角，确保每一帧都尊重先前的几何信息。
时空自适应扩散模型 (Spatio-Temporal Diffusion - ST-Diff)： 设计了一个专门用于“填充与修正”任务的扩散模型。其关键创新在于 时空变化的噪声调度：
- 填充（空白区域）： 接收全噪声，以触发新内容的生成。
- 修正（已投影区域）： 接收部分噪声，以进行精炼和修正，保留原有几何细节。
异步推理管线 (Asynchronous Inference Pipeline)： 采用分块（chunk-by-chunk）的自回归推理方式生成视频。这种方法通过动态更新3D缓存，在每一步都将模型“锚定”在最新的、准确的几何信息上，从而避免了传统方法中不可逆的错误累积。
非因果（Non-causal）注意力机制： ST-Diff模型利用了强大的双向注意力机制，这得益于能够利用未来相机位姿进行前向投影的“未来”图像作为条件。这使得模型能够同时处理所有帧，摆脱了传统视频生成中严格的因果约束。

3. 主要结果与意义： WorldWarp 在具有挑战性的长序列新视角外推任务上取得了 最先进（state-of-the-art）的性能。

几何一致性与视觉保真度： 在 RealEstate10K 和 DL3DV 数据集上，WorldWarp 在所有评估指标（包括PSNR, SSIM, LPIPS, Rdist, Tdist）上均显著优于现有方法，尤其是在长距离合成中，其质量衰减最小。
鲁棒性： 该方法在复杂相机轨迹和不同场景下表现出强大的泛化能力和几何稳定性，有效解决了相机漂移问题。
3D逻辑指导结构，扩散逻辑完善纹理： 论文强调，WorldWarp 实现了3D几何逻辑对结构生成的指导，同时利用扩散模型对纹理进行精细化处理，从而达到高保真度的结果。
对艺术风格的泛化能力： 通过文本提示，模型能够生成具有不同艺术风格（如“梵高风格”、“吉卜力工作室风格”）的视频，同时保持严格的3D几何一致性，验证了其在语义和美学上的泛化能力。

4. 提及的局限性：

长时序生成中的误差累积： 尽管采用了异步扩散和动态缓存，但生成无限长视频序列并保持完美保真度仍然是一个挑战。分块生成中微小的视觉伪影或几何不一致可能会累积，导致长序列（超过1000帧）的视觉质量或几何稳定性下降。
对几何先验的依赖： WorldWarp 的性能高度依赖于上游3D几何基础模型（如 TTT3R 或 VGGT）提供的深度图和相机位姿估计的准确性。在复杂环境（如极端光照下的户外场景）中，如果这些估计不准确，可能导致错误的投影结果，从而影响生成质量。

5. 潜在的未来研究方向：

进一步提升长时序生成能力： 探索更有效的机制来抑制或纠正分块生成中累积的误差，以实现更长、更稳定的视频生成。
增强对复杂几何场景的鲁棒性： 研究如何提高模型在极端光照、透明物体或纹理稀疏等复杂场景下的几何估计和生成能力，以减少对上游3D估计的敏感性。
探索更高效的3D几何表示和更新策略： 尽管3DGS 表现出色，但研究更轻量级或更快速的3D几何表示和更新方法，可能有助于进一步加速推理过程。
结合更丰富的条件信息： 除了文本提示，探索结合其他模态（如音频、用户交互）来指导视频生成，以实现更具交互性和多样性的内容创作。

总结： WorldWarp 是一项重要的工作，它通过创新的3D几何缓存和时空自适应扩散模型，成功地解决了长距离、几何一致性视频生成中的关键挑战。该方法在保持高视觉保真度的同时，实现了对3D几何的精确控制，为未来在虚拟现实、内容创作和电影制作等领域的应用奠定了坚实基础。

Key Findings:

Generating long-range, geometrically consistent video presents a fundamental dilemma: while consistency demands strict adherence to 3D geometry in pixel space, state-of-the-art generative models operate most effectively in a camera-conditioned latent space.
To bridge this gap, we propose WorldWarp, a framework that couples a 3D structural anchor with a 2D generative refiner.
By explicitly warping historical content into novel views, this cache acts as a structural scaffold, ensuring each new frame respects prior geometry.
Consequently, it achieves state-of-the-art fidelity by ensuring that 3D logic guides structure while diffusion logic perfects texture.

Links:

PDF
arXiv

Multimodal LLMs for Historical Dataset Construction from Archival Image Scans: German Patents (1877-1918)

Authors: Niclas Griesshaber, Jochen Streb

Published: 2025-12-22

Categories: econ.GN, cs.CV, cs.DL

Abstract:

We leverage multimodal large language models (LLMs) to construct a dataset of 306,070 German patents (1877-1918) from 9,562 archival image scans using our LLM-based pipeline powered by Gemini-2.5-Pro and Gemini-2.5-Flash-Lite. Our benchmarking exercise provides tentative evidence that multimodal LLMs can create higher quality datasets than our research assistants, while also being more than 795 times faster and 205 times cheaper in constructing the patent dataset from our image corpus. About 20 to 50 patent entries are embedded on each page, arranged in a double-column format and printed in Gothic and Roman fonts. The font and layout complexity of our primary source material suggests to us that multimodal LLMs are a paradigm shift in how datasets are constructed in economic history. We open-source our benchmarking and patent datasets as well as our LLM-based data pipeline, which can be easily adapted to other image corpora using LLM-assisted coding tools, lowering the barriers for less technical researchers. Finally, we explain the economics of deploying LLMs for historical dataset construction and conclude by speculating on the potential implications for the field of economic history.

Analysis:

好的，这是对论文“Multimodal LLMs for Historical Dataset Construction from Archival Image Scans: German Patents (1877-1918)”的全面中文摘要：

论文摘要：

1. 研究问题/研究目标： 该论文旨在解决经济史研究中构建大规模微观数据集的瓶颈问题，特别是如何高效、准确地从复杂的历史图像扫描（如德国专利档案）中提取结构化数据。传统的手动数据提取方法耗时、昂贵且容易出错，限制了经济史研究的规模和深度。研究的核心问题是如何利用新兴的多模态大语言模型（LLMs）来自动化这一过程，并评估其与人工方法的性能对比。

2. 主要创新点/方法论贡献：

LLM驱动的数据集构建流水线： 作者开发了一个创新的、基于多模态LLMs（Gemini-2.5-Pro和Gemini-2.5-Flash-Lite）的两阶段流水线，用于从9,562张德国专利档案图像扫描中提取306,070个专利条目。
- 第一阶段（Patent Entry Extraction）： 利用Gemini-2.5-Pro识别和提取图像中的专利条目和技术类别，并处理了跨页和跨栏的截断条目。
- 第二阶段（Variable Extraction）： 利用Gemini-2.5-Flash-Lite从每个提取的专利条目中提取关键变量，包括专利ID、申请人、地点、标题和日期。
LLM辅助的提示工程与迭代优化： 作者强调了精心设计的提示（prompts）在指导LLM准确提取信息中的关键作用，并通过迭代优化过程来提高流水线的性能。
构建并公开了高质量的基准数据集： 为了评估LLM的性能，作者构建了一个“完美基准数据集”（perfect benchmarking dataset），并与研究助理手动创建的“学生构建数据集”（student-constructed dataset）进行了对比。这些数据集和LLM流水线均已开源。
对复杂历史文档的处理能力： 该研究特别关注了处理具有双栏布局、哥特体和罗马体混合字体以及字体和布局复杂性等挑战性历史源材料的能力，这对于计算机视觉在历史档案处理领域具有重要意义。

3. 主要结果及其意义：

效率和成本效益： LLM流水线比研究助理手动构建数据集快795倍，成本降低205倍。这极大地降低了大规模历史数据集构建的门槛。
数据质量： 基准测试结果表明，多模态LLMs在专利条目转录（Character Error Rate - CER）方面表现优于研究助理，并且在变量提取方面也达到了很高的准确率（整体变量提取准确率达到95.07%）。这为LLMs生成高质量历史数据集提供了初步证据。
范式转变： 研究认为，多模态LLMs代表了经济史数据集构建方式的范式转变，使得研究人员能够按需生成数据集，并可能促进数据集的开放共享。
开源贡献： 开源的流水线、数据集和基准测试结果，为其他研究人员提供了工具和参考，加速了经济史领域的研究。

4. 提及的局限性：

幻觉（Hallucinations）： LLMs可能产生“输入冲突型幻觉”，即生成与源图像不符的信息。虽然作者通过基准测试评估了幻觉问题，但仍存在一些轻微的幻觉（如错误识别字符、历史长s问题）。
对复杂布局的挑战： 尽管流水线能够处理双栏布局，但跨页和跨栏的条目截断仍需要额外的修复步骤。
模型选择的依赖性： 作者选择了专有的Gemini模型，并指出其性能和成本是选择的关键因素。未来随着开源模型的发展，可能会有新的选择。
对历史长s的识别困难： Gemini模型在处理历史长s方面存在一定困难，这影响了某些变量的提取准确率。
数据集规模的验证挑战： 对于如此大规模的数据集（306,070个专利条目），对所有数据进行人工验证几乎不可能，研究结果的泛化能力依赖于基准测试的代表性。

5. 潜在的未来研究方向：

处理手写体和低资源语言： 评估LLMs在处理手写体和非英语等低资源语言的历史文档时的性能。
端到端处理多页PDF： 开发能够直接处理多页PDF文件而无需分块的LLM方法，以简化流程。
图像即数据（Image-as-Data）方法： 探索直接处理视频等更复杂的媒体格式，以捕捉更细微的信息。
开源模型的进一步评估： 随着开源LLMs性能的提升，评估其在历史数据集构建中的可行性。
对LLM幻觉的深入研究和缓解： 进一步研究LLM幻觉的机制，并开发更有效的缓解策略。
对经济史研究范式的影响： 探讨LLMs如何改变经济史研究的实践、研究问题和研究助理的角色。

对计算机视觉领域的意义： 这篇论文展示了多模态LLMs在处理复杂、低质量、非结构化历史图像数据方面的强大能力，这对于计算机视觉在历史档案数字化、信息提取和知识发现等领域的应用具有重要启示。它证明了LLMs不仅能进行文本识别（OCR），还能理解图像布局、上下文信息，并从中提取结构化数据，为计算机视觉技术在人文社科领域的深度融合开辟了新的道路。特别是其在处理双栏布局、混合字体等挑战性场景下的成功应用，为其他需要处理类似复杂文档的计算机视觉任务提供了宝贵的经验和方法论参考。

Key Findings:

We open-source our benchmarking and patent datasets as well as our LLM-based data pipeline, which can be easily adapted to other image corpora using LLM-assisted coding tools, lowering the barriers for less technical researchers.
Finally, we explain the economics of deploying LLMs for historical dataset construction and conclude by speculating on the potential implications for the field of economic history.

Links:

PDF
arXiv

4D Gaussian Splatting as a Learned Dynamical System

Authors: Arnold Caleb Asiimwe, Carl Vondrick

Published: 2025-12-22

Categories: cs.CV

Abstract:

We reinterpret 4D Gaussian Splatting as a continuous-time dynamical system, where scene motion arises from integrating a learned neural dynamical field rather than applying per-frame deformations. This formulation, which we call EvoGS, treats the Gaussian representation as an evolving physical system whose state evolves continuously under a learned motion law. This unlocks capabilities absent in deformation-based approaches:(1) sample-efficient learning from sparse temporal supervision by modeling the underlying motion law; (2) temporal extrapolation enabling forward and backward prediction beyond observed time ranges; and (3) compositional dynamics that allow localized dynamics injection for controllable scene synthesis. Experiments on dynamic scene benchmarks show that EvoGS achieves better motion coherence and temporal consistency compared to deformation-field baselines while maintaining real-time rendering

Analysis:

好的，这是对论文“4D Gaussian Splatting as a Learned Dynamical System”的全面中文摘要，其中包含了您要求的各个方面：

论文题目： 4D Gaussian Splatting as a Learned Dynamical System (将4D高斯泼溅视为一个学习到的动力学系统)

作者： Arnold Caleb Asiimwe, Carl Vondrick

摘要

1. 研究问题/核心挑战：

传统动态场景重建方法（如基于变形场的方法）通常将时间视为离散的帧序列，并依赖于每帧的变形来捕捉场景的运动。这种方法在处理稀疏、不规则或缺失的帧时存在局限性，容易导致运动不连贯、时间上不一致，并且难以进行时间上的外插（预测未来或回溯过去）。此外，这些方法通常需要密集的时序监督，并且计算成本较高。

2. 主要创新点/方法贡献：

本文提出了一种名为 EvoGS 的新框架，将4D高斯泼溅（4D Gaussian Splatting）重新诠释为一个连续时间动力学系统。其核心创新在于：

连续时间动力学建模： EvoGS将场景中的高斯原语视为一个物理系统中的粒子，其状态（位置、旋转、尺度、颜色、不透明度）由一个学习到的连续时间速度场直接驱动。运动不再是离散的帧间变形，而是通过数值积分（使用RK4求解器）来连续演化。
学习运动定律而非变形： 模型直接学习一个神经网络动力学定律，预测高斯属性的时间导数，而不是学习每帧的独立变形。
样本效率和鲁棒性： 通过建模底层的运动定律，EvoGS能够从稀疏的时序监督中学习，并且对不规则的帧采样更加鲁棒。
时间外插能力： 连续积分使得模型能够进行前向和后向的时间外插，预测未见过的帧，甚至在观察时间范围之外进行推断。
可控的动态合成： EvoGS支持组合式动力学，允许通过注入外部速度场来对局部动态进行可控的编辑和合成，而无需重新训练。
高斯航点（Gaussian Waypoints）用于运动稳定： 为了缓解长期积分可能产生的漂移，引入了稀疏的“航点”作为伪观测，用于定期重新初始化和约束积分过程。

3. 主要结果与意义：

性能提升： 在动态场景基准测试中，EvoGS在运动连贯性和时间一致性方面优于基于变形场的方法。
时间外插能力： 实验证明了EvoGS在预测未来帧和回溯过去帧方面的出色能力，尤其是在稀疏帧训练的情况下。
实时渲染： 在实现这些高级功能的同时，EvoGS仍然保持了高斯泼溅的实时渲染效率。
可控编辑： 通过向量场代数，EvoGS能够实现对动态场景的局部编辑和新动态的注入，为动态场景的合成和控制提供了新的可能性。
统一的表示： EvoGS提供了一个统一的框架，将重建、插值、外插和可控动态合成整合到一个连续的时间动力学空间中。

4. 论文中提到的局限性：

数据驱动的局限性： EvoGS作为一种数据驱动的方法，会继承训练视频中的偏见和模糊性。
物理推理的不足： 在需要真正因果或物理推理的场景中，例如液体填充玻璃的例子（图11），EvoGS可以推断刚体（手和杯子）的运动，但无法预测流体行为或水杯相互作用，这些现象超出了训练数据的时空模式。
极端稀疏情况下的退化： 在极端的时间稀疏性下，动力学变得欠约束，模型会逐渐退化到类似变形的行为。

5. 潜在的未来研究方向：

更强的物理理解： 探索如何将更强的物理规律或因果推理能力融入到动力学模型中，以处理更复杂的物理现象。
生成式4D场景： 将EvoGS的连续时间动力学模型与生成模型相结合，以生成具有物理可信度、可编辑的4D场景。
跨模态控制： 探索将文本、音频或其他外部信号作为输入，来控制动态场景的演化。
大规模应用： 将EvoGS的框架应用于更大规模的数据集，或作为视频生成模型与3D表示之间的接口。

总结：

EvoGS通过将4D高斯泼溅建模为一个连续时间动力学系统，成功地解决了传统动态场景重建方法在处理稀疏数据、时间外插和可控动态合成方面的挑战。其核心贡献在于学习一个连续的速度场来驱动高斯原语的演化，从而实现了更鲁棒、更灵活、更具表现力的动态场景表示和生成。这为未来的动态场景理解和生成研究开辟了新的方向。

Key Findings:

This unlocks capabilities absent in deformation-based approaches:(1) sample-efficient learning from sparse temporal supervision by modeling the underlying motion law; (2) temporal extrapolation enabling forward and backward prediction beyond observed time ranges; and (3) compositional dynamics that allow localized dynamics injection for controllable scene synthesis.
Experiments on dynamic scene benchmarks show that EvoGS achieves better motion coherence and temporal consistency compared to deformation-field baselines while maintaining real-time rendering

Links:

PDF
arXiv

LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry

Authors: Jiaqi Peng, Wenzhe Cai, Yuqiang Yang, Tai Wang, Yuan Shen, Jiangmiao Pang

Published: 2025-12-22

Categories: cs.RO, cs.CV

Abstract:

Trajectory planning in unstructured environments is a fundamental and challenging capability for mobile robots. Traditional modular pipelines suffer from latency and cascading errors across perception, localization, mapping, and planning modules. Recent end-to-end learning methods map raw visual observations directly to control signals or trajectories, promising greater performance and efficiency in open-world settings. However, most prior end-to-end approaches still rely on separate localization modules that depend on accurate sensor extrinsic calibration for self-state estimation, thereby limiting generalization across embodiments and environments. We introduce LoGoPlanner, a localization-grounded, end-to-end navigation framework that addresses these limitations by: (1) finetuning a long-horizon visual-geometry backbone to ground predictions with absolute metric scale, thereby providing implicit state estimation for accurate localization; (2) reconstructing surrounding scene geometry from historical observations to supply dense, fine-grained environmental awareness for reliable obstacle avoidance; and (3) conditioning the policy on implicit geometry bootstrapped by the aforementioned auxiliary tasks, thereby reducing error propagation.We evaluate LoGoPlanner in both simulation and real-world settings, where its fully end-to-end design reduces cumulative error while metric-aware geometry memory enhances planning consistency and obstacle avoidance, leading to more than a 27.3% improvement over oracle-localization baselines and strong generalization across embodiments and environments. The code and models have been made publicly available on the \href{https://steinate.github.io/logoplanner.github.io/}{project page}.

Analysis:

好的，这是对论文“LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry”的全面中文摘要：

论文题目： LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry

作者： Jiaqi Peng, Wenzhe Cai, Yuqiang Yang, Tai Wang, Yuan Shen, Jiangmiao Pang

摘要：

1. 研究问题： 本文旨在解决移动机器人在非结构化环境中进行轨迹规划的根本性挑战。传统的模块化导航方法（感知、定位、建图、规划）存在延迟和级联误差的问题。虽然端到端学习方法有所改进，但它们通常仍依赖于需要精确传感器外参标定的独立定位模块，这限制了其在不同机器人形态和环境下的泛化能力。此外，现有方法在处理长期历史信息、提供精细几何感知以及避免误差累积方面存在不足。

2. 主要创新与方法贡献： LoGoPlanner 提出了一种定位驱动的端到端导航框架，通过以下关键创新来解决上述问题：

隐式状态估计与度量尺度感知： 通过微调一个长时序的视觉-几何骨干网络，并注入深度信息作为场景度量尺度先验，实现了对绝对度量尺度的感知。这使得模型能够进行隐式的自状态估计，从而实现精确的定位，而无需外部定位模块。
度量感知场景几何重建： 利用历史视觉观测重建周围场景的密集、精细几何信息，为可靠的避障提供支持。
基于隐式几何的策略条件化： 将上述辅助任务（度量尺度感知和几何重建）产生的隐式几何信息作为策略的条件，从而减少误差传播。
查询驱动的统一框架： 采用查询驱动的设计，通过状态查询和几何查询提取隐式状态表示和环境几何信息，并将其与目标嵌入融合，形成统一的规划上下文。
扩散模型轨迹生成： 使用扩散模型作为策略的末端，迭代地优化噪声动作，生成可行且无碰撞的轨迹。

3. 主要结果与意义：

仿真实验： LoGoPlanner 在仿真环境中取得了显著的性能提升，相比于依赖“神谕式”定位的基线方法，成功率（SR）提升了 27.3%。
真实世界实验： 在不同机器人平台（TurtleBot, Unitree Go2, Unitree G1）和多样化的真实世界场景（办公室、家庭、工业）中，LoGoPlanner 展现了强大的泛化能力，能够实现准确的自定位和可靠的无碰撞轨迹规划，即使在相机抖动等挑战性条件下也能表现良好。
意义： LoGoPlanner 证明了将导航策略与度量感知的几何先验相结合的潜力，为在非结构化真实世界环境中实现更自主、可靠和适应性强的机器人导航指明了方向。它减少了对外部定位模块的依赖，降低了部署复杂性，并缩小了仿真到现实的差距。

4. 论文中提到的局限性：

真实世界场景数量有限： 论文提到，由于可用的真实世界导航场景数量有限（约 2k），在真实世界环境中的重建性能尚不理想。作者正在训练使用真实世界度量尺度数据集来增强这方面的性能。

5. 潜在的未来研究方向：

增强真实世界场景下的几何重建： 通过在真实世界度量尺度数据集上进行训练，进一步提升模型在复杂真实世界环境中的几何重建能力。
更广泛的泛化性探索： 进一步探索在更多样化的机器人平台、传感器配置和更具挑战性的动态环境中 LoGoPlanner 的泛化能力。
实时性优化： 尽管 LoGoPlanner 效率较高，但对于资源受限的嵌入式系统，进一步优化计算效率以实现更快的实时响应可能是一个方向。
多模态融合： 探索将其他传感器信息（如激光雷达）与视觉信息融合，以进一步提升定位和导航的鲁棒性。

Key Findings:

We introduce LoGoPlanner, a localization-grounded, end-to-end navigation framework that addresses these limitations by: (1) finetuning a long-horizon visual-geometry backbone to ground predictions with absolute metric scale, thereby providing implicit state estimation for accurate localization; (2) reconstructing surrounding scene geometry from historical observations to supply dense, fine-grained environmental awareness for reliable obstacle avoidance; and (3) conditioning the policy on implicit geometry bootstrapped by the aforementioned auxiliary tasks, thereby reducing error propagation.We evaluate LoGoPlanner in both simulation and real-world settings, where its fully end-to-end design reduces cumulative error while metric-aware geometry memory enhances planning consistency and obstacle avoidance, leading to more than a 27.3% improvement over oracle-localization baselines and strong generalization across embodiments and environments.

Links:

PDF
arXiv

Arxiv Report 2025 12 23 - Owen-Liuyuxuan/everyday_my_arxiv GitHub Wiki

Arxiv Computer Vision Papers - 2025-12-23

Executive Summary

Table of Contents

Papers