Arxiv Report 2026 04 01 - Owen-Liuyuxuan/everyday_my_arxiv GitHub Wiki
报告日期: 2026年3月31日
分析论文数: 10篇
本日论文集清晰地反映了当前计算机视觉研究的三大核心趋势:
-
1.1 具身智能与三维场景理解成为焦点: 超过一半的论文致力于让智能体在三维世界中感知、规划与交互。研究重点从被动感知转向主动的“世界交互”,例如高效导航(
DRIVE-Nav)、场景功能与交互理解(SceneTeract)、以及基于三维几何的具身控制(CReF)。 -
1.2 大模型(VLMs)的深化分析与高效部署: 研究不仅追求更大规模,更注重模型的可解释性(
A Comprehensive Information-Decomposition Analysis...)、指令执行的精确性(DIAL)以及在边缘设备上的实际部署(Quantization with Unified Adaptive Distillation...)。这标志着领域进入“精炼”与“实用化”阶段。 -
1.3 生成模型向长序列、可控性与世界建模演进: 生成技术不再局限于单张图像,而是扩展到长序列全景视频生成(
OmniRoam)和世界基础的可控图像合成(Unify-Agent)。同时,研究开始深入探索视频模型的内部推理机制(Video Models Reason Early)。
-
DIAL: Decoupling Intent and Action via Latent World Modeling...: 提出通过潜在世界模型解耦高层意图与底层动作,是提升端到端视觉-语言-动作模型可解释性和可靠性的重要思路,对机器人学有直接价值。 -
A Comprehensive Information-Decomposition Analysis of Large Vision-Language Models: 对大型视觉-语言模型进行系统的信息解构分析,此类基础性分析工作对于理解模型“黑箱”、指导后续模型设计至关重要,具有方法论意义。 -
OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation: 将生成任务推向“世界漫游”级别的长视野全景视频,代表了生成式AI在内容创造维度和沉浸感上的前沿探索。
-
智能体的“功能可供性”感知:
SceneTeract提出的“功能可供性”概念,强调智能体对物体“如何被使用”的理解,是连接三维场景与具体任务的关键桥梁,预计将成为具身AI的核心研究方向。 -
模型早期推理机制的利用:
Video Models Reason Early发现视频模型在早期帧即已形成解决计划,这为设计更高效的视频理解模型和训练策略提供了新的生物学启发视角。 -
“一站式”边缘生成模型:
Quantization with Unified Adaptive Distillation...致力于通过量化与统一蒸馏,打造支持多个LoRA适配器的边缘设备生成模型,反映了从云端到边缘部署的强烈需求和技术挑战。
根据研究方向的普适性和技术影响力,建议优先阅读以下三篇:
-
A Comprehensive Information-Decomposition Analysis of Large Vision-Language Models: 强烈推荐给所有VLM研究人员。 它提供了深入理解模型内部工作机制的工具和视角,是开展任何前沿VLM研究的有益基础。 -
DIAL: Decoupling Intent and Action via Latent World Modeling...: 推荐给机器人学、具身智能和可解释AI领域的研究者。 其提出的解耦框架是构建可靠、可控智能体的关键路径。 -
SceneTeract: Agentic Functional Affordances and VLM Grounding in 3D Scenes: 推荐给三维视觉、场景理解和人机交互领域的研究者。 “功能可供性”是连接视觉感知与物理交互的核心概念,此论文代表了该方向的最新进展。
总结: 本日论文显示,计算机视觉研究正深度融合具身交互、三维理解与大模型技术,研究范式从“感知”全面转向“感知-推理-交互-生成”的闭环。研究重心同时向底层机理分析与上层应用部署两端延伸,标志着领域进入一个更成熟、更务实的发展阶段。
—— 您的研究助理
- DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA
- DRIVE-Nav: Directional Reasoning, Inspection, and Verification for Efficient Open-Vocabulary Navigation
- OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation
- Video Models Reason Early: Exploiting Plan Commitment for Maze Solving
- Benchmarking PhD-Level Coding in 3D Geometric Computer Vision
- SceneTeract: Agentic Functional Affordances and VLM Grounding in 3D Scenes
- A Comprehensive Information-Decomposition Analysis of Large Vision-Language Models
- Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis
- Quantization with Unified Adaptive Distillation to enable multi-LoRA based one-for-all Generative Vision Models on edge
- CReF: Cross-modal and Recurrent Fusion for Depth-conditioned Humanoid Locomotion
Authors: Yi Chen, Yuying Ge, Hui Zhou, Mingyu Ding, Yixiao Ge, Xihui Liu
Published: 2026-03-31
Categories: cs.RO, cs.AI, cs.CV, cs.LG
Abstract:
The development of Vision-Language-Action (VLA) models has been significantly accelerated by pre-trained Vision-Language Models (VLMs). However, most existing end-to-end VLAs treat the VLM primarily as a multimodal encoder, directly mapping vision-language features to low-level actions. This paradigm underutilizes the VLM's potential in high-level decision making and introduces training instability, frequently degrading its rich semantic representations. To address these limitations, we introduce DIAL, a framework bridging high-level decision making and low-level motor execution through a differentiable latent intent bottleneck. Specifically, a VLM-based System-2 performs latent world modeling by synthesizing latent visual foresight within the VLM's native feature space; this foresight explicitly encodes intent and serves as the structural bottleneck. A lightweight System-1 policy then decodes this predicted intent together with the current observation into precise robot actions via latent inverse dynamics. To ensure optimization stability, we employ a two-stage training paradigm: a decoupled warmup phase where System-2 learns to predict latent futures while System-1 learns motor control under ground-truth future guidance within a unified feature space, followed by seamless end-to-end joint optimization. This enables action-aware gradients to refine the VLM backbone in a controlled manner, preserving pre-trained knowledge. Extensive experiments on the RoboCasa GR1 Tabletop benchmark show that DIAL establishes a new state-of-the-art, achieving superior performance with 10x fewer demonstrations than prior methods. Furthermore, by leveraging heterogeneous human demonstrations, DIAL learns physically grounded manipulation priors and exhibits robust zero-shot generalization to unseen objects and novel configurations during real-world deployment on a humanoid robot.
Analysis:
这是一份关于论文《DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA》的深度分析。
视觉-语言-动作 (VLA) 模型的发展极大推动了机器人学,但现有的端到端方案常将视觉-语言模型 (VLM) 仅视作简单的多模态编码器,直接映射至底层动作,不仅无法充分利用 VLM 的高层决策能力,还常因训练不稳导致语义表示退化。为此,我们提出了 DIAL (通过潜空间世界模型解耦意图与动作),通过一个可微的潜空间意图瓶颈,将高层决策与底层电机控制桥接起来。具体而言,基于 VLM 的 System-2(大脑)通过合成 VLM 视觉编码器原生特征空间内的潜在视觉预期,明确编码任务意图;随后,轻量级的 System-1(小脑)政策将该意图与当前观测解码为精确的机器人动作。
- 驱动力:旨在解决端到端 VLA 中“高层语义推理”与“底层动作控制”之间不匹配的结构性矛盾。
- 痛点:现有方法将 VLM 视为被动特征提取器,直接拟合底层动作会导致 VLM 语义退化,且容易通过低级相关性产生“捷径学习”,缺乏对未来物理环境的规划能力。
- 研究假设:通过在 VLM 的原生特征空间显式引入一个“潜空间视觉预期”瓶颈,强迫决策者进行物理预测,能够使策略逻辑更严密且训练更稳定。
DIAL 采用“双系统”架构,通过可微的潜空间意图瓶颈连接:
-
System-2 (Brain):以预训练 VLM(如 Qwen2.5-VL)为骨干,通过外挂的
$N$ 个可学习查询向量(Learnable Queries),使其输出潜在的“未来视觉特征”(Latent Foresight)。该输出不仅是视觉表示,更是一种体现“目标意图”的结构化信号。 - System-1 (Cerebellum):基于流匹配(Flow Matching)的策略模型。它将当前的视觉特征与 System-2 输出的意图向量进行融合,通过交叉注意力机制,驱动 DiT 解码器产生高频动作。
- 核心损失函数:$L_{total} = |x_t - \text{Enc}{ViT}(o{t+H})|^2 + L_{fm}$,其中第一项确保意图向未来视觉特征对齐,第二项则通过动作生成损失反向传播,强制意图信号变得“动作感知”。
- 本质区别:与传统“分层规划+底层控制”的非可微壁垒不同,DIAL 将“规划”和“执行”统一在同一个潜在特征流中,实现了真正的端到端梯度更新。
- 创新点:引入“潜空间视觉预期”作为Bottleneck,将决策意图与电机控制在特征空间进行强制同步。
- 适用场景:复杂操作任务,特别是需要长程规划与精准避障的机器人操控。
- 关键结论:在 RoboCasa GR1 模拟器上,DIAL 相比强基线 FLARE 成功率显著提升,且仅需 10% 的训练样本即可达到更优水平。
- 优势:极高的数据效率;稳定的训练范式;对未见过物体具有强大的泛化性。
- 局限:目前 System-1 规模较小,处理极复杂逻辑时仍受限于小模型的处理上限。
- 开源情况:已发布项目主页:https://xpeng-robotics.github.io/dial
- 实现细节:建议采用“两阶段训练”——先进行去耦预热(Warmup),System-1 单独在真实轨迹数据上学习未来推断,再开启端到端联合训练。
- 迁移建议:可将此结构迁移到任意具有 VLM 骨干的机器人任务中,只需确保预训练的 ViT 编码器保持冻结或通过微调以维护特征一致性。
- 核心思想:利用潜空间未来视觉预期作为决策与执行间的可微接口。
-
速记版 Pipeline:
- VLM 接收语言和视觉输入,预测未来的视觉潜空间状态;
- 将“当前状态”与“未来预期”送入策略小模型;
- 小模型输出连续动作指令;
- 梯度反向传播,修正决策者的语义表达。
Key Findings:
- To address these limitations, we introduce DIAL, a framework bridging high-level decision making and low-level motor execution through a differentiable latent intent bottleneck.
- Extensive experiments on the RoboCasa GR1 Tabletop benchmark show that DIAL establishes a new state-of-the-art, achieving superior performance with 10x fewer demonstrations than prior methods.
- Furthermore, by leveraging heterogeneous human demonstrations, DIAL learns physically grounded manipulation priors and exhibits robust zero-shot generalization to unseen objects and novel configurations during real-world deployment on a humanoid robot.
Links:
DRIVE-Nav: Directional Reasoning, Inspection, and Verification for Efficient Open-Vocabulary Navigation
Authors: Maoguo Gao, Zejun Zhu, Zhiming Sun, Zhengwei Ma, Longze Yuan, Zhongjing Ma, Zhigang Gao, Jinhui Zhang, Suli Zou
Published: 2026-03-30
Categories: cs.RO
Abstract:
Open-Vocabulary Object Navigation (OVON) requires an embodied agent to locate a language-specified target in unknown environments. Existing zero-shot methods often reason over dense frontier points under incomplete observations, causing unstable route selection, repeated revisits, and unnecessary action overhead. We present DRIVE-Nav, a structured framework that organizes exploration around persistent directions rather than raw frontiers. By inspecting encountered directions more completely and restricting subsequent decisions to still-relevant directions within a forward 240 degree view range, DRIVE-Nav reduces redundant revisits and improves path efficiency. The framework extracts and tracks directional candidates from weighted Fast Marching Method (FMM) paths, maintains representative views for semantic inspection, and combines vision-language-guided prompt enrichment with cross-frame verification to improve grounding reliability. Experiments on HM3D-OVON, HM3Dv2, and MP3D demonstrate strong overall performance and consistent efficiency gains. On HM3D-OVON, DRIVE-Nav achieves 50.2% SR and 32.6% SPL, improving the previous best method by 1.9% SR and 5.6% SPL. It also delivers the best SPL on HM3Dv2 and MP3D and transfers to a physical humanoid robot. Real-world deployment also demonstrates its effectiveness. Project page: https://coolmaoguo.github.io/drive-nav-page/
Analysis:
DRIVE-Nav是一种用于高效开放词汇导航(OVON)的结构化框架,通过在持久化方向而非原始前沿点(frontier points)上组织探索,解决了现有零样本方法在不完整观测下推理导致的路线不稳定、重复访问及动作冗余问题。通过对遇到方向的完整检测,并限制决策在前方240°视图内的相关方向,该方法提高了路径效率。DRIVE-Nav通过加权快速行进法(FMM)提取并追踪方向候选者,维护代表性视图进行语义检查,并结合视觉-语言引导的提示增强与跨帧验证以提高接地可靠性。在HM3D-OVON、HM3Dv2及MP3D上的实验证明了其性能与效率优势,并成功迁移至物理人形机器人。
- 驱动力:将“基于点的探索”转变为“基于方向的推理”,通过模仿人类在走廊路口根据语义视觉证据做决策的过程,实现更高效、稳定的导航。
-
现有痛点:
- 冗余决策:多个前沿点可能指向同一物理路径,导致无效计算。
- 缺乏语义感知:仅依靠几何代理(frontier)决策,忽略了路径深处的语义内容。
- 动作冗余:不必要的360°旋转扫描造成严重的动作开销。
- 核心假设:导航决策应基于“持久化方向”而非“瞬时几何点”,通过在决策点进行针对性的视觉考察,能大幅降低冗余并提升目标定位可靠性。
-
流程 Pipeline:
- 方向提取:使用加权FMM算法(考虑障碍物距离与Voronoi骨架)将前沿点聚类为“持久化方向”。
- 方向追踪:通过跨帧的区域重叠和方向相似性维护方向身份,避免重复决策。
- 智能观测:仅针对前方240°范围内的方向进行代表性视图采集(而非全景扫描)。
- 语义增强与校验:利用Qwen3-VL处理方向视图,若发现目标,生成描述以增强SAM3的语义提示(prompt enrichment),随后通过三帧跨帧验证机制确认目标。
- 算法核心:利用Eikonal方程定义的速度场$F(x) = F_{obs}(x) \cdot F_{vor}(x)$,迫使路径避开墙壁并沿走廊中心线生成,从而提取更具几何意义的方向。
- 跨帧验证:通过confirm-or-discard规则,仅当连续帧中被确认的目标才写入地图,有效抑制误检。
- 本质区别:从“基于点的几何探索”变为“基于持久方向的语义探索”。
-
创新贡献:
- 提出了“持久化方向”的概念作为决策单位。
- 实现了“语义-探索”闭环,将VLM的语义判断直接转化为SAM3的提示增强。
- 有效的跨帧验证机制,显著降低了长视距导航中的误触发。
- 适用场景:复杂室内环境的零样本导航,特别是需要对目标进行精确确认的场景。
- 验证方法:在Habitat模拟器中进行大规模对比,并在Unitree G1人形机器人上进行实地部署。
- 关键结果:在HM3D-OVON基准上,SR提升至50.2%,SPL提升至32.6%(较最优基线大幅提升)。
- 优势:在保持高目标到达率的同时,显著降低了平均导航步数(减少冗余旋转)。
- 局限:对视觉传感器性能有一定要求(需稳定前向观测);计算框架目前较依赖外部处理(如ROS2-ZMQ传输数据)。
- 开源情况:论文涉及项目,建议关注GitHub以获取最新代码。
- 实现细节:关键参数包括方向角间隔阈值(45°)、视域范围(240°)及FMM的衰减半径($r_{obs}, r_{vor}$)。
- 迁移建议:其方向抽象逻辑(基于FMM骨架提取方向)具有通用性,可迁移至任何基于地图的移动机器人探索任务中。
- 核心思想:通过语义增强的方向推理实现高效且鲁棒的目标导航。
-
速记版 Pipeline:
- FMM提取并聚类路径方向。
- 追踪方向身份避免重复旋转。
- 智能视图考察并生成增强提示词。
- 跨帧验证目标抑制误检。
Key Findings:
- We present DRIVE-Nav, a structured framework that organizes exploration around persistent directions rather than raw frontiers.
Links:
Authors: Yuheng Liu, Xin Lin, Xinke Li, Baihan Yang, Chen Wang, Kalyan Sunkavalli, Yannick Hold-Geoffroy, Hao Tan, Kai Zhang, Xiaohui Xie, Zifan Shi, Yiwei Hu
Published: 2026-03-31
Categories: cs.CV
Abstract:
Modeling scenes using video generation models has garnered growing research interest in recent years. However, most existing approaches rely on perspective video models that synthesize only limited observations of a scene, leading to issues of completeness and global consistency. We propose OmniRoam, a controllable panoramic video generation framework that exploits the rich per-frame scene coverage and inherent long-term spatial and temporal consistency of panoramic representation, enabling long-horizon scene wandering. Our framework begins with a preview stage, where a trajectory-controlled video generation model creates a quick overview of the scene from a given input image or video. Then, in the refine stage, this video is temporally extended and spatially upsampled to produce long-range, high-resolution videos, thus enabling high-fidelity world wandering. To train our model, we introduce two panoramic video datasets that incorporate both synthetic and real-world captured videos. Experiments show that our framework consistently outperforms state-of-the-art methods in terms of visual quality, controllability, and long-term scene consistency, both qualitatively and quantitatively. We further showcase several extensions of this framework, including real-time video generation and 3D reconstruction. Code is available at https://github.com/yuhengliu02/OmniRoam.
Analysis:
作为计算机视觉与机器学习领域的专家,我对 OmniRoam 这篇论文的分析如下:
OmniRoam 提出了一种全新的可控全景视频生成框架,旨在解决传统透视视频模型在场景完整性和全局一致性方面的不足。该框架通过“预览-精炼”的两阶段生成策略,实现了长距离、高分辨率的场景漫游,并配套发布了高质量的全景视频数据集,为实现逼真的虚拟世界探索提供了可靠的技术路径。
- 全景视角表征(Panoramic Representation): 不同于传统的窄视角(Perspective)视频生成,该模型利用全景图的 360 度覆盖特性,从根本上解决了空间连贯性问题,使得长距离场景漫游中的视角切换更加平滑自然。
-
两阶段生成架构(Preview & Refine):
- 预览阶段(Preview): 利用轨迹控制模型快速生成场景概览,确立宏观空间布局。
- 精炼阶段(Refine): 在时域上进行延伸,并在空域上进行超分,确保长时视频的高保真度与细节纹理的一致性。
- 数据驱动范式: 构建了结合合成与真实捕捉的专用全景视频数据集,填补了该领域在高质量全景监督数据方面的空白。
- 重新定义了“开放世界”生成: 该研究打破了视频生成模型在视场角(FOV)上的局限,将视频生成从“定点观察”提升至“全方位空间漫游”。
- 推动了长时序生成标准: 传统的视频生成往往面临长序列失真问题,OmniRoam 的一致性机制为解决长时序生成中的“漂移”现象提供了新的解决思路。
- 多模态融合潜力: 论文提及的 3D 重建扩展显示,该框架不仅是一个视觉生成工具,更有潜力成为连接生成式 AI 与传统计算机图形学(CG)的桥梁。
- VR/AR 内容创作: 可直接用于生成身临其境的虚拟环境,极大降低数字内容制作成本。
- 自动驾驶与仿真: 为自动驾驶模拟器提供高一致性的动态场景生成,用以扩充训练样本。
- 数字孪生与元宇宙: 支持对真实世界的地理场景进行建模与漫游,具有广阔的商业落地空间。
- 影视制作: 为虚拟拍摄提供快速的背景生成与预可视化能力。
- 语义逻辑与物理约束: 尽管模型在视觉上达到了一致性,但在长时间漫游中,如何确保物理空间的非刚体运动或复杂逻辑交互(例如开门、物体位移)仍是巨大挑战。
- 计算开销: “精炼阶段”的空间超分与时域扩展通常伴随着巨大的算力需求,实时生成在高分辨率下的表现是否依然稳健有待进一步验证。
- 全景畸变处理: 全景视频(尤其是等距柱状投影)在极点处的采样畸变问题可能会影响模型训练和生成质量,模型可能需要在处理此类畸变方面投入额外的算法补偿。
总结: OmniRoam 的重要性在于它将视频生成与全景几何特性深度绑定,这是从“生成平面图像序列”向“构建完整三维世界”跨越的关键一步,极具研究前瞻性。
Key Findings:
- We propose OmniRoam, a controllable panoramic video generation framework that exploits the rich per-frame scene coverage and inherent long-term spatial and temporal consistency of panoramic representation, enabling long-horizon scene wandering.
- To train our model, we introduce two panoramic video datasets that incorporate both synthetic and real-world captured videos.
- Experiments show that our framework consistently outperforms state-of-the-art methods in terms of visual quality, controllability, and long-term scene consistency, both qualitatively and quantitatively.
Links:
Authors: Kaleb Newman, Tyler Zhu, Olga Russakovsky
Published: 2026-03-31
Categories: cs.CV
Abstract:
Video diffusion models exhibit emergent reasoning capabilities like solving mazes and puzzles, yet little is understood about how they reason during generation. We take a first step towards understanding this and study the internal planning dynamics of video models using 2D maze solving as a controlled testbed. Our investigations reveal two findings. Our first finding is early plan commitment: video diffusion models commit to a high-level motion plan within the first few denoising steps, after which further denoising alters visual details but not the underlying trajectory. Our second finding is that path length, not obstacle density, is the dominant predictor of maze difficulty, with a sharp failure threshold at 12 steps. This means video models can only reason over long mazes by chaining together multiple sequential generations. To demonstrate the practical benefits of our findings, we introduce Chaining with Early Planning, or ChEaP, which only spends compute on seeds with promising early plans and chains them together to tackle complex mazes. This improves accuracy from 7% to 67% on long-horizon mazes and by 2.5x overall on hard tasks in Frozen Lake and VR-Bench across Wan2.2-14B and HunyuanVideo-1.5. Our analysis reveals that current video models possess deeper reasoning capabilities than previously recognized, which can be elicited more reliably with better inference-time scaling.
Analysis:
这是一份针对论文《Video Models Reason Early: Exploiting Plan Commitment for Maze Solving》的深度技术分析:
视频扩散模型展现出如解迷宫、拼图等涌现推理能力,但对其生成过程中的推理机制尚缺乏深入理解。本研究以二维迷宫求解为受控测试平台,探索视频模型的内部规划动力学,揭示了两项关键发现:首先是“早期规划承诺”(early plan commitment),即模型在去噪的前几个步骤内即锁定了高层运动规划,后续步骤仅对视觉细节进行微调而不改变轨迹;其次,迷宫求解难度主要取决于路径长度而非障碍物密度,且存在12步的“急剧失败临界点”。基于此,我们提出了“早期规划链式推理”(ChEaP),该方法仅对具有潜力路径的种子进行计算,并通过链式序列生成解决长距离问题,在多个基准测试中将长程迷宫任务的成功率从7%提升至67%。
- 驱动力:旨在破解“视频模型如何进行推理”这一黑盒问题,并利用所发现的内部动力学特征提升推理效率。
- 痛点:现有最佳候选采样(Best-of-N)是“黑盒”操作,在所有去噪步骤上均匀消耗计算资源,而忽略了模型很早就已确定了空间运动意图(Plan)这一事实。
- 研究假设:推理相关的结构(即运动路径)在去噪的早期阶段已经固化。
-
核心组件一:早期规划波束搜索 (EPBS)
- 部分去噪与筛选:不直接生成完整视频,而是将种子部分去噪至第$\tau$步(Probe step,如$\tau=5$)。
-
轻量级验证:利用运动能量图(Motion Energy Map)解码中间状态
$\hat{x}_0^{(t)}$ ,计算代理轨迹与目标的距离及障碍物惩罚项。 - 选择与填充:仅对Top-K个最有希望的种子进行剩余步骤的完整去噪。
-
核心组件二:链式推理 (Chaining)
- 针对12步后的长程任务失败问题,将长任务分解为若干短片段。每一段生成结束后,取其最后一帧作为下一次生成任务的起始状态(Pivot frame),实现长距离的连续推理。
- 关键模型逻辑:利用流动匹配(Flow Matching)的特性,通过 $\hat{x}0^{(t)} = x_t - t \cdot v\theta(x_t, t)$ 在去噪中期提取干净样本,从而提前观测规划结果。
- 本质区别:从传统的“黑盒采样”转向“基于内部状态反馈的定向搜索”。
- 创新贡献:首次系统性论证了视频模型在空间任务中的“早期规划”行为,并将其转化为一种无需训练、即插即用的推理加速与性能提升策略。
- 适用场景:适用于任何需要空间路径规划的生成式视频任务(如机器人导航、迷宫、traps避让)。
- 验证方法:在Frozen Lake和VR-Bench上评估,对比最佳候选采样与EPBS/ChEaP。
-
关键结论:EPBS在保持相同精度下将推理消耗降低至约1/3;ChEaP在长程迷宫任务中实现了质的飞跃(7%
$\to$ 67%)。 - 主要优势:极大地提高了长程推理的成功率,显著降低了计算开销。
- 主要局限:在极端长距离任务中,由于多次链式拼接会导致误差累积,且对于“感知受限”(被遮挡的路径)问题仍存在一定随机性。
-
开源信息:项目主页:
video-maze-reasoning.github.io。 -
实现细节:
-
Probe Step (
$\tau$ ):对小规模任务(4x4)设为5,大规模任务(8x8以上)建议设为10-15。 - Verifier:核心是背景差异提取算法,需保证在遮挡或闪烁背景下的鲁棒性。
-
Probe Step (
- 迁移性:该方法不依赖特定模型架构,可直接迁移至任何基于流动匹配(Flow Matching)或标准扩散模型的视频生成模型。
- 核心思想:推理意图早于视觉细节固化,应通过早期探测筛选路径。
-
速记版pipeline:
- 截取早期去噪帧;
- 提取路径能量图;
- 筛选高潜力的候选种子;
- 补全剩余步骤;
- 拼接多段结果完成长任务。
Key Findings:
- To demonstrate the practical benefits of our findings, we introduce Chaining with Early Planning, or ChEaP, which only spends compute on seeds with promising early plans and chains them together to tackle complex mazes.
Links:
Authors: Wenyi Li, Renkai Luo, Yue Yu, Huan-ang Gao, Mingju Gao, Li Yuan, Chaoyou Fu, Hao Zhao
Published: 2026-03-31
Categories: cs.CV
Abstract:
AI-assisted coding has rapidly reshaped software practice and research workflows, yet today's models still struggle to produce correct code for complex 3D geometric vision. If models could reliably write such code, the research of our community would change substantially. To measure progress toward that goal, we introduce GeoCodeBench, a PhD-level benchmark that evaluates coding for 3D vision. Each problem is a fill-in-the-function implementation task curated from representative papers at recent venues: we first let a tool propose candidate functions from official repositories, then perform careful human screening to select core 3D geometric components. For every target, we generate diverse, edge-case unit tests, enabling fully automatic, reproducible scoring. We evaluate eight representative open- and closed-source models to reflect the current ecosystem. The best model, GPT-5, attains only 36.6% pass rate, revealing a large gap between current capabilities and dependable 3D scientific coding. GeoCodeBench organizes tasks into a two-level hierarchy: General 3D capability (geometric transformations and mechanics/optics formulation) and Research capability (novel algorithm implementation and geometric logic routing). Scores are positively correlated across these axes, but research-oriented tasks are markedly harder. Context ablations further show that "more paper text" is not always better: cutting off at the Method section statistically outperforms full-paper inputs, highlighting unresolved challenges in long-context scientific comprehension. Together, these findings position GeoCodeBench as a rigorous testbed for advancing from generic coding to trustworthy 3D geometric vision coding.
Analysis:
以下是对 GeoCodeBench 论文的深度分析:
人工智能辅助编程已迅速改变软件开发和研究流程,但现有的模型在为复杂的 3D 几何视觉任务生成正确、完整且可信的代码方面依然力不从心。为衡量该领域的进展,我们提出了 GeoCodeBench,这是一个旨在评估 3D 视觉领域 PhD 级别编程能力的基准测试。每个问题都是从近期的顶级学术会议论文及其官方代码仓库中提取的“函数填空”任务。我们首先利用工具链提出候选函数,随后经过严谨的人工筛选以选定核心的 3D 几何组件。针对每个目标,我们生成多样化的边缘案例单元测试,从而实现完全自动化的可复现评分。我们评估了八个具有代表性的开源和闭源模型,最好的模型 GPT-5 的通过率仅为 36.6%,这揭示了当前模型能力与可靠的 3D 科学编程之间存在巨大差距。
- 驱动力:旨在构建一个专用于评估 LLM 在复杂 3D 视觉几何算法实现能力的“科学级”基准,弥补现有通用代码基准(如 HumanEval, MBPP)对领域特定算法理解不足的问题。
- 痛点:现有 LLM 虽能写通用代码,但在 3D 几何场景下,常因缺乏对底层数学定义(如坐标系转换、物理模型)的深层理解,导致实现出现“数学正确但语义错误”或“边界条件处理失效”等问题。
- 核心直觉:通过“真实论文+对应代码库+严苛单元测试”的三角闭环,衡量模型是否真正理解学术论文中的算法逻辑,而非仅通过预训练记忆进行简单的代码补全。
GeoCodeBench 的构建与评估管道包含三个关键环节:
- 数据自动提取(Paper to Code):利用 MinerU 等 OCR 工具解析 PDF 论文,将其转换为结构化 JSON。同时,通过 Prompt 引导 Cursor 从对应的官方开源仓库中识别并提取 10-20 个核心函数,经专家筛选出 3-5 个最具代表性的 3D 几何组件。
-
代码掩码(Masking):将提取出的函数主体替换为
****EMPTY****,形成待填空任务,确保 LLM 必须从上下文(论文内容)中推导出逻辑。 -
单元测试验证(Sandbox Testing):这是该方法最核心的“过滤器”。系统为每个目标函数自动生成包含基础参数、中等规模、大规模及批处理等多样化的 10 个测试用例。通过比较模型输出与原始代码的执行结果(输入一致、输出一致)来计算
PassRate。
- 本质区别:不同于常规基准测试仅依靠代码语法正确性或简单的基准匹配,GeoCodeBench 强调执行驱动的语义正确性。
-
创新点:
- 两级分类体系:将任务分为“通用 3D 能力”(几何变换、力学公式)和“研究能力”(算法实现、逻辑路由),精细化诊断能力短板。
- 创意正确性(Creative Correctness):识别出模型能够使用不同但数学等价的路径(如使用 Fundamental Matrix vs. Essential Matrix)解决同一问题,拓宽了对“正确”的定义。
- 适用场景:适用于评估任何试图在科学计算、三维重建或复杂算法逻辑场景下进行编程的 LLM。
- 关键结果:GPT-5 以 36.6% 的准确率领先,但远低于预期。研究类任务(算法实现、逻辑路由)难度显著高于基础几何任务。
- 优势:严苛且具有实际意义的评价指标,能够发现 LLM 在处理边界条件(如退化矩阵、除零风险)和物理参数语义上的局限。
- 局限:长上下文(Full Paper)往往引入冗余信息,反而会导致推理能力下降,模型在“方法”部分截断输入时效果通常更佳。
-
开源情况:基准测试已通过
https://geocodebench.github.io/开源。 -
实现细节:在进行 3D 几何代码生成时,不要盲目喂入整篇论文,建议针对“Method”部分进行精简提取。注意对数值稳定性的处理(如添加
eps=1e-8)。 - 迁移建议:可迁移至物理仿真、复杂数学优化或更广泛的工程科学领域,只需遵循“提取-掩码-构建单元测试”的流程。
- 核心思想:通过科学论文中的真实几何算法代码,构建自动化、严苛的语义正确性评测体系。
-
速记版pipeline:
- 从前沿论文中自动提取函数组件。
- 人工筛选核心几何算子并进行掩码。
- 为掩码后的函数编写多维度的边界测试用例。
- 通过执行代码的 pass 结果衡量模型的推理与编程水平。
Key Findings:
- To measure progress toward that goal, we introduce GeoCodeBench, a PhD-level benchmark that evaluates coding for 3D vision.
- GeoCodeBench organizes tasks into a two-level hierarchy: General 3D capability (geometric transformations and mechanics/optics formulation) and Research capability (novel algorithm implementation and geometric logic routing).
- Context ablations further show that "more paper text" is not always better: cutting off at the Method section statistically outperforms full-paper inputs, highlighting unresolved challenges in long-context scientific comprehension.
Links:
Authors: Léopold Maillard, Francis Engelmann, Tom Durand, Boxiao Pan, Yang You, Or Litany, Leonidas Guibas, Maks Ovsjanikov
Published: 2026-03-31
Categories: cs.CV
Abstract:
Embodied AI depends on interactive 3D environments that support meaningful activities for diverse users, yet assessing their functional affordances remains a core challenge. We introduce SceneTeract, a framework that verifies 3D scene functionality under agent-specific constraints. Our core contribution is a grounded verification engine that couples high-level semantic reasoning with low-level geometric checks. SceneTeract decomposes complex activities into sequences of atomic actions and validates each step against accessibility requirements (e.g., reachability, clearance, and navigability) conditioned on an embodied agent profile, using explicit physical and geometric simulations. We deploy SceneTeract to perform an in-depth evaluation of (i) synthetic indoor environments, uncovering frequent functional failures that prevent basic interactions, and (ii) the ability of frontier Vision-Language Models (VLMs) to reason about and predict functional affordances, revealing systematic mismatches between semantic confidence and physical feasibility even for the strongest current models. Finally, we leverage SceneTeract as a reward engine for VLM post-training, enabling scalable distillation of geometric constraints into reasoning models. We release the SceneTeract verification suite and data to bridge perception and physical reality in embodied 3D scene understanding.
Analysis:
这是一份关于《SceneTeract: Agentic Functional Affordances and VLM Grounding in 3D Scenes》的深度分析报告。
具身智能依赖于能够支持多样化人类活动的交互式3D环境,但评估这些环境的功能性可供性(Affordance)仍是一个核心挑战。我们引入了SceneTeract,这是一个在特定代理约束下验证3D场景功能性的框架。我们的核心贡献是一个具身验证引擎,它将高层语义推理与底层几何检查相结合。SceneTeract将复杂活动分解为原子动作序列,并利用明确的物理和几何模拟,根据具身代理特征(如可达性、间隙和可导航性)验证每一步。我们利用SceneTeract对合成室内环境进行了深入评估,揭示了阻碍基本交互的常见功能性故障;同时评估了前沿视觉语言模型(VLM)推理和预测功能性可供性的能力,揭示了这些模型在语义置信度与物理可行性之间存在系统性偏差。最后,我们将SceneTeract作为VLM后训练的奖励引擎,实现了将几何约束可扩展地蒸馏到推理模型中。我们开源了SceneTeract验证套件和数据,以弥合3D场景感知与物理现实之间的鸿沟。
- 驱动力:现有的3D场景评估多集中于视觉真实性(如FID分数),忽略了场景是否真的“好用”(即可供性)。
- 现有痛点:当前评估缺乏“代理感”。同样一个场景,对成年人适用,对儿童或轮椅用户可能完全无法使用。且VLM虽然语义理解强,但在物理可行性判断上常产生“幻觉”。
- 核心直觉:通过解耦语义规划(VLM做任务分解)与几何验证(物理引擎做硬约束检查),可以构建一个既有智能又符合物理规律的具身评估系统。
-
流程 Pipeline:
-
输入构建:将场景(
$\mathcal{S}$ )、活动($\mathcal{T}$ )和代理配置($\mathcal{A}$ )打包,输入给VLM规划器。 - 层次化任务分解:VLM将复杂活动(如“泡茶并看电视”)拆解为原子动作序列(如“导航至厨房”、“拾取水壶”)。
-
几何接地(Geometric Grounding):针对每个原子动作,映射到具体的物理约束(如
is_Navigable_To、is_Reachable、has_Clearance等)。 - 诊断报告:通过底层几何工具(Trimesh, Libigl)对每个步骤进行Pass/Fail判断,若失败,提供明确的几何原因。
-
输入构建:将场景(
-
关键技术细节:
-
Agent-Specific Navigation:利用形态学腐蚀技术,基于代理的宽度(
w_clear)生成个性化的导航占用网格,过滤掉不可达区域。 - 语义交互区解析:不仅看物体本身,还看物体四周的交互区域(交互带),通过提示词引导VLM确定动作发生的位置。
- GRPO强化学习:将物理验证结果作为奖励,训练轻量级VLM。通过对比成功路径与失败路径,强化模型对物理边界的理解。
-
Agent-Specific Navigation:利用形态学腐蚀技术,基于代理的宽度(
- 核心创新:将“功能性”定义为代理与环境的交互关系,而非环境的固有属性;使用几何验证反馈作为强化学习奖励,是实现“具身对齐”的有效路径。
- 本质区别:传统模型往往直接预测“是否可行”,而本方法通过分解+验证,能够告诉模型“为什么不可行”(如“距离超过0.8m,而手臂伸展半径仅0.7m”)。
- 关键结论:在3D-FRONT数据集上的测试显示,合成场景中存在严重的物理可行性断层,尤其对轮椅用户非常不友好。
- 优势:显著降低了VLM的物理幻觉(False Positives),极大地提升了模型在空间推理任务上的可靠性。
- 局限:目前的验证属于静态分析,无法处理复杂的动态环境交互或环境随时间的变化。
-
开源与实现:项目已开源(GitHub链接可见论文)。核心依赖
Trimesh(网格处理)和Libigl(几何库)。 - 训练建议:使用GRPO进行后训练时,针对“物理失败”案例进行重采样(Upsampling),有助于克服自然分布下的类别不平衡。
- 核心思想:通过几何规则约束,将VLM语义规划与物理环境对齐。
-
速记版Pipeline:
- 拆解:VLM将任务化为原子操作。
- 投影:根据代理属性生成导航图。
- 验证:用几何引擎检查空间与可达性。
- 反馈:以物理判断结果作为强化学习信号。
Key Findings:
- We introduce SceneTeract, a framework that verifies 3D scene functionality under agent-specific constraints.
- Our core contribution is a grounded verification engine that couples high-level semantic reasoning with low-level geometric checks.
Links:
Authors: Lixin Xiu, Xufang Luo, Hideki Nakayama
Published: 2026-03-31
Categories: cs.LG, cs.CL, cs.CV
Abstract:
Large vision-language models (LVLMs) achieve impressive performance, yet their internal decision-making processes remain opaque, making it difficult to determine if the success stems from true multimodal fusion or from reliance on unimodal priors. To address this attribution gap, we introduce a novel framework using partial information decomposition (PID) to quantitatively measure the "information spectrum" of LVLMs -- decomposing a model's decision-relevant information into redundant, unique, and synergistic components. By adapting a scalable estimator to modern LVLM outputs, our model-agnostic pipeline profiles 26 LVLMs on four datasets across three dimensions -- breadth (cross-model & cross-task), depth (layer-wise information dynamics), and time (learning dynamics across training). Our analysis reveals two key results: (i) two task regimes (synergy-driven vs. knowledge-driven) and (ii) two stable, contrasting family-level strategies (fusion-centric vs. language-centric). We also uncover a consistent three-phase pattern in layer-wise processing and identify visual instruction tuning as the key stage where fusion is learned. Together, these contributions provide a quantitative lens beyond accuracy-only evaluation and offer insights for analyzing and designing the next generation of LVLMs. Code and data are available at https://github.com/RiiShin/pid-lvlm-analysis .
Analysis:
大型视觉-语言模型(LVLMs)表现优异,但其内部决策过程仍不透明,难以确定其成功是源于真正的多模态融合,还是仅依赖单模态先验。为解决此归因偏差,我们引入了一个基于部分信息分解(PID)的新框架,旨在量化测量LVLMs的“信息谱”,将模型决策相关的信息分解为冗余、唯一和协同组件。通过将可扩展的评估器应用于现代LVLM输出,我们的模型不可知流水线在四个数据集上对26个LVLM进行了三个维度的剖析:广度(跨模型与跨任务)、深度(层级信息动态)和时间(跨训练的学习动态)。我们的分析揭示了两个关键结果:(i)两种任务模式(协同驱动型 vs. 知识驱动型)和(ii)两种稳定的、对比性的家族级策略(融合中心型 vs. 语言中心型)。我们还发现了层级处理中的一致性三阶段模式,并确定视觉指令微调是学习融合的关键阶段。这些贡献为超越准确率评估提供了一个量化的视角,并为分析和设计下一代LVLM提供了见解。
- 驱动力:目前的LVLM评估大多仅关注最终的预测准确率(accuracy),无法揭示模型在推理过程中究竟是基于视觉证据、语言模型自身的先验知识,还是两者的深度融合。
- 现有方法痛点:现有的解释性工作往往采用“显微镜”视角,孤立地分析单一模态,或引入缺乏理论支持的临时性指标(ad hoc metrics),无法定量地剖析多模态内部的信息贡献。
- 研究假设:通过信息论中的PID理论,可以将模型对决策的贡献拆解为四个非负原子项(冗余R、视觉唯一性U1、语言唯一性U2、协同S),从而定量刻画模型的信息处理策略。
-
流程总结:
- 输入表示:将图像和文本Embeddings定义为源变量$X_1$和$X_2$。
-
模态掩码:通过注入校准的噪声(基于均值和标准差的分布)来屏蔽特定模态,从而获取模态的边际条件分布
$P(Y|X_1)$ 和$P(Y|X_2)$ 。 -
预测生成:获取完整的多模态条件概率
$P(Y|X_1, X_2)$ 。 - BATCH评估:利用基于神经网络的BATCH估计器,通过优化Sinkhorn约束下的边际匹配分布,求解${R, U_1, U_2, S}$。
- 核心算法:利用Sinkhorn-Knopp算法在小批量(mini-batches)上迭代更新特征编码器的参数,强制估计的联合分布$Q(X_1, X_2, Y)$满足原始数据分布的边际约束,进而解耦出协同信息(S,即模型处理多模态时的非线性交互)。
- 本质区别:区别于传统的端到端黑盒分析,本方法无需重新训练模型,且基于严格的PID信息理论框架,能够定量界定模型到底是“看图做题”还是“依凭语料做题”。
- 创新贡献:首次将PID大规模应用于LVLM,揭示了模型处理信息的层级动态(三阶段模式)和训练轨迹(视觉指令微调是解锁协同的关键)。
- 适用场景:适用于多选题(Multiple-Choice VQA)场景,便于清洗分析逻辑,也可扩展至其他决策明确的模态交互任务。
-
关键结果:
- 任务分流:任务分为协同驱动型(高S)和知识驱动型(高U2)。
- 模型策略:模型家族存在稳定的策略倾向(融合中心型 vs. 语言中心型)。
- 层级模式:层级信息流呈现“特征堆叠 -> 最终层融合”的三阶段规律。
- 优势:提供了一个与准确率正交的“内部视角”,能有效识别模型的鲁棒性与偏差。
- 局限:目前的PID估计基于离散选择假设,难以直接覆盖完全开放式的生成任务。
- 开源情况:代码和数据已开源,见论文主页链接。
-
实现细节:
- 超参数:推荐使用3层MLP,隐藏层维度32,学习率1e-3。
-
处理建议:必须进行Renormalization(重归一化),应用confidence threshold
$\tau$ 过滤低置信度输出,以避免虚假结构。
- 迁移可能:该框架具有模型不可知性(model-agnostic),可以直接迁移到任何以多模态输入输出为基础的任务中,只需调整投影映射逻辑即可。
- 核心思想:利用PID理论解构模型决策信息流,定量揭示多模态融合的深层机制。
-
速记版pipeline:
- 对齐输入提取模态特征。
- 屏蔽单模态注入校准噪声。
- 运行多模态与单模态 inference。
- 采用BATCH算法解耦信息原子。
Key Findings:
- To address this attribution gap, we introduce a novel framework using partial information decomposition (PID) to quantitatively measure the "information spectrum" of LVLMs -- decomposing a model's decision-relevant information into redundant, unique, and synergistic components.
- Together, these contributions provide a quantitative lens beyond accuracy-only evaluation and offer insights for analyzing and designing the next generation of LVLMs. Code and data are available at https://github.com/RiiShin/pid-lvlm-analysis .
Links:
Authors: Shuang Chen, Quanxin Shou, Hangting Chen, Yucheng Zhou, Kaituo Feng, Wenbo Hu, Yi-Fan Zhang, Yunlong Lin, Wenxuan Huang, Mingyang Song, Dasen Dai, Bolin Jiang, Manyuan Zhang, Shi-Xue Zhang, Zhengkai Jiang, Lucas Wang, Zhao Zhong, Yu Cheng, Nanyun Peng
Published: 2026-03-31
Categories: cs.CV, cs.MM
Abstract:
Unified multimodal models provide a natural and promising architecture for understanding diverse and complex real-world knowledge while generating high-quality images. However, they still rely primarily on frozen parametric knowledge, which makes them struggle with real-world image generation involving long-tail and knowledge-intensive concepts. Inspired by the broad success of agents on real-world tasks, we explore agentic modeling to address this limitation. Specifically, we present Unify-Agent, a unified multimodal agent for world-grounded image synthesis, which reframes image generation as an agentic pipeline consisting of prompt understanding, multimodal evidence searching, grounded recaptioning, and final synthesis. To train our model, we construct a tailored multimodal data pipeline and curate 143K high-quality agent trajectories for world-grounded image synthesis, enabling effective supervision over the full agentic generation process. We further introduce FactIP, a benchmark covering 12 categories of culturally significant and long-tail factual concepts that explicitly requires external knowledge grounding. Extensive experiments show that our proposed Unify-Agent substantially improves over its base unified model across diverse benchmarks and real world generation tasks, while approaching the world knowledge capabilities of the strongest closed-source models. As an early exploration of agent-based modeling for world-grounded image synthesis, our work highlights the value of tightly coupling reasoning, searching, and generation for reliable open-world agentic image synthesis.
Analysis:
以下是对《Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis》的深度解析:
统一多模态模型提供了理解复杂现实世界知识并生成高质量图像的架构,但仍主要依赖冻结的参数化知识,难以应对长尾和知识密集型概念。受智能体(Agents)在现实世界任务中成功经验的启发,我们提出了 Unify-Agent,这是一个用于世界接地图像合成的统一多模态智能体。它将图像生成重构为包含提示理解、多模态证据搜索、接地重标注(Grounded Recaptioning)和最终合成的智能体流水线。我们构建了定制的数据流水线并整理了143K个高质量智能体轨迹用于监督训练,并引入了 FactIP 基准来明确评估外部知识接地的需求。实验表明,Unify-Agent 大幅提升了基础模型的性能,在世界知识能力上接近顶尖的闭源模型。
- 核心驱动力:T2I生成模型在处理现实世界中罕见、长尾或特定的知识密集型实体(如特定历史人物、罕见艺术玩具)时,常因训练数据中缺失相关知识而产生“幻觉”或身份漂移。
- 痛点:现有模型基于“闭卷”生成(仅依赖冻结参数),无法在推理时动态获取外部信息;现有尝试结合搜索的“多阶段拼接”流水线因接口割裂,导致级联误差且视觉引导效果差。
- 研究假设:通过将推理、搜索、重标注与生成深度耦合在同一个多模态模型架构中,生成过程不仅能获得外部知识,还能通过生成过程中的重标注将原始杂乱证据转化为“生成导向”的结构化约束,从而实现精准的接地生成。
Unify-Agent 的核心流程分为四个认知阶段:
- THINK(认知间隙检测):模型评估输入提示,判断参数化记忆中是否缺少关键视觉属性(如 Bruce Beutler 的特征胡须)。
- RESEARCH(证据获取):根据判断,分两步进行:先进行文本检索(构建语义骨架,如角色背景、身份辨识),再进行视觉检索(获取Identity-preserving reference images)。
- RECAPTION(重标注):这是该论文最关键的创新点。模型不直接拼接 raw data,而是将检索到的文本和视觉证据转化为一个精炼的、结构化的 Evidence-Grounded Recaption。它明确 disentangle(解耦)了“身份保持约束”(如特定面部特征)和“场景组合约束”(如姿态、光影)。
- GENERATE(合成):基于上述结构化重标注和检索到的视觉 Anchors,进行高保真合成。
- 本质区别:从传统的“检索增强提示”升级为“推理-重标注-生成”的一体化智能体范式。它将检索到的信息作为一种需要被“处理”和“精炼”的中间输入,而不是直接强加给生成器。
- 创新点:提出了 Evidence-Grounded Recaptioning 作为一种自然桥梁,利用多模态大模型的推理能力将碎片化证据转化为生成友好的指令。
- 验证方法:引入 FactIP 基准(涵盖12个领域的2462个长尾/知识密集型概念),并使用 GPT-4o 或 Seed2.0 作为自动 judge 进行多维度评价(清晰度、内容、审美、相关性)。
- 关键结论:在 FactIP 上,Unify-Agent 较基准模型(Bagel)整体提升了 22 个点,尤其在 Relevance(相关性)维度增幅显著。消融实验证明,去除重标注步骤会导致性能剧烈下降,验证了其“过滤噪声、提供结构化指导”的核心地位。
- 开源情况:已在 GitHub (shawn0728/Unify-Agent) 开源。
-
实现注意:关键在于“训练轨迹”的构建。作者使用了 Claude Opus 4.6 生成 SFT 数据,训练时需要对
<think>、<tool_call>和<recaption>等特殊 token 进行加权损失处理。 - 迁移可能:该架构适合任何具备视觉理解能力的 Unified MLLM(如 Janus 系列),通过将现有的图文检索流程重构为 Recaption 范式,均可尝试此迁移。
- 核心思想:通过智能体重标注将检索到的外部知识重组为结构化生成指令。
-
速记版pipeline:
- 判断缺什么知识;
- 搜背景图和文本;
- 将信息整理成结构化的描述;
- 依据描述生成图像。
Key Findings:
- Specifically, we present Unify-Agent, a unified multimodal agent for world-grounded image synthesis, which reframes image generation as an agentic pipeline consisting of prompt understanding, multimodal evidence searching, grounded recaptioning, and final synthesis.
Links:
Quantization with Unified Adaptive Distillation to enable multi-LoRA based one-for-all Generative Vision Models on edge
Authors: Sowmya Vajrala, Aakash Parmar, Prasanna R, Sravanth Kodavanti, Manjunath Arveti, Srinivas Soumitri Miriyala, Ashok Senapati
Published: 2026-03-31
Categories: cs.CV, cs.AI
Abstract:
Generative Artificial Intelligence (GenAI) features such as image editing, object removal, and prompt-guided image transformation are increasingly integrated into mobile applications. However, deploying Large Vision Models (LVMs) for such tasks on resource-constrained devices remains challenging due to their high memory and compute requirements. While Low-Rank Adapters (LoRAs) enable parameter-efficient task adaptation, existing Mobile deployment pipelines typically compile separate model binaries for each LoRA + a copy of the foundation model, resulting in redundant storage and increased runtime overhead. In this work, we present a unified framework for enabling multi-task GenAI inference on edge devices using a single shared model. Our key idea is to treat LoRA weights as runtime inputs rather than embedding them into the compiled model graph, allowing dynamic task switching at runtime without recompilation. Then, to support efficient on-device execution, we introduce QUAD (Quantization with Unified Adaptive Distillation), a quantizationaware training strategy that aligns multiple LoRA adapters under a shared quantization profile. We implement the proposed system with a lightweight runtime stack compatible with mobile NPUs and evaluate it across multiple chipsets. Experimental results demonstrate up to 6x and 4x reduction in memory footprint and latency improvements, respectively, while maintaining high visual quality across multiple GenAI tasks.
Analysis:
这是一份关于《Quantization with Unified Adaptive Distillation to enable multi-LoRA based one-for-all Generative Vision Models on edge》的深度技术分析报告。
生成式人工智能(GenAI)功能正日益集成于移动应用中。然而,在资源受限设备上部署大规模视觉模型(LVM)仍具挑战。虽然低秩适配器(LoRA)实现了参数高效的迁移,但现有的移动部署方案通常为每个LoRA任务编译独立的模型二进制文件,导致严重的存储冗余及运行开销。本文提出了QUAD(具有统一自适应蒸馏的量化),这是一种统一框架,旨在实现边缘设备的单模型多任务推理。核心思想是将LoRA权重作为运行时输入,而非将其嵌入到已编译的模型图中,从而支持运行时任务动态切换。QUAD通过一种量化感知训练策略,使多个LoRA适配器共享统一的量化配置。实验证明,该方案在保持高质量生成的同时,内存占用减少至原来的1/6,推理延迟改善至原来的1/4。
- 驱动力:在边缘设备上实现“一个基座模型+多个轻量级LoRA”的高效运行,同时满足NPU对固定量化参数的硬约束。
- 现有痛点:传统方法将LoRA权重直接“合并(merge)”进模型,导致产生多个静态计算图,这使得每次任务切换都必须重新加载庞大的二进制文件,浪费存储且无法利用NPU的编译优化。
- 核心直觉:LoRA权重本质上是可动态注入的张量。只要让底层的LVM架构在计算图中预留“输入插槽”,并在训练阶段通过蒸馏强制所有LoRA适配器对齐同一套量化参数,就能实现单一底座模型的复用。
-
核心逻辑(公式3):通过修改线性层操作为
$y = Wx + \alpha A(Bx)$ ,将$A$ 和$B$ 处理为运行时传入的张量,而不是静态参数。 -
QUAD量化策略:
- 敏感度分析:计算所有LoRA在量化后的“量化敏感度得分(QSS)”,选出最敏感的LoRA作为“锚点”。
- 统一配置:以锚点的量化参数(scale和zero-point)为准,强制其它LoRA在训练时对齐。
- 自适应蒸馏:构建QuantSim模型,将Full-Precision模型作为教师,将强制使用共享量化参数的LoRA+LVM作为学生,通过重建损失(MSE)进行微调,确保各任务在低位宽下性能不劣化。
- 部署流程:将基座模型固定编译(Graph Optimization),LoRA适配器作为Buffer在运行时动态流式注入NPU硬件接口。
- 本质区别:从“Task-Specific Binary(任务特定二进制)”转向“One-for-All Frozen Graph(通用冻结图)”。
- 创新贡献:提出了一种无需动态图重编译(Re-compilation)的LoRA运行时注入机制,并解决了多适配器量化参数不兼容导致无法共享模型图的工程难题。
- 适用场景:任何需要在一台边缘设备(手机、嵌入式芯片)上频繁切换不同生成式视觉任务(如修图、换装、风格化)的场景。
- 验证方法:在 Qualcomm、MediaTek、LSI 三种不同硬件平台上测试,对比了单一基础模型加载不同LoRA后的延迟与存储。
- 关键结论:在双任务场景下,内存占用减少超6倍,延迟降低达4倍,且在FID/SSIM等指标上与全精度模型性能极其接近。
- 局限:适配器数量极大时,运行时缓存管理的复杂性需进一步权衡。
-
实现细节:关键在于将 LoRA 的
$A, B$ 矩阵作为模型计算图中的Input Tensor节点(Placeholder)。 - 迁移建议:该方法不局限于视觉模型。任何具备线性旁路结构的Adapter架构(如LLM的LoRA)均可通过此“参数即输入”的模式进行架构改造,通过蒸馏对齐参数后,即可移植到对量化要求严苛的DSP/NPU硬件。
- 核心思想:LoRA参数运行时注入+统一量化参数蒸馏,实现边缘侧模型复用。
-
速记版pipeline:
- 将 LoRA 权重剥离为外部输入;
- 通过敏感度分析确定全局量化参数;
- 利用知识蒸馏微调各 LoRA 以适配该参数;
- 编译基座模型图,运行时动态注入权重。
Key Findings:
- In this work, we present a unified framework for enabling multi-task GenAI inference on edge devices using a single shared model.
- Then, to support efficient on-device execution, we introduce QUAD (Quantization with Unified Adaptive Distillation), a quantizationaware training strategy that aligns multiple LoRA adapters under a shared quantization profile.
Links:
Authors: Yuan Hao, Ruiqi Yu, Shixin Luo, Guoteng Zhang, Jun Wu, Qiuguo Zhu
Published: 2026-03-31
Categories: cs.RO
Abstract:
Stable traversal over geometrically complex terrain increasingly requires exteroceptive perception, yet prior perceptive humanoid locomotion methods often remain tied to explicit geometric abstractions, either by mediating control through robot-centric 2.5D terrain representations or by shaping depth learning with auxiliary geometry-related targets. Such designs inherit the representational bias of the intermediate or supervisory target and can be restrictive for vertical structures, perforated obstacles, and complex real-world clutter. We propose CReF (Cross-modal and Recurrent Fusion), a single-stage depth-conditioned humanoid locomotion framework that learns locomotion-relevant features directly from raw forward-facing depth without explicit geometric intermediates. CReF couples proprioception and depth tokens through proprioception-queried cross-modal attention, fuses the resulting representation with a gated residual fusion block, and performs temporal integration with a Gated Recurrent Unit (GRU) regulated by a highway-style output gate for state-dependent blending of recurrent and feedforward features. To further improve terrain interaction, we introduce a terrain-aware foothold placement reward that extracts supportable foothold candidates from foot-end point-cloud samples and rewards touchdown locations that lie close to the nearest supportable candidate. Experiments in simulation and on a physical humanoid demonstrate robust traversal over diverse terrains and effective zero-shot transfer to real-world scenes containing handrails, hollow pallet assemblies, severe reflective interference, and visually cluttered outdoor surroundings.
Analysis:
稳定的复杂地形遍历要求机器人具备高效的外感知能力,然而现有的类人机器人运动方法往往依赖于明确的几何抽象(如2.5D地图)或辅助性的深度学习任务,这些设计会引入预设的表示偏差,限制了机器人对垂直结构、穿孔障碍物及复杂现实场景的适应能力。本文提出CReF(跨模态与循环融合),这是一种单阶段深度条件类人运动框架。它通过跨模态注意力机制融合本体感觉与原始深度信息,利用门控残差融合块处理特征,并通过带有公路式输出门(Highway-style output gate)的GRU进行时序整合。此外,我们引入了一种地形感知足点放置奖励,通过从足端点云中提取可支撑候选项,引导机器人进行更精准的落点。实验证明,CReF在多样化地形中表现稳健,并能零样本迁移至包含扶手、空心托盘等复杂现实场景。
- 驱动力:旨在摆脱对显式几何中间表示(如高度图、网格)的依赖,实现从原始感知输入到动作输出的直接映射,提升对复杂、非结构化环境的普适性。
- 痛点:传统方法中的“中间表示”存在严重的 inductive bias(归纳偏差),当环境超出其预设的几何模型(如悬空物体、复杂的穿孔障碍物)时,性能会急剧下降。
- 核心直觉:运动策略不需要显式的几何重构,只要能够通过跨模态注意力机制将深度信息“对齐”到本体状态,并利用时序门控策略动态平衡实时观测与历史记忆,即可实现稳健的自主遍历。
-
Pipeline流程:
- 特征编码:利用轻量级CNN编码原始深度为Tokens,结合本体状态(角速度、重力向量等)通过多头注意力机制(MHA)提取Locomotion-relevant特征。
- 融合层(GRF):通过线性投影将融合后的特征映射至共享潜空间,并引入门控机制($\sigma(g_t)$)实现残差自适应更新,保证路径稳定性。
- 时序整合(Recurrent Fusion):利用GRU捕捉短期时序上下文,再通过“公路门(Highway Gate)”机制动态平衡记忆特征与当前观测,在环境模糊时更依赖历史,在观测清晰时更依赖即时信号。
- 地形感知奖励(Terrain-Aware Reward):通过对足端局部点云进行几何聚类和 eigen-decomposition(特征分解)评估平整度,若落点接近可支撑区域(平面且非凹陷),则给予高额奖励。
- 本质区别:去掉了显式的“高度图生成”或“地形重建”模块,转而采用“注意力机制+门控融合”,实现了真正的端到端深度条件运动。
- 创新点:公路式输出门(Highway Gate)的设计,使其能智能感知运动状态(如飞行期 vs 支撑期),动态调整对感知与记忆的权重。
- 适用场景:极端地形、垂直障碍物、传感器存在反射干扰的复杂现实场景。
- 关键结论:在模拟器中遍历成功率显著高于基线;零样本迁移至现实世界中,在有栏杆、植被干扰等非理想环境下仍能稳健作业。
- 主要优势:极强的鲁棒性与泛化性,在处理楼梯下降(复杂任务)时失误率最低,落点高度集中。
- 局限:对深度相机的 illumination(光照)和 reflective(反射)特性敏感,尚未结合RGB纹理信息。
-
实现细节:
- 仿真训练:Isaac Gym + NVIDIA Warp 高效仿真。
- 关键参数:需调优公路门的 gate activation 阈值,以平衡记忆依赖度。
-
奖励函数:Eq. (23) 是落点设计的核心,须确保
sxz容忍度设置合理。
- 迁移建议:该架构的“感知-融合-时序控制”范式可直接迁移至其他 legged 机器人(如四足),只需更换相应的本体状态输入。
- 核心思想:通过跨模态融合与动态门控机制,实现对原始感知与时序记忆的智能协同。
-
速记版pipeline:
- 原始深度与本体状态交叉注意力融合;
- 门控残差网络精炼多模态特征;
- 时序门控机制分配记忆权重;
- 地形感知奖励引导足端精准落地。
Key Findings:
- We propose CReF (Cross-modal and Recurrent Fusion), a single-stage depth-conditioned humanoid locomotion framework that learns locomotion-relevant features directly from raw forward-facing depth without explicit geometric intermediates.
- To further improve terrain interaction, we introduce a terrain-aware foothold placement reward that extracts supportable foothold candidates from foot-end point-cloud samples and rewards touchdown locations that lie close to the nearest supportable candidate.
Links: