Arxiv Report 2026 04 23 - Owen-Liuyuxuan/everyday_my_arxiv GitHub Wiki
1. 核心主题与趋势
今日的论文集体现了计算机视觉领域三个显著的融合与演进趋势:
- 多模态大模型的深化与具身化:研究重点正从基础的多模态理解(如VLM)向具体行动(Vision-Language-Action) 和具身智能迈进。多篇论文致力于为模型注入世界知识、行动能力或与物理世界交互的技能(如PokeVLA, LLaDA2.0-Uni, Visual-Tactile Assembly),标志着从“看与说”到“看、想、做”的关键转变。
- 生成式AI的精细化与可控性:扩散模型等生成技术的研究进入“后训练”和“精细化控制”阶段。焦点在于如何对预训练大模型进行高效微调,以实现对生成内容质量、属性或奖励的连续、精准控制(如ParetoSlider, SSL-R1),这对其实际应用至关重要。
- 三维视觉与物理世界的统一建模:出现了一个明确的技术方向,即利用强大的生成先验(如扩散模型)或基础模型(如SAM),来统一解决三维重建、场景理解与交互的复杂问题。这些工作旨在从2D图像或视频中,更鲁棒地推断出包含几何、材质、光照乃至物体间交互关系的整体化3D场景表示(如LEXIS, Amodal SAM, GeoRelight)。
2. 重点论文亮点
-
最具系统整合性的工作:
LLaDA2.0-Uni提出一个基于扩散的LLM来统一多模态理解与生成,是构建通用多模态智能体架构的重要尝试。 -
最具实用创新性的工作:
PokeVLA专注于“口袋尺寸”的VLA模型,强调在资源受限设备(如手机、机器人)上部署,并结合世界知识指导,对边缘计算和移动机器人领域有直接价值。 -
最具算法创新性的工作:
ParetoSlider提出的“后训练连续奖励控制”方法,为平衡生成模型多个竞争性目标(如质量、多样性、安全性)提供了新颖且可能更高效的解决方案。 -
最具工程验证意义的工作:
Toward Cooperative Driving不仅提出了基于自适应势博弈的理论框架,更关键的是进行了实地测试验证,这在自动驾驶协同研究中尤为可贵。
3. 新兴研究方向
- 基础模型的“后训练”范式:如何对庞大的预训练模型(视觉、多模态、扩散)进行轻量、高效、目标明确的微调,正成为一个独立且关键的子领域(见ParetoSlider, SSL-R1)。
- 跨模态的“具身”技能迁移:利用视觉、语言乃至触觉等多模态数据,让智能体学习复杂的物理操作技能,并探索从反任务(如“拆卸”)中学习正任务(如“装配”)等新范式(见Visual-Tactile Assembly)。
- 联邦学习与持续学习的结合:在移动自主系统(如车队)的背景下,研究如何在不集中数据的前提下,让系统在动态环境中持续学习新知识,同时避免遗忘(见Lifecycle-Aware Federated Continual Learning)。
- 从2D到3D的“全息”推理:超越传统的3D重建,研究如何从单张图像中同时推断出物体的遮挡部分(Amodal)、交互关系(HOI)、材质与光照(Relighting),形成对场景的完整物理性理解(见LEXIS, Amodal SAM, GeoRelight)。
4. 推荐精读论文
根据研究方向的普适性和技术影响力,建议优先阅读:
-
ParetoSlider: Diffusion Models Post-Training for Continuous Reward Control- 理由:直击生成式AI落地核心痛点——可控性。其“后训练连续控制”思路可能成为扩散模型应用的标准技术之一,适用于任何需要权衡多目标的生成任务。
-
PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance- 理由:代表了VLM/VLA模型小型化、实用化的最前沿。其“知识指导”和“行动输出”的结合,对机器人、AR/VR等边缘设备应用极具启发性。
-
GeoRelight: Learning Joint Geometrical Relighting and Reconstruction with Flexible Multi-Modal Diffusion Transformers- 理由:展示了如何用前沿的扩散Transformer统一解决多个经典但困难的视觉问题(重建、材质、光照)。其方法可能成为3D视觉生成与编辑的新范式。
-
LEXIS: LatEnt ProXimal Interaction Signatures for 3D HOI from an Image- 理由:将3D重建与人物-物体交互(HOI)分析巧妙结合,是从静态图像理解动态交互意图的进阶工作,对场景理解、机器人模仿学习有重要意义。
总结:今日的研究呈现出强烈的融合(多模态、2D/3D、生成与理解) 与落地(可控生成、具身行动、边缘部署、实地验证) 导向。领域正在从构建基础能力,转向解决复杂、综合且贴近实际应用的挑战。
- Toward Cooperative Driving in Mixed Traffic: An Adaptive Potential Game-Based Approach with Field Test Verification
- PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance
- ParetoSlider: Diffusion Models Post-Training for Continuous Reward Control
- LEXIS: LatEnt ProXimal Interaction Signatures for 3D HOI from an Image
- LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model
- Amodal SAM: A Unified Amodal Segmentation Framework with Generalization
- Lifecycle-Aware Federated Continual Learning in Mobile Autonomous Systems
- GeoRelight: Learning Joint Geometrical Relighting and Reconstruction with Flexible Multi-Modal Diffusion Transformers
- Visual-Tactile Peg-in-Hole Assembly Learning from Peg-out-of-Hole Disassembly
- SSL-R1: Self-Supervised Visual Reinforcement Post-Training for Multimodal Large Language Models
Toward Cooperative Driving in Mixed Traffic: An Adaptive Potential Game-Based Approach with Field Test Verification
Authors: Shiyu Fang, Xiaocong Zhao, Xuekai Liu, Peng Hang, Jianqiang Wang, Yunpeng Wang, Jian Sun
Published: 2026-04-22
Categories: cs.RO
Abstract:
Connected autonomous vehicles (CAVs), which represent a significant advancement in autonomous driving technology, have the potential to greatly increase traffic safety and efficiency through cooperative decision-making. However, existing methods often overlook the individual needs and heterogeneity of cooperative participants, making it difficult to transfer them to environments where they coexist with human-driven vehicles (HDVs).To address this challenge, this paper proposes an adaptive potential game (APG) cooperative driving framework. First, the system utility function is established on the basis of a general form of individual utility and its monotonic relationship, allowing for the simultaneous optimization of both individual and system objectives. Second, the Shapley value is introduced to compute each vehicle's marginal utility within the system, allowing its varying impact to be quantified. Finally, the HDV preference estimation is dynamically refined by continuously comparing the observed HDV behavior with the APG's estimated actions, leading to improvements in overall system safety and efficiency. Ablation studies demonstrate that adaptively updating Shapley values and HDV preference estimation significantly improve cooperation success rates in mixed traffic. Comparative experiments further highlight the APG's advantages in terms of safety and efficiency over other cooperative methods. Moreover, the applicability of the approach to real-world scenarios was validated through field tests.
Analysis:
连接自动驾驶车辆(CAVs)是自动驾驶技术的重大进步,有望通过协同决策提升交通安全与效率。然而,现有研究往往忽略了交通参与者的个体需求与异质性,难以在人机混合交通环境(HDVs)中应用。为解决此挑战,本文提出了一种自适应潜力博弈(APG)协同驾驶框架。首先,基于个体效用与系统效用的单调关系,构建了系统效用函数,实现了个体与系统目标的联合优化。其次,引入Shapley值量化车辆对系统的边际贡献,并利用反向传播机制动态更新HDV的决策偏好估计。消融实验表明,自适应权重机制显著提升了混合交通下的协同成功率。对比实验与现场测试验证了该方法在安全性和效率方面的优势。
- 驱动力:在混合交通中,现有的协同驾驶往往过度关注系统全局最优(如通行效率),而忽视了人类驾驶员(HDVs)的个体需求和行为多样性,导致优化策略与人类行为不兼容,甚至引发冲突。
- 痛点:现有研究通常将HDVs简化为被动实体,或假设所有参与者行为一致。现有的博弈模型常引入强硬的“合作/非合作”假设,缺乏对驾驶员偏好实时更新的自适应能力。
- 核心假设:将协同驾驶建模为“潜力博弈”,确保系统效用达到最优的同时,个体亦达到纳什均衡,从而实现系统与个体的兼容。
-
流程Pipeline:
- 效用构建:定义包含“自相关奖励”(个人效率、舒适度)和“群组相关奖励”(碰撞时间TTCP)的个体效用函数。
- 潜力博弈建模:建立个体与系统效用的单调映射关系,使得优化系统效用等同于达到个体均衡。
- Shapley值量化:计算每辆车对系统效用的边际贡献,动态分配系统权重,识别关键冲突参与者。
- 偏好估计与反向传播:通过对比APG的预估动作与实际观测动作,利用梯度下降(BP算法)更新HDV的偏好参数(α代表激进程度,β代表对冲突的敏感度)。
- 求解:通过泰勒展开将非线性约束问题转化为二次规划问题,实现实时求解。
- 模型协同:Shapley值处理参与者的异质性(谁更重要),BP机制处理决策的动态性(他想干什么),两者共同修正潜力博弈的权重参数。
- 本质区别:不预设驾驶员类型(激进或保守),而是通过“在线观察-实时拟合”的方式让模型自适应识别个体的决策逻辑。
- 创新贡献:将Shapley值与潜力博弈结合,成功解决了混合交通中“系统全局优”与“个体自私博弈”的冲突,且该框架具有极高的灵活性。
- 适用场景:适用于存在复杂博弈行为的非信号交叉口、汇入区等混合交通场景。
- 验证方法:仿真平台(消融实验+对比实验)+ 真实场地(TJST)现场测试。
- 关键结果:在各渗透率下,APG方法的成功率均优于PIDM、iDFST、CGame等方法;且随CAV渗透率提高,APG碰撞率降至零,延迟表现最优。
- 主要局限:对计算资源有一定要求(尽管使用了批量粗化机制),且现阶段依赖车路协同通信(V2X)。
- 开源:参考论文提供的项目主页(https://fangshiyuu.github.io/AWSW-PG/)。
-
实现建议:
- 超参数:$\gamma=0.9, T=8, \mu=1, R=80m$ 是验证过的稳健参数。
- 加速技巧:当车辆过多时,务必使用文中提出的“超级节点”(supernode)批量化方法,避免Shapley值计算量爆炸。
- 迁移性:该框架核心是潜力博弈论,可直接迁移至资源分配、多机器人编队等需要权衡个体与全局的多智能体决策任务中。
- 核心思想:通过动态博弈的拟合,让算法“理解”人类的个性化驾驶动机。
-
速记版Pipeline:
- 构建统一的效用公式(包含效率与安全);
- 计算每辆车的“系统权重”(Shapley值);
- 观察人类驾驶员行为并更新其心理偏好;
- 动态求解平衡系统全局与个体的博弈策略。
Key Findings:
- Comparative experiments further highlight the APG's advantages in terms of safety and efficiency over other cooperative methods.
- Moreover, the applicability of the approach to real-world scenarios was validated through field tests.
Links:
PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance
Authors: Yupeng Zheng, Xiang Li, Songen Gu, Yuhang Zheng, Shuai Tian, Weize Li, Linbo Wang, Senyu Fei, Pengfei Li, Yinfeng Gao, Zebin Xing, Yilun Chen, Qichao Zhang, Haoran Li, Wenchao Ding
Published: 2026-04-22
Categories: cs.RO
Abstract:
Recent advances in Vision-Language-Action (VLA) models have opened new avenues for robot manipulation, yet existing methods exhibit limited efficiency and a lack of high-level knowledge and spatial awareness. To address these challenges, we propose PokeVLA, a lightweight yet powerful foundation model for embodied manipulation that effectively infuses vision-language understanding into action learning. Our framework introduces a two-stage training paradigm: first, we pre-train a compact vision-language model (PokeVLM) on a curated multimodal dataset of 2.4M samples encompassing spatial grounding, affordance, and embodied reasoning tasks; second, we inject manipulation-relevant representations into the action space through multi-view goal-aware semantics learning, geometry alignment, and a novel action expert. Extensive experiments demonstrate state-of-the-art performance on the LIBERO-Plus benchmark and in real-world deployment, outperforming comparable baselines in success rate and robustness under diverse perturbations. To foster reproducibility and community progress, we will open-source our code, model weights, and the scripts for the curated pre-training dataset. Project page: https://getterupper.github.io/PokeVLA
Analysis:
这是一份关于 PokeVLA 论文的深度分析:
现有的视觉-语言-动作 (VLA) 模型在机器人操作领域虽然已取得进展,但仍面临计算效率受限、缺乏高层知识及空间感知能力不足等挑战。为解决这些问题,我们提出 PokeVLA,一种轻量级且强大的具身操作基础模型。我们引入了两阶段训练范式:首先,在一个涵盖空间定位、交互意图 (affordance) 和具身推理任务的240万样本多模态数据集上预训练紧凑型视觉-语言模型 (PokeVLM);其次,通过多视角目标语义学习、几何对齐及一种新型动作专家,将操作相关的表示注入到动作空间中。实验证明,PokeVLA 在 LIBERO Plus 基准测试和真实机器人部署中均达到最先进性能,并在各种扰动下表现出卓越的鲁棒性。
- 驱动力:作者旨在构建一个既轻量化又具备深刻物理感知能力的机器人基础模型,打破“通用VLM直接迁移”带来的性能壁垒。
- 痛点:当前主流VLA模型依赖从超大模型(如7B参数)直接提取特征,存在严重的领域知识偏差(Domain Gap),且缺乏对三维物理场景和多视角空间一致性的显式建模,导致在处理相对位置或复杂操作指令时表现脆弱。
- 核心直觉:通过“预训练+针对性强化”的范式,先让视觉骨干具备具身感知能力(空间/交互/推理),再通过显式的几何对齐和目标分割辅助任务,引导动作专家聚焦关键操作目标。
-
流程总结:
- VLM预训练 (PokeVLM):基于Prismatic-VLM架构,使用2.4M规模的精选数据集(涵盖VQA、空间基础、交互知识等)进行预训练,强化模型对物理空间的理解。
-
多视角语义学习:通过定义一个
<SEG>令牌与 SAM 模型结合,在多视角下预测操纵目标的语义掩码,强制模型建立跨视角的语义一致性。 - 几何对齐模块:引入预训练的几何基础模型 (VGGT),将视觉特征与场景的3D几何信息对齐,增强空间推理能力。
- 动作头设计:利用动作查询 (Action Queries) 通过交叉注意力机制聚合视觉特征、语义令牌及几何信息,生成连续动作。
-
模型协同:
<SEG>令牌作为语义锚点,跨视角的几何对齐提供结构支架,动作专家以此为输入进行精准规划。 - 核心逻辑:将动作生成过程视为一个由语义掩码和几何先验共同“引导”的注意力过程。
- 本质区别:不同于仅仅将VLM作为“特征提取器”,PokeVLA 将目标分割(语义)和几何对齐(结构)显式集成到训练过程中,实现了感知空间与动作空间的解耦与重连。
-
创新贡献:
- 轻量化模型达到了超越超大参数模型(7B)的性能。
- 提出“嵌入即掩码”的策略,在无需额外推理负担下实现了跨视角的强一致性。
- 结果:在 LIBERO-Plus 基准测试中,PokeVLA 在仅有 1.22B 参数的情况下,在多种复杂环境下成功率达到 83.5%,显著优于同规模和更大规模基线模型。
- 优势:在光照变化、背景干扰及目标布局扰动下展现了极高的鲁棒性。
- 局限:作为基于特定预训练的方案,其性能高度依赖预训练数据的质量与多样性。
- 开源:项目代码、模型权重及数据集脚本均开源(Project Page)。
-
关键实现:
- 训练使用了 LoRA 技术,保持核心参数稳定,仅微调投影器和动作头。
- 数据增强方面,引入了大量针对具身任务的模板化语言指令。
- 在部署时,利用预训练后的紧凑模型,可大幅降低推理延迟。
- 迁移:该框架的语义分割辅助任务和几何对齐模块非常通用,可直接迁移至其他基于ViT的具身机器人框架中。
- 核心思想:通过多视角语义与几何先验引导,强化动作学习。
-
速记版pipeline:
- 精选240万具身数据预训练视觉语言模型。
- 引入目标分割任务,确保多视角语义一致。
- 利用几何辅助模块对齐3D场景结构。
- 通过查询机制融合感知信息并生成操作动作。
Key Findings:
- Recent advances in Vision-Language-Action (VLA) models have opened new avenues for robot manipulation, yet existing methods exhibit limited efficiency and a lack of high-level knowledge and spatial awareness.
- To address these challenges, we propose PokeVLA, a lightweight yet powerful foundation model for embodied manipulation that effectively infuses vision-language understanding into action learning.
- Our framework introduces a two-stage training paradigm: first, we pre-train a compact vision-language model (PokeVLM) on a curated multimodal dataset of 2.4M samples encompassing spatial grounding, affordance, and embodied reasoning tasks; second, we inject manipulation-relevant representations into the action space through multi-view goal-aware semantics learning, geometry alignment, and a novel action expert.
- Extensive experiments demonstrate state-of-the-art performance on the LIBERO-Plus benchmark and in real-world deployment, outperforming comparable baselines in success rate and robustness under diverse perturbations.
Links:
Authors: Shelly Golan, Michael Finkelson, Ariel Bereslavsky, Yotam Nitzan, Or Patashnik
Published: 2026-04-22
Categories: cs.LG, cs.CV
Abstract:
Reinforcement Learning (RL) post-training has become the standard for aligning generative models with human preferences, yet most methods rely on a single scalar reward. When multiple criteria matter, the prevailing practice of ``early scalarization'' collapses rewards into a fixed weighted sum. This commits the model to a single trade-off point at training time, providing no inference-time control over inherently conflicting goals -- such as prompt adherence versus source fidelity in image editing. We introduce ParetoSlider, a multi-objective RL (MORL) framework that trains a single diffusion model to approximate the entire Pareto front. By training the model with continuously varying preference weights as a conditioning signal, we enable users to navigate optimal trade-offs at inference time without retraining or maintaining multiple checkpoints. We evaluate ParetoSlider across three state-of-the-art flow-matching backbones: SD3.5, FluxKontext, and LTX-2. Our single preference-conditioned model matches or exceeds the performance of baselines trained separately for fixed reward trade-offs, while uniquely providing fine-grained control over competing generative goals.
Analysis:
作为计算机视觉和机器学习领域的专家,我对 ParetoSlider 这篇论文的分析如下:
ParetoSlider 提出了一种针对扩散模型的多目标强化学习(MORL)后训练框架,旨在解决传统“单一标量奖励”方法中 trade-off 固定且不可调整的问题。通过将偏好权重作为条件信号输入模型,该方法使得单一模型能够覆盖完整的帕累托前沿(Pareto front),从而允许用户在推理阶段根据需求实时权衡多个冲突目标(如提示词遵循度与图像保真度)。
- 连续权衡(Continuous Trade-offs): 不同于传统的“预标量化”(Early Scalarization)将多个目标强行合并,ParetoSlider 将偏好权重视为条件信号(conditioning signal),训练模型学习奖励函数的帕累托前沿面。
- 免重训推理: 通过训练单一模型,用户无需在推理时为了调整权重而重新训练模型或维护多个检查点(checkpoints),极大地提升了模型在不同下游任务间的灵活性。
- 跨架构兼容性: 该框架在 SD3.5、FluxKontext 和 LTX-2 等主流 Flow-Matching 主干网络上验证了其有效性,证明了该方法对当前最先进生成模型的泛化能力。
- 重新定义模型对齐(Alignment): 该研究标志着人类反馈强化学习(RLHF/RLAIF)从“追求单一最优解”向“追求可控帕累托最优解”的范式转移。
- 用户体验的质变: 对于创意设计、图像编辑等需要细粒度干预的场景,ParetoSlider 提供了一种交互式调优手段,极大降低了用户在“艺术美感”与“内容精确度”之间摇摆的成本。
- 计算效率提升: 通过单个模型取代多个专有微调模型,显著降低了多目标部署场景下的显存占用和存储开销。
- 图像编辑(Image Editing): 在“保持原图内容不变”与“修改提示词一致性”之间寻找平衡。
- 工业设计与生成式辅助设计: 在多个物理属性(如空气动力学与美学外观)冲突时,允许工程师在推理阶段实时权衡。
- 媒体内容合规性: 在“内容创意”与“安全性过滤(如减少偏见或暴力内容)”之间进行精细化调节。
- 视频生成(LTX-2 适配): 权衡视频的时间一致性与动作幅度。
- 奖励函数的复杂性: 帕累托前沿的质量高度依赖于所选 reward 模型(Reward Model)的准确性,如果奖励函数之间存在极端冲突或噪声,模型收敛到理想帕累托前沿的难度会指数级上升。
- ** conditioning 空间的覆盖度:** 虽然论文声称支持连续调节,但在极端的权重边界处(例如极度追求某一特定目标),模型可能存在性能退化或不稳定的现象。
- 训练成本与复杂性: 尽管推理阶段简化了,但训练阶段需要同时优化多个目标,对超参数调优(特别是奖励权重的采样分布)提出了较高要求。
专家点评: ParetoSlider 的精妙之处在于将 Multi-Objective Optimization (MOO) 思想引入了当前火热的 Diffusion Post-training 中。在 CV 领域,我们经常面临“保真度与多样性”、“指令遵循与视觉美感”等不可调和的矛盾。该论文通过巧妙的条件化手段,将这些“死板的权衡”转化为了“动态可调的滑块”,这种将决策空间通过条件编码注入生成模型的思路,对于后续构建更具可控性的生成式 AI 具有深远的参考意义。
Key Findings:
- We introduce ParetoSlider, a multi-objective RL (MORL) framework that trains a single diffusion model to approximate the entire Pareto front.
- We evaluate ParetoSlider across three state-of-the-art flow-matching backbones: SD3.5, FluxKontext, and LTX-2.
Links:
Authors: Dimitrije Antić, Alvaro Budria, George Paschalidis, Sai Kumar Dwivedi, Dimitrios Tzionas
Published: 2026-04-22
Categories: cs.CV, cs.LG
Abstract:
Reconstructing 3D Human-Object Interaction from an RGB image is essential for perceptive systems. Yet, this remains challenging as it requires capturing the subtle physical coupling between the body and objects. While current methods rely on sparse, binary contact cues, these fail to model the continuous proximity and dense spatial relationships that characterize natural interactions. We address this limitation via InterFields, a representation that encodes dense, continuous proximity across the entire body and object surfaces. However, inferring these fields from single images is inherently ill-posed. To tackle this, our intuition is that interaction patterns are characteristically structured by the action and object geometry. We capture this structure in LEXIS, a novel discrete manifold of interaction signatures learned via a VQ-VAE. We then develop LEXIS-Flow, a diffusion framework that leverages LEXIS signatures to estimate human and object meshes alongside their InterFields. Notably, these InterFields help in a guided refinement that ensures physically-plausible, proximity-aware reconstructions without requiring post-hoc optimization. Evaluation on Open3DHOI and BEHAVE shows that LEXIS-Flow significantly outperforms existing SotA baselines in reconstruction, contact, and proximity quality. Our approach not only improves generalization but also yields reconstructions perceived as more realistic, moving us closer to holistic 3D scene understanding. Code & models will be public at https://anticdimi.github.io/lexis.
Analysis:
从RGB图像重建3D人-物交互(HOI)对感知系统至关重要,但由于身体与物体之间细微的物理耦合,这极具挑战性。现有方法依赖于稀疏的二值接触(binary contact)线索,难以建模自然交互中的连续接近关系和密集空间关系。为此,我们提出了InterFields,一种编码整个身体和物体表面间密集、连续接近关系的表征。由于从单张图像推理此类场是病态的,我们的直觉是交互模式受动作和物体几何结构约束。我们通过LEXIS(一种通过VQ-VAE学习的离散交互特征流形)捕捉这种结构。随后,我们开发了LEXIS-Flow,一个利用LEXIS特征估计人与物网格及其InterFields的扩散框架。InterFields能引导网格精炼,确保重建物理合理,且无需后处理优化。在Open3DHOI和BEHAVE数据集上的评估显示,LEXIS-Flow在重建质量、接触和接近度方面显著优于现有基线。
- 核心动机:解决现有HOI重建中因仅依赖“接触/非接触”二值信号而导致缺乏连续物理空间感知的问题,通过引入连续的“接近场”实现更逼真的交互重建。
- 现有痛点:二值接触信号太稀疏且太“晚”(通常是后处理阶段),无法建模交互的进展和细微的空间关系,导致重建时常出现物体浮空或穿模。
- 研究假设:交互模式具有内在的结构规律(Interaction Signatures),可以被建模为一个离散的流形(即LEXIS),并作为先验信息引导3D重建。
- LEXIS学习(Lexicon):训练一个VQ-VAE(LEXIS-Net),将人体骨架姿态映射到离散的码本(Codebook)空间。每个编码(token)代表一种特定的交互原型,解码器将这些token还原为人体和物体的InterFields(表面距离场)。
-
LEXIS-Flow(重建):这是一个基于流匹配(Flow Matching)的生成框架。
- 双流设计:Transformer架构分别处理人体和物体状态,通过交叉注意力(Cross-Attention)实现交互建模。
- ** guided refinement(引导精炼)**:这是核心创新点。在ODE采样过程中,利用当前预测的InterFields计算梯度,在推理阶段实时引导生成轨迹,而非简单的预训练回归。
- 损失函数:包含流匹配损失、InterField监督损失、2D重投影损失和 mask引导损失。
- 本质区别:从传统的“回归+后处理优化”模式转变为“生成式建模+推理期实时引导”模式。
-
创新点:
- InterFields表示:引入密集连续场替代离散接触点。
- LEXIS码本:利用矢量量化技术构建交互特征的离散先验。
- 引导式推断:在采样过程直接加入基于物理规律的梯度引导,消除后处理耗时。
- 验证方法:在Open3DHOI(在野)和BEHAVE(在实验室)数据集上进行定量与定性评估。
- 关键结果:在Open3DHOI上,LEXIS-Flow在物体Chamfer Distance和接触F1分数上达到SOTA;感知研究显示75.8%的受试者认为该方法结果更真实。
- 优势:消除了传统方法中的后处理阶段,交互逼真度高,且对遮挡具有鲁棒性。
- 局限:如果初始化的物体位置偏差过大(超出Flow的修正能力),仍可能出现浮空等失败案例。
- 开源情况:已开源,见 https://anticdimi.github.io/lexis 。
-
实现细节:
- 需使用SAM3D进行物体初始化,使用MoGe估计 metric depth。
- 采样步数为25,从$t_{start}=15$开始执行引导梯度更新(Eq. 9)。
- 迁移可能:InterFields表示法可迁移至任何需要密集几何约束的任务,如机器人抓取或复杂的场景理解。
- 核心思想:通过离散交互先验引导的连续场生成实现物理一致性。
-
速记版pipeline:
- 建库:训练VQ-VAE学习动作-交互特征码本。
- 初估:输入图像,通过Transformer预测初始姿态与物体位置。
- 采样:在流匹配过程中利用InterFields梯度引导生成轨迹。
- 精炼:结合mask约束,无需额外步骤实现交互校准。
Key Findings:
- We capture this structure in LEXIS, a novel discrete manifold of interaction signatures learned via a VQ-VAE.
- Evaluation on Open3DHOI and BEHAVE shows that LEXIS-Flow significantly outperforms existing SotA baselines in reconstruction, contact, and proximity quality.
- Our approach not only improves generalization but also yields reconstructions perceived as more realistic, moving us closer to holistic 3D scene understanding.
Links:
Authors: Inclusion AI, Tiwei Bie, Haoxing Chen, Tieyuan Chen, Zhenglin Cheng, Long Cui, Kai Gan, Zhicheng Huang, Zhenzhong Lan, Haoquan Li, Jianguo Li, Tao Lin, Qi Qin, Hongjun Wang, Xiaomei Wang, Haoyuan Wu, Yi Xin, Junbo Zhao
Published: 2026-04-22
Categories: cs.CV
Abstract:
We present LLaDA2.0-Uni, a unified discrete diffusion large language model (dLLM) that supports multimodal understanding and generation within a natively integrated framework. Its architecture combines a fully semantic discrete tokenizer, a MoE-based dLLM backbone, and a diffusion decoder. By discretizing continuous visual inputs via SigLIP-VQ, the model enables block-level masked diffusion for both text and vision inputs within the backbone, while the decoder reconstructs visual tokens into high-fidelity images. Inference efficiency is enhanced beyond parallel decoding through prefix-aware optimizations in the backbone and few-step distillation in the decoder. Supported by carefully curated large-scale data and a tailored multi-stage training pipeline, LLaDA2.0-Uni matches specialized VLMs in multimodal understanding while delivering strong performance in image generation and editing. Its native support for interleaved generation and reasoning establishes a promising and scalable paradigm for next-generation unified foundation models. Codes and models are available at https://github.com/inclusionAI/LLaDA2.0-Uni.
Analysis:
以下是对 LLaDA2.0-Uni 的深度解析:
我们提出了 LLaDA2.0-Uni,这是一个统一的离散扩散大型语言模型(dLLM),在统一框架内支持多模态理解与生成。其架构融合了全语义离散分词器、基于 MoE 的 dLLM 主干网络和扩散解码器。通过 SigLIP-VQ 将连续视觉输入离散化,模型实现了主干网络内对文本和视觉输入的块级掩码扩散,而解码器负责将视觉标记重构为高保真图像。通过主干网络中的前缀感知优化和解码器中的少步蒸馏,推理效率得到了极大提升。得益于精心策划的大规模数据和多阶段训练流程,LLaDA2.0-Uni 在多模态理解上媲美专用 VLM,同时在图像生成和编辑方面表现出色。其对交错式生成与推理的原生支持,确立了一种通向下一代统一基础模型的可扩展范式。
- 驱动力:旨在打破理解与生成模型之间的壁垒,追求一种高效、统一的范式,以解决现有统一模型在理解性能、生成质量和推理效率上的 trade-off。
-
现有方法痛点:
- VQ-VAE 分词器缺乏语义信息,损害理解能力;
- 过度压缩导致生成图像细节损失;
- 全双向建模对文本不友好,导致推理不可靠;
- 推理速度慢(通常需要多步采样)。
- 研究假设:通过使用“全离散语义标记”进行统一表征,并结合掩码扩散目标,可以实现理解与生成在单一模型架构中的深度融合与相互增强。
-
流程总结:
- 输入处理:SigLIP-VQ 将视觉输入转化为离散语义 token,文本经分词后与视觉 token 对齐。
- 主干推理:16B MoE dLLM 主干网络执行块级掩码预测,支持多模态理解和生成任务的并行解码。
- 图像重构:专门的扩散解码器(基于 Flow Matching)将语义 token 解码为高保真图像。
- 加速优化:SPRINT 框架(稀疏前缀保留与非均匀 token 去掩码)降低计算成本;蒸馏解码器实现 8 步推理。
- 模型结构:由 SigLIP-VQ(语义提取)、MoE dLLM(认知主干)、Diffusion Decoder(生成重构)三部分组成。
-
关键公式意义:
- SPRINT 重要性得分($s_i$):综合了 Key-Norm(注意力影响力)和 Token Confidence(预测确定性),动态决定 pruning 策略,实现算力聚焦。
-
Mask Token Reweighting Loss (
$\beta_j$ ):通过样本长度的逆平方根加权,平衡不同长度样本对梯度的贡献,避免长序列主导训练。
- 本质区别:不同于常规的 AR-Diffusion 混合范式或基于 VQ-VAE 的重构范式,它坚持全离散语义空间,确保了统一的优化目标(mask prediction)。
-
创新贡献:
- 引入 SigLIP-VQ,提供更强的语义保留;
- 提出 SPRINT 训练无关加速框架,在并行 decoding 的基础上进一步优化算力分配;
- 成功将 reasoning 能力通过交错式推理模式融入统一架构。
- 适用场景:同时需要高质量图像生成、复杂 OCR/图表理解、以及逻辑推理的任务。
- 结论:LLaDA2.0-Uni 在 21 个多模态理解基准中达到领先水平,在 GenEval、DPG 等图像生成 benchmark 上超越了多种专用生成模型。
- 优势:在保持统一架构的同时,不仅性能强劲,而且通过 distilled decoder 和 SPRINT 显著提升了推理速度。
- 局限:在生成极高密度的文字渲染任务上仍有改进空间;模型复杂度的进一步提升依赖于更多的数据预训练。
- 开源情况:已开源 GitHub 及 HuggingFace 模型。
- 实现要点:关键在于 SigLIP-VQ 的预提取和 SPRINT 的非均匀去掩码调度策略。数据 packing(将不同任务样本拼凑为等长序列)对 GPU 利用率至关重要。
- 迁移方向:其模块化架构(Tokenizer + Backbone + Decoder)极易迁移至视频生成或更复杂的多模态输入任务中。
- 核心思想:基于全离散语义表征的统一掩码扩散框架。
-
速记版 Pipeline:
- 视觉图像经语义分词器离散化;
- MoE 主干网进行统一块级掩码预测;
- SPRINT 优化推理算力分配;
- 蒸馏解码器快速重构高保真图像。
Key Findings:
- We present LLaDA2.0-Uni, a unified discrete diffusion large language model (dLLM) that supports multimodal understanding and generation within a natively integrated framework.
Links:
Authors: Bo Zhang, Zhuotao Tian, Xin Tao, Songlin Tang, Jun Yu, Wenjie Pei
Published: 2026-04-22
Categories: cs.CV
Abstract:
Amodal segmentation is a challenging task that aims to predict the complete geometric shape of objects, including their occluded regions. Although existing methods primarily focus on amodal segmentation within the training domain, these approaches often lack the generalization capacity to extend effectively to novel object categories and unseen contexts. This paper introduces Amodal SAM, a unified framework that leverages SAM (Segment Anything Model) for both amodal image and amodal video segmentation. Amodal SAM preserves the powerful generalization ability of SAM while extending its inherent capabilities to the amodal segmentation task. The improvements lie in three aspects: (1) a lightweight Spatial Completion Adapter that enables occluded region reconstruction, (2) a Target-Aware Occlusion Synthesis (TAOS) pipeline that addresses the scarcity of amodal annotations by generating diverse synthetic training data, and (3) novel learning objectives that enforce regional consistency and topological regularization. Extensive experiments demonstrate that Amodal SAM achieves state-of-the-art performance on standard benchmarks, while simultaneously exhibiting robust generalization to novel scenarios. We anticipate that this research will advance the field toward practical amodal segmentation systems capable of operating effectively in unconstrained real-world environments.
Analysis:
Amodal分割旨在预测物体的完整几何形状,包括被遮挡的部分。现有方法大多局限于特定训练领域,缺乏扩展到新类别和未见场景的泛化能力。本文提出了Amodal SAM,一个利用SAM(Segment Anything Model)进行统一的Amodal图像和视频分割框架。Amodal SAM在保留SAM强大泛化能力的同时,通过三项改进扩展了其任务能力:(1)引入轻量级空间补全适配器(SCA)以重建遮挡区域;(2)提出目标感知遮挡合成(TAOS)管道,通过合成训练数据解决标注匮乏问题;(3)设计了区域一致性和拓扑正则化学习目标。实验表明,该方法在标准基准上达到SOTA,并具备强泛化能力。
- 驱动力:利用SAM强大的零样本泛化能力,解决Amodal分割在开放世界场景下的泛化瓶颈。
- 现有方法痛点:传统Amodal分割模型高度依赖预定义类别(封闭世界假设),对未知场景和类别泛化性极差,且难以处理复杂真实环境下的多变遮挡。
- 研究假设:通过在SAM编码器上引入轻量级、空间引导的适配器,并辅助以合成遮挡数据和特定几何优化目标,可以在不破坏SAM预训练知识的前提下,实现对隐藏区域的有效“幻觉”推理。
-
流程总结:
- 数据合成 (TAOS):从SA-1B数据集中随机选取目标和遮挡物,进行叠加和边缘高斯模糊处理,生成大规模伪标注Amodal数据。
- 模型适配 (SCA):在SAM的ViT编码器层中插入SCA。SCA将当前特征与掩码先验(空间提示)拼接,通过门控卷积(Gated Convolution)实现特征的选择性重建。
- 优化设计:采用三位一体的损失函数:分割损失(Dice+BCE)、区域一致性损失(约束可见与遮挡区域特征相似)及拓扑正则化损失(通过判别器约束形状结构)。
- 模型结构:采用了“编码器聚焦”策略。保持解码器冻结,仅微调包含SCA的编码器,避免破坏SAM原本出色的分割能力。
-
关键公式:
- SCA门控机制:$G = \sigma(F_{gate}(E, M_{spec}))$,用于自适应筛选受遮挡影响的区域特征,实现特征补全。
- 拓扑约束:引入判别器对输出 mask 进行对抗训练,迫使模型预测的形状更符合物体完整拓扑先验。
- 本质区别:不同于以往重设计全卷积网络的方法,本文是典型的“基础模型适配”,将SAM的强先验与特定任务适配器结合。
- 创新贡献:提出SCA实现特征空间的动态填充,并构建了TAOS pipeline解决了训练数据稀缺这一核心壁垒。
- 适用场景:泛化性能要求高的开放世界场景,如自动驾驶、空中监测等需要处理未知遮挡物的环境。
- 关键结果:在KINS、COCOA等基准测试中,Amodal SAM在闭集和开集场景下均优于当前主流方法(如SAMBA、pix2gestalt)。
- 主要优势:极强的零样本泛化能力;对复杂遮挡的几何补全准确度高。
- 主要局限:对极度复杂或与训练数据分布差异巨大的遮挡模式,性能仍有提升空间。
- 开源情况:已通过论文结构化设计逻辑开源(参考SAM适配方案)。
- 实现细节:边界框扩增因子设为0.2;采用AdamW优化器;SCA层需插入浅、中、深三层以保证特征提取的多尺度能力。
- 迁移可能:该SCA设计可直接迁移至其他基于ViT的视觉任务中作为增强模块。
- 核心思想:通过门控适配器和合成数据,让SAM学会“脑补”物体遮挡后的结构。
-
速记版pipeline:
- 自动合成遮挡数据(TAOS);
- 插入空间补全适配器(SCA);
- 冻结解码器进行编码器微调;
- 引入对抗拓扑损失增强完整度。
Key Findings:
- Although existing methods primarily focus on amodal segmentation within the training domain, these approaches often lack the generalization capacity to extend effectively to novel object categories and unseen contexts.
- The improvements lie in three aspects: (1) a lightweight Spatial Completion Adapter that enables occluded region reconstruction, (2) a Target-Aware Occlusion Synthesis (TAOS) pipeline that addresses the scarcity of amodal annotations by generating diverse synthetic training data, and (3) novel learning objectives that enforce regional consistency and topological regularization.
- Extensive experiments demonstrate that Amodal SAM achieves state-of-the-art performance on standard benchmarks, while simultaneously exhibiting robust generalization to novel scenarios.
Links:
Authors: Beining Wu, Jun Huang
Published: 2026-04-22
Categories: cs.LG, cs.CV
Abstract:
Federated continual learning (FCL) allows distributed autonomous fleets to adapt collaboratively to evolving terrain types across extended mission lifecycles. However, current approaches face several key challenges: 1) they use uniform protection strategies that do not account for the varying sensitivities to forgetting on different network layers; 2) they focus primarily on preventing forgetting during training, without addressing the long-term effects of cumulative drift; and 3) they often depend on idealized simulations that fail to capture the real-world heterogeneity present in distributed fleets. In this paper, we propose a lifecycle-aware dual-timescale FCL framework that incorporates training-time (pre-forgetting) prevention and (post-forgetting) recovery. Under this framework, we design a layer-selective rehearsal strategy that mitigates immediate forgetting during local training, and a rapid knowledge recovery strategy that restores degraded models after long-term cumulative drift. We present a theoretical analysis that characterizes heterogeneous forgetting dynamics and establishes the inevitability of long-term degradation. Our experimental results show that this framework achieves up to 8.3% mIoU improvement over the strongest federated baseline and up to 31.7% over conventional fine-tuning. We also deploy the FCL framework on a real-world rover testbed to assess system-level robustness under realistic constraints; the testing results further confirm the effectiveness of our FCL design.
Analysis:
分布式自主舰队在长期的任务生命周期中需要协同适应不断演变的地形。现有的联邦持续学习(FCL)方法存在三个关键挑战:1)采用统一的保护策略,忽略了不同网络层对遗忘的敏感性差异;2)仅侧重于训练期间的防遗忘,而未解决累积偏差带来的长期性能退化;3)依赖于无法捕捉现实中分布式舰队异构性的理想化模拟。为此,本文提出了一种生命周期感知双时间尺度FCL框架,涵盖训练时(预遗忘)的防范与(后遗忘)的恢复。在该框架下,我们设计了层选择性重演策略以缓解本地训练中的即时遗忘,并设计了快速知识恢复策略以在长期累积偏差后修复降级模型。理论分析刻画了异构遗忘动态并证明了长期退化的不可避免性。实验结果表明,该框架在mIoU指标上较最强联邦基线提升达8.3%,较传统微调提升达31.7%。通过在真实火星车测试平台上的部署,进一步验证了该设计的鲁棒性。
- 驱动力:火星探测等长周期任务中,任务环境随时间演变,模型必须在不断适应新环境的同时保持对历史地形的识别能力。
- 现有痛点:现有方法大多采取“一刀切”的保护机制,无法应对不同网络层(Backbone vs. Classifier)对稳定性与可塑性的不同需求,且忽视了联邦聚合带来的长程累积误差。
- 研究假设:遗忘行为在网络各层间表现出显著的异构性;训练时的局部防范虽有效,但无法从理论上完全规避因非独立同分布(Non-IID)聚合导致的长期性能漂移。
-
核心 pipeline:
- 层选择性重演(LSR):在本地训练时,引入三个轻量级生成器($\phi_s, \phi_d, \phi_c$)分别针对浅层、深层和分割头,根据当前梯度和特征分布输出不同的修正项($\Delta\theta$)。通过不同权重的加权($\alpha_s < \alpha_d < \alpha_c$),实现对分割头的强保护(稳定性)和对骨干网络的自适应(可塑性)。
- 快速知识恢复(RKR):当长期监控发现mIoU低于阈值$\tau$时,服务端部署的元学习模块通过输入的退化参数、类原型、记忆池样本及几何特征,直接生成针对分割头的修正向量$\Delta\theta_c$,实现快速恢复。
-
关键公式:$\theta_l \leftarrow \theta_l - \eta\nabla_l + \alpha_l\Delta\theta_l$。通过分层权重
$\alpha_l$ 动态调整每层的更新方向,实现了对遗忘敏感度的精确响应。
- 本质区别:从传统的“静态权重保护”转变为“基于生成器的动态修正”;从单纯的“训练时防遗忘”扩展到“包含长程恢复的闭环管理”。
-
创新贡献:
- 提出了分层保护的理论依据(Lemma 1 & 2)。
- 设计了能够即时适应不同任务类别的元学习恢复机制。
- 耦合了训练和长期维护两个时间尺度,提升了分布式系统的鲁棒性。
- 适用场景:边缘计算资源受限、数据分布异构(Non-IID)严重的持续学习系统。
- 关键结果:在MarsScapes等三个数据集上均取得了显著领先,特别是在极高异构性($\beta=0.1$)下,鲁棒性优势突出。
- 主要优势:实现了对模型不同部分的差异化保护,显著降低了由聚合导致的“任务间干扰”。
- 主要局限:对“恢复机制”本身的元训练依赖于初始任务(Task 0)的质量,如果Task 0代表性极差,可能会影响后续恢复效果。
-
实现细节:
- 生成器选择:作为轻量MLP,不随网络深度线性膨胀,适合边缘计算。
- 超参数建议:$\alpha_c$应设置为最大(强约束),$\alpha_s$最小(适应性)。
- 记忆池管理:需严格遵循iCaRL的类别平衡采样策略,避免长尾效应。
- 迁移建议:可直接用于任何基于DeepLabV3+或其他Backbone的语义分割任务;若迁移至目标检测,需将$\phi_c$修正目标从语义Mask改为边框预测头。
- 核心思想:分层在线修正与元学习辅助的协同防遗忘架构。
-
速记版pipeline:
- 监控各层遗忘敏感度。
- 训练时通过分层生成器动态干预梯度。
- 监测全局mIoU触发恢复模块。
- 采用元学习修正分割头恢复性能。
Key Findings:
- In this paper, we propose a lifecycle-aware dual-timescale FCL framework that incorporates training-time (pre-forgetting) prevention and (post-forgetting) recovery.
- We present a theoretical analysis that characterizes heterogeneous forgetting dynamics and establishes the inevitability of long-term degradation.
- Our experimental results show that this framework achieves up to 8.3% mIoU improvement over the strongest federated baseline and up to 31.7% over conventional fine-tuning.
Links:
GeoRelight: Learning Joint Geometrical Relighting and Reconstruction with Flexible Multi-Modal Diffusion Transformers
Authors: Yuxuan Xue, Ruofan Liang, Egor Zakharov, Timur Bagautdinov, Chen Cao, Giljoo Nam, Shunsuke Saito, Gerard Pons-Moll, Javier Romero
Published: 2026-04-22
Categories: cs.CV
Abstract:
Relighting a person from a single photo is an attractive but ill-posed task, as a 2D image ambiguously entangles 3D geometry, intrinsic appearance, and illumination. Current methods either use sequential pipelines that suffer from error accumulation, or they do not explicitly leverage 3D geometry during relighting, which limits physical consistency. Since relighting and estimation of 3D geometry are mutually beneficial tasks, we propose a unified Multi-Modal Diffusion Transformer (DiT) that jointly solves for both: GeoRelight. We make this possible through two key technical contributions: isotropic NDC-Orthographic Depth (iNOD), a distortion-free 3D representation compatible with latent diffusion models; and a strategic mixed-data training method that combines synthetic and auto-labeled real data. By solving geometry and relighting jointly, GeoRelight achieves better performance than both sequential models and previous systems that ignored geometry.
Analysis:
作为计算机视觉和机器学习领域的专家,我对这篇论文的分析如下:
GeoRelight 提出了一种基于多模态扩散 Transformer(DiT)的统一框架,旨在从单张照片中同时实现高精度的 3D 几何重建与人像重光照。该研究通过协同建模几何与光照,克服了传统串行管线中因误差累积导致的物理不一致性问题,实现了更具鲁棒性的视觉生成效果。
- iNOD (Isotropic NDC-Orthographic Depth) 表示法: 这是该论文的核心创新。它设计了一种无畸变的 3D 表达方式,专门针对潜在扩散模型(Latent Diffusion Models)进行了优化,确保了在生成过程中几何结构的稳定性,解决了传统深度图表示在生成任务中常见的几何扭曲问题。
- 联合任务优化: 改变了以往“先重建、后重光照”或“仅光照”的范式,通过 DiT 将几何估计与重光照任务耦合,使模型能够利用 3D 结构信息指导光照逻辑,同时利用重光照任务约束几何的准确性。
- 混合数据训练策略: 巧妙结合了合成数据(高质量地表征)与自动标注的真实数据,有效平衡了合成数据的可控性与真实数据的分布多样性,提升了模型的泛化能力。
- 打破了重建与渲染的壁垒: 该研究证明了在单一生成式模型框架内处理底层几何与高层光影属性的可行性,为“神经渲染”(Neural Rendering)与 3D 生成式 AI 的深度融合提供了新思路。
- 物理一致性的新标杆: 通过显式引入 3D 几何建模,该模型在光影交互的物理合理性上显著超越了以往仅依赖 2D 纹理映射或纯生成式的方法,这对于高质量数字人技术具有里程碑意义。
- 虚拟现实与元宇宙(VR/AR): 能够快速实现虚拟角色的光照自适应,使其能够无缝融入不同的虚拟环境光照中。
- 影视特效与内容创作: 为电影工业提供了一种低成本、高效率的数字化人像编辑工具,无需昂贵的布光设备即可调整肖像照的光影氛围。
- 电子商务与虚拟试穿: 通过单张照片重光照,可以更准确地展示服装在不同光照条件下的纹理与视觉质感。
- 移动端 AR 应用: 对单帧图像的高效处理能力,使其非常适合资源受限的移动端交互应用。
- 遮挡处理挑战: 尽管引入了 iNOD,但在处理极端的自遮挡区域(如卷曲的头发、复杂的肢体姿态)时,单视图重建仍可能存在信息缺失,扩散模型的先验可能无法完全弥补物理细节。
- 计算资源需求: 作为基于 Diffusion Transformer 的模型,其推理延迟可能较高,难以满足实时交互(Real-time)的需求。
- 照明复杂度限制: 该摘要未明确提及对复杂多光源(Complex/Environmental Lighting)的恢复能力,模型在处理非理想光源环境时,其性能表现仍有待观察。
专家简评: 这篇论文的趣味性在于它不仅是一个“生成式任务”,更是一个典型的“反向渲染”(Inverse Rendering)与生成模型的跨界结合。通过将几何约束嵌入到扩散模型的潜在空间(Latent Space)中,该研究展示了解决“不适定问题”(ill-posed problem)的一种极佳范式,即用强大的先验模型去“约束”物理属性。
Key Findings:
- Since relighting and estimation of 3D geometry are mutually beneficial tasks, we propose a unified Multi-Modal Diffusion Transformer (DiT) that jointly solves for both: GeoRelight.
- We make this possible through two key technical contributions: isotropic NDC-Orthographic Depth (iNOD), a distortion-free 3D representation compatible with latent diffusion models; and a strategic mixed-data training method that combines synthetic and auto-labeled real data.
Links:
Authors: Yongqiang Zhao, Xuyang Zhang, Zhuo Chen, Matteo Leonetti, Emmanouil Spyrakos-Papastavridis, Shan Luo
Published: 2026-04-22
Categories: cs.RO
Abstract:
Peg-in-hole (PiH) assembly is a fundamental yet challenging robotic manipulation task. While reinforcement learning (RL) has shown promise in tackling such tasks, it requires extensive exploration. In this paper, we propose a novel visual-tactile skill learning framework for the PiH task that leverages its inverse task, i.e., peg-out-of-hole (PooH) disassembly, to facilitate PiH learning. Compared to PiH, PooH is inherently easier as it only needs to overcome existing friction without precise alignment, making data collection more efficient. To this end, we formulate both PooH and PiH as Partially Observable Markov Decision Processes (POMDPs) in a unified environment with shared visual-tactile observation space. A visual-tactile PooH policy is first trained; its trajectories, containing kinematic, visual and tactile information, are temporally reversed and action-randomized to provide expert data for PiH. In the policy learning, visual sensing facilitates the peg-hole approach, while tactile measurements compensate for peg-hole misalignment. Experiments across diverse peg-hole geometries show that the visual-tactile policy attains 6.4% lower contact forces than its single-modality counterparts, and that our framework achieves average success rates of 87.5% on seen objects and 77.1% on unseen objects, outperforming direct RL methods that train PiH policies from scratch by 18.1% in success rate. Demos, code, and datasets are available at https://sites.google.com/view/pooh2pih.
Analysis:
这是一份关于《Visual-Tactile Peg-in-Hole Assembly Learning from Peg-out-of-hole Disassembly》的深入分析:
销轴插接(PiH)是一项基本但具有挑战性的机器人操作任务。强化学习(RL)虽已展现出潜力,但需要大量的探索。本文提出了一种用于PiH任务的新型视觉-触觉技能学习框架,利用其逆任务——销轴拔出(PooH)拆卸来促进PiH的学习。与PiH相比,PooH因无需精确对齐且仅需克服现有摩擦, inherently(本质上)更容易,使得数据收集更高效。为此,我们将PooH和PiH统一建模为共享视觉-触觉观测空间的POMDP。首先训练一个视觉-触觉PooH策略;将其包含运动学、视觉和触觉信息的轨迹进行时间反转和动作随机化,以提供PiH的专家数据。在策略学习中,视觉感知促进销轴接近,而触觉测量则补偿销轴错位。在多种销轴几何结构上的实验表明,该视觉-触觉策略的接触力比单模态对应项低6.4%,在已见物体上的平均成功率为87.5%,在未见物体上为77.1%,比从头训练PiH的直接RL方法高出18.1%。
- 驱动力:利用逆任务(PooH)提供专家轨迹,解决PiH因探索空间巨大且接触复杂导致训练缓慢的问题。
- 现有痛点:纯RL训练PiH需大量交互且硬件磨损大;传统模仿学习依赖昂贵的人工专家演示,泛化能力弱。
- 研究假设:通过时间反转PooH轨迹可获得PiH的“准专家”数据,引入动作随机化能弥合逆过程中的接触不对称性,从而显著提升学习效率。
-
流程总结:
- PooH训练:在仿真环境中,使用SAC算法训练一个处理视觉、运动学和触觉数据的PooH策略。
- 数据生成(核心):采样PooH轨迹,将其运动学和视觉信息在时间上反转,得到PiH初始轨迹。
- 触觉再生与随机化:为了解决逆过程中接触模式不对称(插入时有Jamming,拔出时则没有),在反转过程中引入动作随机化,在仿真中重新生成触觉数据,从而模拟真实的插入接触反馈。
- PiH策略学习:结合原始RL探索和通过上述步骤获得的专家数据,利用“混合经验回放池”和“行为克隆(BC)损失”训练PiH策略。
- 模型结构:共享观测空间(运动学$K$、视觉$V$、触觉特征$C$),SAC作为策略学习框架。
- 算法关键:$L_{BC}$(行为克隆损失)作为RL的辅助项,并使用退火机制(annealing)控制专家数据的权重,确保训练后期回归自主探索。
- 本质区别:不直接学习PiH,而是通过“学习逆任务+轨迹反转+接触补偿”的方式曲线救国。
- 创新贡献:提出了一种解决机器人装配不对称性的自动化数据增强方案,无需人工介入即可生成高质量的插入演示。
- 适用场景:适用于具备视觉-触觉传感器(如GelSight)的机器人精密装配任务,特别是在需要减小接触力和处理物体多样性的场景。
- 关键结果:该方法比从头训练的RL方法成功率提升了18.1%,且接触力更小,证明了反转轨迹的有效性。
- 优势:显著减少了训练时间,大幅提升了在未见物体上的泛化能力。
- 局限:对仿真环境的触觉还原度有一定依赖,且目前尚不能完全消除Sim-to-Real的感官域差异。
- 开源情况:代码和数据集已公开(https://sites.google.com/view/pooh2pih)。
- 实现细节:触觉传感器使用PCA降维至15维特征;动作随机化范围应严格依据清槽(clearance)大小设定,建议随机化50%的轨迹。
- 迁移可能:该框架天然适用于其他“操作-拆解”对称任务(如拔插头、开合门、旋开/旋紧瓶盖)。
- 核心思想:通过学习拆卸任务并对轨迹进行逆向增强,辅助装配任务训练。
-
速记版Pipeline:
- 训练一个拆卸策略;
- 反转拆卸动作得到装配轨迹;
- 插入动作随机化以模拟接触;
- 混合专家轨迹与交互数据训练装配策略。
Key Findings:
- In this paper, we propose a novel visual-tactile skill learning framework for the PiH task that leverages its inverse task, i.e., peg-out-of-hole (PooH) disassembly, to facilitate PiH learning.
Links:
Authors: Jiahao Xie, Alessio Tonioni, Nathalie Rauschmayr, Federico Tombari, Bernt Schiele
Published: 2026-04-22
Categories: cs.CV
Abstract:
Reinforcement learning (RL) with verifiable rewards (RLVR) has demonstrated the great potential of enhancing the reasoning abilities in multimodal large language models (MLLMs). However, the reliance on language-centric priors and expensive manual annotations prevents MLLMs' intrinsic visual understanding and scalable reward designs. In this work, we introduce SSL-R1, a generic self-supervised RL framework that derives verifiable rewards directly from images. To this end, we revisit self-supervised learning (SSL) in visual domains and reformulate widely-used SSL tasks into a set of verifiable visual puzzles for RL post-training, requiring neither human nor external model supervision. Training MLLMs on these tasks substantially improves their performance on multimodal understanding and reasoning benchmarks, highlighting the potential of leveraging vision-centric self-supervised tasks for MLLM post-training. We think this work will provide useful experience in devising effective self-supervised verifiable rewards to enable RL at scale. Project page: https://github.com/Jiahao000/SSL-R1.
Analysis:
以下是对该论文的方法分析与总结:
强化学习结合可验证奖励(RLVR)在提升多模态大模型(MLLM)推理能力方面展现出巨大潜力。然而,现有方法过于依赖以语言为中心的先验知识和昂贵的人工标注,这限制了MLLM的内在视觉理解能力和奖励设计的可扩展性。为此,我们提出了SSL-R1,一个通用的自监督RL post-training框架。该框架直接从图像中推导出可验证的奖励,无需任何人类或外部模型监督。我们将常用的自监督学习(SSL)任务重构为一组可验证的视觉“谜题”用于RL post-training。在这些任务上训练的MLLM显著提升了其在多模态理解和推理基准上的表现,突显了利用以视觉为中心的自监督任务进行MLLM post-training的潜力。
- 驱动力:打破RLVR对人类标注数据的依赖,构建一种能够自动生成高难度、精细化监督信号的训练范式。
- 现有方法痛点:目前RLVR主要依赖语言标注,视觉信息仅被用作辅助线索。这种“语言中心”模式导致模型在细粒度视觉理解(如位置关系、像素级对应)上存在系统性缺陷。
- 研究假设:通过将经典的视觉自监督学习(SSL)任务转化为RL环境中的“可验证谜题”,模型能够被迫在推理过程中深入挖掘图像的几何、空间和语义结构,从而实现从像素级到语义级的视觉能力提升。
-
pipeline总结:
- 任务重构:选取Rotation(旋转)、Visual Similarity(视觉相似性)、Region Inpainting(区域补全)、Patch Ordering(拼图排序)、Geometric Correspondence(几何对应)五个SSL任务。
-
Prompt构建:将每个SSL任务转化为多选题或序列预测题,并要求模型在
<think>标签内输出推理过程,最后在\boxed{}中输出答案。 -
奖励函数设计:
- 准确性奖励($R_{acc}$):根据预测结果与地面真值的匹配度,给出二进制(0/1)或分段奖励(序列任务)。
-
格式奖励($R_{format}$):对是否按要求输出
<think>和\boxed{}给予固定值奖励(0.2),确保RL训练的稳定性。
- GRPO优化:利用Group Relative Policy Optimization(GRPO)算法,在不需要额外Critic模型的情况下,通过组内奖励差异进行策略优化。
- 模型结构:直接在预训练的MLLM(如Qwen2.5-VL)上进行后训练,无需改变模型架构,具备极强的适配性。
- 本质区别:从“依赖外部监督的RL”转变为“利用图像自身属性作为Intrinsic Reward的自监督RL”。
- 创新贡献:成功将多种SSL任务统一整合入RLVR框架,实现了One-stage和One-time训练,且不依赖任何外部模型作为教师(Distillation-free)。
- 适用场景:适用于任何需要强化多模态模型底层视觉感知、空间推理能力的场景。
- 验证方法:在13个涵盖感知、空间、组合推理的视觉基准上评估。
- 关键结果:SSL-R1-3B平均准确率提升3.44%,在MMVP、DA-2K等任务上改进尤为显著。
- 主要优势:极高的可扩展性,完全无需人工参与;任务之间存在协同效应,多任务联合训练效果优于单任务。
- 主要局限:在某些特定任务上(如LISA-Grounding),单任务效果偶尔优于多任务组合,暗示不同视觉任务间可能存在微妙的“负迁移”。
- 开源情况:已开源,代码参考 GitHub/Jiahao000/SSL-R1。
-
实现细节:
- 训练使用GRPO算法,移除KL正则化和熵损失以保证训练充分。
- 设置较高的学习率($1 \times 10^{-6}$)和batch size(256)。
- 在任务选择上,几何对应和拼图排序能显著增强空间推理能力,建议优先考虑。
- 迁移可能:该框架与模型无关,可直接迁移至LLaVA、InternVL等其他架构。
- 核心思想:利用图像内生几何规律作为奖励,通过自监督拼图游戏强化视觉推理。
-
速记版pipeline:
- 选取5种视觉预训练任务;
- 将任务封装为包含推理思维链的QA格式;
- 基于正确答案计算Reward;
- 使用GRPO进行无Critic的强化学习优化。
Key Findings:
- In this work, we introduce SSL-R1, a generic self-supervised RL framework that derives verifiable rewards directly from images.
Links: