澳洲幸运5app DAM-VLA——手臂与夹爪解耦，三星盘考院的动态作为VLA刷新机器东说念主操控SOTA | ICRA 2026

发布日期：2026-04-28 22:28 点击次数：170

一、配景

视觉-讲话-作为（VLA）模子正成为机器东说念主智能化的中枢架构，但现存主流要领（如OpenVLA、π0、CogACT）存在一个根人道过失：用团结个作为模子结伙解决通盘类型的作为。这种「一刀切」的诡计在靠近机器东说念主操控任务时暴潜入两大内在矛盾。

从任务特点来看，机器东说念主操控存在两种履行不同的作为类型：手臂大幅度通顺（粗作为）需要全局场景认知、旅途拘谨宽松；夹爪邃密操作（邃密作为）需要局部邃密聚焦、精确执取姿态、容错率极低。这两种作为在旅途拘谨、视觉注意力和数据散播上有履行互异，用团结个模子兼顾「粗定位」与「邃密操作」势必产生蹂躏。

此外，传统要领枯竭对作为类型的主动感知与路由机制，无法凭据现时操控阶段动态分派适应的推理资源，导致在万古程复杂任务中虚伪率随门径加多而快速蚁集。DAM-VLA（Dynamic Action Model-Based Vision-Language-Action）初度将手臂通顺与夹爪操作解耦建模，配合双圭臬加权机制已毕了精确高效的机器东说念主操控。

二、中枢要领

DAM-VLA 的中枢架构包含三大组件，各司其职，协同已毕手臂-夹爪的精确解耦。

模块一：双通说念视觉编码与VLM骨架

同期罗致DINOv2和SigLIP两种视觉编码器，输出三类特征：庸碌视觉token用于多模态交融；DINOv2的class token（全局视觉表征）特意劳动手臂通顺模子；DINOv2的register token（局部视觉表征）特意劳动夹爪操作模子。LLaMA-2的浅层输出用于作为路由方案，深层输出用于作为瞻望。这一诡计使「全局感知」与「局部邃密」的视觉信息辩别流向对应的作为模子。

模块二：VLM运转的作为路由机制

诈欺VLM的推明慧商判断现时处于哪种操控阶段，通过可学习路由权重w动态遴荐激活手臂通顺模子（w<0.5）或夹爪操作模子（w≥0.5）。两个专用DiT扩散模子并行西席：手臂通顺模子罗致全局视觉特征，瞻望大限度粗作为；夹爪操作模子罗致局部视觉特征，邃密瞻望夹爪作为。作为路由已毕了「该全局时全局，该邃密时邃密」的智能切换。

模块三：双圭臬作为加权机制

轨迹级权重罗致非对称高斯散播（前沿σ=6宽、后沿σ=2窄），在夹爪景色退换点前后施加互异化权重，澳洲幸运5app官网下载反应「操控前需要更充分准备」的东说念主类直观；Action-chunk级权重罗致指数衰减（γ=0.8），确保近期作为瞻望权重更大。两层加权机制蚁配合用，显耀教悔了操控的时序一致性。

三、亮点追念改进点一：果真机器东说念主操控平均顺利率86.8%

在Franka机器东说念主的pick-and-place任务（80次考验）中，DAM-VLA平均顺利率达86.8%，远超CogACT的62.9%（教悔23.9个百分点）。散播内任务顺利率91.4%（vs CogACT 65.7%），散播外泛化顺利率82.2%（vs CogACT 60.0%），在仿真和果真环境中全面刷新SOTA。

改进点二：万古程任务最终顺利率56%，突出通盘基线

在FurnitureBench One-Leg拼装任务（一语气5步操控）中，DAM-VLA最终顺利率56%，远超CogACT的42%和OpenVLA的29%。消融实验炫耀，双圭臬加权机制是中枢孝敬，去掉后性能大幅下跌，证实其对万古程作为连贯性的不行替代性。

改进点三：DINOv2 class/register token单干的要道发现

盘考初度系统考据了DINOv2的class token与register token具有自然的全局-局部信息单干——前者包含场景级全局语义，后者包含邃密局部几何信息。将两类token辩别路由给粗作为和邃密作为模子，无需特等的特征对皆西席，即可让模子的「视觉感知」与「操控阶段」高度匹配，为翌日VLA模子的视觉编码诡计提供了迫切的实证依据。

──────────────────────────────────────────

上述内容包含AI赞助生成，更矜重信息参见两个畅达论文畅达：https://arxiv.org/abs/2603.00926 解读开端：https://research.samsung.com/blog/DAM-VLA-A-Dynamic-Action-Model-Based-Vision-Language-Action-Framework-for-Robot-Manipulation

开云体育(kaiyun)官网

上一篇：幸运5app 一加Ace 6至尊版规格全揭晓，堆料堆到友商千里默！

下一篇：没有了