澳洲幸运5app DAM-VLA——手臂与夹爪解耦,三星盘考院的动态作为VLA刷新机器东说念主操控SOTA | ICRA 2026
澳洲幸运5官方网站
热点资讯
第一名

你的位置:澳洲幸运5官方网站 > 第一名 >

澳洲幸运5app DAM-VLA——手臂与夹爪解耦,三星盘考院的动态作为VLA刷新机器东说念主操控SOTA | ICRA 2026

发布日期:2026-04-28 22:28    点击次数:170

澳洲幸运5app DAM-VLA——手臂与夹爪解耦,三星盘考院的动态作为VLA刷新机器东说念主操控SOTA | ICRA 2026

一、配景

视觉-讲话-作为(VLA)模子正成为机器东说念主智能化的中枢架构,但现存主流要领(如OpenVLA、π0、CogACT)存在一个根人道过失:用团结个作为模子结伙解决通盘类型的作为。这种「一刀切」的诡计在靠近机器东说念主操控任务时暴潜入两大内在矛盾。

从任务特点来看,机器东说念主操控存在两种履行不同的作为类型:手臂大幅度通顺(粗作为)需要全局场景认知、旅途拘谨宽松;夹爪邃密操作(邃密作为)需要局部邃密聚焦、精确执取姿态、容错率极低。这两种作为在旅途拘谨、视觉注意力和数据散播上有履行互异,用团结个模子兼顾「粗定位」与「邃密操作」势必产生蹂躏。

此外,传统要领枯竭对作为类型的主动感知与路由机制,无法凭据现时操控阶段动态分派适应的推理资源,导致在万古程复杂任务中虚伪率随门径加多而快速蚁集。DAM-VLA(Dynamic Action Model-Based Vision-Language-Action)初度将手臂通顺与夹爪操作解耦建模,配合双圭臬加权机制已毕了精确高效的机器东说念主操控。

二、中枢要领

DAM-VLA 的中枢架构包含三大组件,各司其职,协同已毕手臂-夹爪的精确解耦。

模块一:双通说念视觉编码与VLM骨架

同期罗致DINOv2和SigLIP两种视觉编码器,输出三类特征:庸碌视觉token用于多模态交融;DINOv2的class token(全局视觉表征)特意劳动手臂通顺模子;DINOv2的register token(局部视觉表征)特意劳动夹爪操作模子。LLaMA-2的浅层输出用于作为路由方案,深层输出用于作为瞻望。这一诡计使「全局感知」与「局部邃密」的视觉信息辩别流向对应的作为模子。

模块二:VLM运转的作为路由机制

诈欺VLM的推明慧商判断现时处于哪种操控阶段,通过可学习路由权重w动态遴荐激活手臂通顺模子(w<0.5)或夹爪操作模子(w≥0.5)。两个专用DiT扩散模子并行西席:手臂通顺模子罗致全局视觉特征,瞻望大限度粗作为;夹爪操作模子罗致局部视觉特征,邃密瞻望夹爪作为。作为路由已毕了「该全局时全局,该邃密时邃密」的智能切换。

模块三:双圭臬作为加权机制

轨迹级权重罗致非对称高斯散播(前沿σ=6宽、后沿σ=2窄),在夹爪景色退换点前后施加互异化权重,澳洲幸运5app官网下载反应「操控前需要更充分准备」的东说念主类直观;Action-chunk级权重罗致指数衰减(γ=0.8),确保近期作为瞻望权重更大。两层加权机制蚁配合用,显耀教悔了操控的时序一致性。

三、亮点追念改进点一:果真机器东说念主操控平均顺利率86.8%

在Franka机器东说念主的pick-and-place任务(80次考验)中,DAM-VLA平均顺利率达86.8%,远超CogACT的62.9%(教悔23.9个百分点)。散播内任务顺利率91.4%(vs CogACT 65.7%),散播外泛化顺利率82.2%(vs CogACT 60.0%),在仿真和果真环境中全面刷新SOTA。

改进点二:万古程任务最终顺利率56%,突出通盘基线

在FurnitureBench One-Leg拼装任务(一语气5步操控)中,DAM-VLA最终顺利率56%,远超CogACT的42%和OpenVLA的29%。消融实验炫耀,双圭臬加权机制是中枢孝敬,去掉后性能大幅下跌,证实其对万古程作为连贯性的不行替代性。

改进点三:DINOv2 class/register token单干的要道发现

盘考初度系统考据了DINOv2的class token与register token具有自然的全局-局部信息单干——前者包含场景级全局语义,后者包含邃密局部几何信息。将两类token辩别路由给粗作为和邃密作为模子,无需特等的特征对皆西席,即可让模子的「视觉感知」与「操控阶段」高度匹配,为翌日VLA模子的视觉编码诡计提供了迫切的实证依据。

──────────────────────────────────────────

上述内容包含AI赞助生成,更矜重信息参见两个畅达 论文畅达:https://arxiv.org/abs/2603.00926 解读开端:https://research.samsung.com/blog/DAM-VLA-A-Dynamic-Action-Model-Based-Vision-Language-Action-Framework-for-Robot-Manipulation

开云体育(kaiyun)官网

首页 | 第一名 | 前二 | 前三 | 组选 | 双面盘 | 总和 | 顺子 | 对子 | 开奖 | 幸运5app |

Powered by 澳洲幸运5官方网站 @2013-2022 RSS地图 HTML地图

Copyright © 1998-2026 澳洲幸运5官方网站™版权所有

sylfyjhs.com 备案号 备案号: 

技术支持:®幸运5  RSS地图 HTML地图