江行智能研究团队破解VLA模型“多任务困境”
近日,江行智能研究团队在具身智能领域取得重要突破。其研究成果 DyGRO-VLA(Dynamic Grouped Residual Optimization)被国际机器学习顶会 ICML 2026 收录。该工作针对视觉-语言-动作(VLA)模型在多任务场景下的性能退化问题,提出了一种创新的两阶段优化框架,在业界公认的LIBERO多任务操作基准上取得了平均成功率97.1% 的优异成绩,全面超越现有基线方法。

破解“灾难性遗忘”:VLA模型规模化落地的核心挑战
VLA(Vision-Language-Action)模型被视为通用机器人的核心范式,它将视觉感知、语言理解与动作控制统一到一个端到端模型中,让机器人能够直接理解自然语言指令并自主执行复杂操作。
然而,一个长期困扰业界的难题是:当VLA模型从单一任务扩展到多任务时,性能会急剧下降。传统强化学习(RL)优化器在单任务上表现优异,但在多任务场景下,不同任务的梯度会相互冲突,导致模型“顾此失彼”——学会了一个新任务,却忘记了之前掌握的能力。这种现象被称为灾难性遗忘。
VLA模型的这一困境,源自其技术路线的固有局限。业界分析指出,当前VLA模型训练存在两大核心挑战:一是数据层面,不仅量级远不及训练VLM的数据,多样性更是严重不足;二是推理与架构层面,大脑(VLM)和小脑(底层策略模型)多分开训练,缺乏端到端训练及类似人类大小脑的双向交互。江行智能研究团队的深入分析进一步发现,这种失败模式的根源在于:RL优化器会扭曲预训练阶段学到的共享表征,使得不同任务的经验被孤立,跨任务知识共享能力大幅削弱。
技术突破:两阶段优化实现“博学而不忘”
针对上述挑战,江行智能提出了 DyGRO-VLA(Dynamic Grouped Residual Optimization)框架,采用“离线预训练 + 在线微调”的两阶段范式。
第一阶段:信息瓶颈表征学习。 DyGRO-VLA基于信息瓶颈(Information Bottleneck)原理,从海量多模态数据中提取跨任务共享的潜在表征。这些表征只保留对动作预测最关键的信息(如物体空间位置、形态特征),而过滤掉背景、光照等干扰因素。通过最大化表征与动作之间的互信息、同时最小化表征与原始观测之间的互信息,模型学会了“抓大放小”——只记住对完成任务真正重要的东西,从而使得不同任务的知识可以被有效复用。
第二阶段:混合残差强化学习(MoRR)。 DyGRO-VLA冻结了预训练好的共享表征,并引入混合专家残差策略。该设计包含三个关键组件:专家池(一组轻量级的残差策略网络,每个专家只专注于优化某一类任务)、动态路由网络(根据当前任务的语义特征智能选择最合适的专家输出)、残差学习机制(每个专家只输出对基础策略的“微调修正”,而非从头学习)。这种设计的核心优势在于:既保留了基础模型的通用能力,又实现了对特定任务的精准优化,有效避免了多任务RL优化中的灾难性遗忘问题。
实证成果:LIBERO基准平均成功率97.1%
DyGRO-VLA在业界公认的LIBERO多任务操作基准测试中进行了全面评估。该基准包含130个任务,覆盖空间泛化、物体泛化、目标操作和长时程任务四大套件。
实验结果表明,DyGRO-VLA在所有套件上均取得显著提升:

尤其值得关注的是,在最具挑战性的LIBERO-Long长时程任务套件中,DyGRO-VLA的成功率从85.2%跃升至95.0%,提升幅度高达9.8个百分点。这印证了该框架在处理复杂、多步骤工业级任务时的显著优势。在RoboTwin2双机械臂基准测试中,DyGRO-VLA在仿真环境取得79.2% 的最佳综合成功率,并在Sim2Real迁移测试中全面超越现有基线方法。
工业价值:为“一脑多体”协同奠定算法基础
DyGRO-VLA所代表的跨任务强化学习框架,为江行智能构建“一脑多体”的工业智能中枢提供了关键算法基础。
在真实的工业场景中,一个AI系统往往需要同时应对巡检、操作、诊断等多种不同类型的任务。DyGRO-VLA验证了:未来的工业AI系统必须具备跨任务知识复用与高效扩展的能力,才能以可控成本实现规模化部署。
从行业视角来看,VLA模型的规模化落地是当前具身智能领域的核心命题。业界普遍认为,VLA模型将视觉、语言和动作统一到端到端框架中,让机器人第一次拥有了将语言意图、视觉感知与物理动作编织成连续决策流的能力,极大缩短了指令理解和任务执行之间的距离。而江行智能此次提出的DyGRO-VLA框架,通过解决多任务场景下的灾难性遗忘问题,为VLA模型从实验室走向工业规模化应用扫清了一大障碍。
关于江行智能
江行智能成立于2018年,是一家专注于物理AI技术研发与产业化的国家级专精特新“小巨人”企业。公司以“让AI可靠地服务于物理世界”为使命,构建了覆盖数据底座、认知模型、任务系统的完整物理AI技术体系,已在能源电力、工业制造等领域实现规模化商业落地。公司累计申请知识产权超过500项,研发团队由国际知名科学家领衔,兼具世界级学术背景与八年工业落地经验。
相关研究:
DyGRO-VLA: Cross-Task Scaling of Vision-Language-Action Models via Dynamic Grouped Residual Optimization. ICML 2026.
关键词:


50多部中外佳作、近100场演出 “宁波..
2026年热门清洁家居品牌实测——宠物空气净化器到底值..
源于奥林匹斯的自然秘语:Kykeon吉肯,一盏穿越三千年..
中国探洞游乐行业高峰论坛:探索成长的未来..
爱慕运动|告别枯燥乏味 点燃你的运动热情..
2019全国青少年迎春大联欢在重庆拉开盛大帷..