2025/12/28 13:40:07
网站建设
项目流程
网站后台模板论坛,南京做网站的公司排名,开个网站需要什么,简述商务网站建设作者 | 具身纪元 来源 | 具身纪元原文链接#xff1a;深扒PI π*0.6迭代式强化学习思路的来源#xff1a;VLA在线RL#xff0c;实现机器人的自我进化 点击下方卡片#xff0c;关注“自动驾驶之心”公众号戳我- 领取自动驾驶近30个方向学习路线自动驾驶前沿信息…作者 | 具身纪元 来源 | 具身纪元原文链接深扒PI π*0.6迭代式强化学习思路的来源VLA在线RL实现机器人的自我进化点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线自动驾驶前沿信息获取→自动驾驶之心知识星球本文只做学术分享如有侵权联系删文在Physical Intelligence 最新的成果π0.6论文里他们介绍了π0.6迭代式强化学习的思路来源其中有我们熟悉的Yuke Zhu的研究也有他们自己Chelsea Finn、Sergey Levine的一些研究我们之前对这些工作一直有跟踪和介绍。此外还有来自国内具身智能团队的工作比如清华大学、星动纪元的研究。随着π*0.6的发布VLAonline RL成为了一个行业共识的非常有前景的研究方向深扒了Π*0.6的论文发现它不止于真实世界强化学习英伟达也来做VLA在真实世界自我改进的方法了大语言模型从SFT到RL的发展方向也逐渐在具身研究中清晰明朗。一、为什么VLARL很重要图注VLA模型依赖研读微调在具身智能Embodied AI领域科学家们正在尝试将强大的视觉-语言模型VLM应用到机器人的底层控制中这就是所谓的VLA模型。通常这些模型是通过模仿人类专家的示范数据监督微调SFT来学习的。图注模仿学习的局限但是仅靠模仿是不够的。如果机器人遇到了从未见过的情况或者专家数据不够完美机器人就会不知所措。而正如我们在深扒了Π*0.6的论文发现它不止于真实世界强化学习所说的模仿学习能让机器人成功做出动作但是让它每次都成功是非常难的。如果想让机器人非常鲁棒、持久的工作需要借助强化学习的力量。相较于离线强化学习通常受限于演示数据的质量模型很难超越提供数据的专家在线 RL 允许智能体通过试错来发现更优解。二、强化学习应用在VLA的三大难点图注VLA RL的难点理论上强化学习RL可以让机器人通过与环境互动、试错来持续进步但是这其实不是一件容易的事情。图注LLM和具身在RL上的区别将类似 GPT 这样的大模型与强化学习结合如 RLHF在聊天机器人领域非常成功但在控制物理机器人时却困难重重环境差异聊天机器人是在离线数据集上训练的而机器人需要在物理世界中实时探索。物理任务通常周期长、奖励稀疏做完一整套动作才算成功这使得学习非常困难。模型坍塌与不稳定性研究发现如果直接对巨大的 VLA 模型数十亿参数进行在线强化学习模型很容易出现“灾难性遗忘”或训练崩溃导致性能甚至不如微调前。算力负担在本地机器上对几十亿参数的模型进行全量梯度的强化学习更新对硬件要求极高通常超出了本地机器人控制器的算力极限。三、星动纪元iRe-VLA最先突破VLA强化学习困境也是π*0.6的引用来源对于VLA的强化学习困境行业内其实有三种类型的解决方案第一种外挂式干预一些尝试不敢轻易触碰庞大的 VLA 参数。比如V-GPS (Value-Guided Policy Steering)训练一个通用的价值函数在推理时让 VLA 生成多个候选动作用价值函数对它们进行打分和重排序选择最好的动作执行DSRL训练一个小型的 RL 策略来优化扩散模型的输入噪声通过改变输入噪声来“引导”冻结的 VLA 生成高价值动作。这种方法虽然安全但 VLA没有真正发生质变。第二种暴力美学以VLAC为代表的工作尝试直接用 PPO 等算法全量微调 VLA。虽然勇气可嘉但大模型在 RL 训练中极易出现灾难性遗忘和模型坍塌Model Collapse且对算力的要求很高。第三种是从探索到内化的循环。让我们眼前一亮的是一篇以前没有跟踪过的清华和UC Berkeley的《Improving Vision-Language-Action Model with Online Reinforcement Learning》通过在线强化学习改进视觉-语言-动作模型来自于清华大学助理教授、星动纪元创始人陈建宇老师组。星动纪元这项研究是全球最早将在线RL引入VLA的工作在ICRA发表π*0.6 也引用了该工作是中美两方在RL上的顶尖对话。这两篇文章代表了第三种路径。它们不再盲目地套用 RL 算法而是利用监督微调SFT将 RL 探索出的高价值行为成功轨迹或高优势动作稳定地内化为模型的原生能力。π*0.6不在此详细赘述。我们来看下iRe-VLA。iRe-VLA的作者设计了一个两阶段循环迭代的学习流程。这个流程的核心思想是分而治之动静结合。星动纪元iRe-VLA 模型架构设计VLA 模型由两部分组成VLM 主干大脑使用预训练的大型视觉-语言模型如 BLIP-2负责理解图像和指令拥有丰富的世界知识。Action Head四肢一个轻量级的动作输出层由 Token Learner 和 MLP 构成负责将 VLM 的深层特征转化为具体的机器人控制信号如机械臂的移动、夹爪的开合。为了提高效率作者还使用了LoRA低秩适应技术避免全量微调所有参数。图注模型架构核心流程两个阶段的交替iRe-VLA 方法不是一次性训练而是在以下两个阶段中反复迭代第一阶段在线强化学习探索与发现图注稳定探索在这个阶段机器人的目标是去试错探索如何完成新任务。冻结大脑Freeze VLM为了防止模型崩溃和减少计算量作者冻结了巨大的 VLM 主干参数。只练四肢Train Action Head仅训练轻量级的 Action Head。同时引入一个Critic Head评价网络来辅助训练。优势因为只更新很少的参数训练非常稳定而且计算量很小可以在本地机器如单张 4090 显卡上高效运行。机器人通过不断尝试找到了一些能够成功完成任务的轨迹Success Trajectories。第二阶段监督学习巩固与内化在第一阶段机器人可能只是碰巧学会了操作为了让这种能力真正融入模型需要进行第二阶段。图注融合与升华全模型微调解冻 VLM 主干对整个模型包括 LoRA 参数进行训练。混合数据训练数据不仅包含第一阶段探索到的新成功轨迹还混合了原始的专家示范数据。优势这不仅利用了大模型的强大表达能力来记住新技能还因为混合了旧数据有效防止了灾难性遗忘即学会了新任务忘了旧任务。这一步计算量大通常放在云端服务器如 A100 集群上进行。图注两阶段总结机器人先在“小参数模式”下大胆探索阶段1找到方法后再在“全参数模式”下把经验固化到大脑中阶段2如此循环往复。图注循环往复三、 实验结果与分析图注三种情况的实验结果分析作者在仿真环境MetaWorld, Franka Kitchen和真实世界Panda 机械臂中进行了大量实验验证了该方法的有效性。训练稳定性对比实验显示如果使用标准的 PPO 算法直接微调 VLA 模型成功率曲线震荡剧烈甚至在很多任务上性能下降变差了。而 iRe-VLA 的曲线则稳步上升证明了“分阶段冻结参数”对于稳定训练至关重要。图注曲线对比仿真环境表现图注仿真环境中具备压倒性优势MetaWorld Franka Kitchen在这些基准测试中iRe-VLA 不仅在原本学过的任务上表现更好例如从 43% 提升到 83%还能通过在线探索学会完全没见过的任务。对比 SFT相比仅进行监督微调的模型经过 iRe-VLA 迭代后的模型在所有任务类别专家任务、RL 训练任务、未见过的测试任务上的成功率都有显著提升。图注不同后训练策略的对比真实世界挑战Real-World Panda这是最令人印象深刻的部分。作者让机器人去抓取它从未见过的物体如形状不规则的茄子、胡萝卜。图注真实世界的提升初始状态仅靠专家数据SFT机器人抓取这些新物体的成功率只有 35% 左右。训练后经过 iRe-VLA 的在线学习利用 SACfD 算法提高样本效率抓取成功率飙升到了 80%。泛化能力更有趣的是训练后的模型去抓取完全未参与训练的第三类物体成功率也从 37% 提升到了 61%。这说明通过强化学习模型不仅学会了抓茄子还变得更聪明、更通用了。图注实验和成功率消融实验为什么要解冻 VLM作者做了一个对比实验如果在第二阶段依然冻结 VLM只训练 Action Head即 iRe-VLA-freeze效果如何结果显示如果不解冻 VLM模型的性能提升会遇到瓶颈。这证明了在第二阶段解冻大模型参数是必要的这样才能利用大模型深层的特征表示能力来彻底掌握复杂技能并提升泛化性。图注消融实验四、 结论与意义这篇文章提出了一种切实可行的方案解决了大模型在机器人控制中落地难的问题。稳定性解决了大模型直接上 RL 容易训崩的问题。经济性巧妙地分配了算力让本地机器人负责轻量级探索云端服务器负责重量级消化符合实际部署场景。持续学习证明了机器人可以通过自我探索在不遗忘旧技能的前提下不断掌握新物体和新任务的操作技能。图注该架构的优点国内的星动纪元的iRe-VLA 的基础上海外的PI π*0.6都为我们揭示出了VLA在线强化学习技术的发展前景。这条路还有很多未尽的研究话题比如如何高效探索与稀疏奖励下的新技能学习如何面向大规模 VLA 构造稳定可扩展 RL 算法等。未来发展我们拭目以待。自动驾驶之心端到端与VLA自动驾驶小班课添加助理咨询课程