2025/12/31 19:34:47
网站建设
项目流程
做标签网站是什么样的,地产商网站建设,网站建设罗贤伟,彩票网站开发租用ViVLA#xff1a;单视频演示驱动的视觉-语言-动作机器人操控模型解析
快速了解部分
基础信息#xff08;英文#xff09;#xff1a;
题目#xff1a;See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations时间年月单视频演示驱动的视觉-语言-动作机器人操控模型解析快速了解部分基础信息英文题目See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations时间年月2025年12月机构名Beijing Institute of Technology、LimX Dynamics3个英文关键词One-Shot Visual Imitation Learning、Vision Language Action Models、Unseen Task Generalization1句话通俗总结本文内容本文提出ViVLA模型让机器人通过观察单个专家演示视频如人类操作视频就能快速学习并执行新的操控任务同时解决了跨设备适配和数据稀缺等问题在真实场景中表现优异。研究痛点现有研究不足 / 要解决的具体问题模型能力局限现有视觉-语言模型VLM多聚焦于语义级视频理解难以识别视频中细粒度的操控动作无法从专家演示中提取精准的操作知识。动作表征差异视频数据普遍缺乏动作标注且专家如人类与机器人的动作空间不统一导致知识难以从演示迁移到机器人。动作建模缺陷传统自回归动作预测易产生“捷径学习”依赖历史真实动作而非视频内容且推理时需逐token生成延迟较高。数据稀缺问题机器人学习领域缺乏大量“专家-机器人”配对数据难以支撑通用模型训练。泛化能力不足现有视觉-语言-动作VLA模型难以适应训练分布外的新任务而人类仅通过单次观察就能掌握新技能。核心方法关键技术、模型或研究设计简要双阶段模型架构先通过“带动作中心循环一致性的 latent 动作学习”构建统一动作空间再训练ViVLA模型实现单视频演示学习。latent 动作tokenizer从视觉观察中提取动作表征结合循环一致性约束统一专家与机器人的动作空间解决跨设备适配问题。时空掩码策略对演示视频的时间和空间维度随机掩码迫使模型通过全局理解预测动作同时降低计算成本。并行解码机制输入空动作嵌入一次性生成所有动作token避免捷径学习提升推理效率。大规模数据生成 pipeline从人类视频中提取交互信息结合3D高斯 splatting 生成机器人演示数据构建含892,911个“专家-机器人”样本的数据集。深入了解部分相比前人创新在哪里单视频演示学习能力首次实现机器人仅通过1个专家视频含跨设备、人类视频就能学习新任务无需额外训练或微调突破现有VLA模型泛化局限。统一动作空间构建提出“动作中心循环一致性A3C”让latent动作tokenizer同时学习专家视频和机器人轨迹解决动作标注缺失和跨设备动作空间差异问题语义一致性和设备适配性优于Genie等前人方法。高效动作建模用并行解码替代自回归建模既避免依赖历史动作的“捷径学习”又将推理效率大幅提升无需逐token生成时空掩码进一步强化模型对视频全局的理解。大规模数据生成创新视频驱动的“专家-机器人”配对数据生成流程从易获取的人类视频中合成机器人演示结合开源数据集构建超89万样本的数据集解决数据稀缺痛点且支持真实场景迁移。跨模态信息融合引入“时间定位任务”将机器人观察插入专家视频并定位时序位置增强视频与图像的跨模态特征交互提升动作预测精准度。解决方法/算法的通俗解释以及整体流程通俗解释latent动作学习给动作“编通用密码”就像不同语言如人类动作、机器人动作需要统一翻译器latent动作tokenizer就是“动作翻译器”它观察专家如人类操作视频和机器人动作轨迹提取动作的“核心特征密码latent动作”。同时通过“循环一致性”验证用A的“动作密码”生成B的动作画面再从画面反推密码确保密码在不同设备间通用解决“人类手势”和“机器人关节动作”无法直接适配的问题。ViVLA训练让机器人“看一遍就会”训练时模型同时接收三个信息①带时空掩码的专家视频故意遮部分画面逼模型抓关键动作、②机器人当前观察画面、③任务语言指令如“把碗放好”。通过并行解码一次性预测出专家视频中的动作序列和机器人接下来要做的动作就像人类看一遍教程后结合自己看到的场景立刻知道下一步怎么做。数据生成“复刻”人类动作给机器人从人类操作视频中提取手部和物体的位置如“拿杯子时手的轨迹”用3D技术构建虚拟场景让机器人在虚拟场景中“复刻”人类动作生成机器人的观察和动作数据。再将人类视频与机器人数据配对形成“专家-机器人”训练样本解决真实机器人数据难收集的问题。整体流程阶段1训练latent动作tokenizer输入专家视频帧、机器人观察帧过程用编码器提取帧特征经时空Transformer生成latent动作结合循环一致性约束生成画面反推动作和判别器确保生成画面真实优化得到能统一专家与机器人动作的“翻译器”。输出统一的latent动作空间动作“通用密码”。阶段2训练ViVLA模型输入带时空掩码的专家视频、机器人观察、语言指令过程①VLM基于Qwen2.5-VL处理多模态输入②并行解码预测专家视频的latent动作和机器人后续动作③用动作解码器将预测的latent动作转为机器人可执行的连续动作④引入时间定位任务增强跨模态融合。输出能单视频演示学习的ViVLA模型。测试/部署机器人“实战应用”输入1个新任务的专家视频如人类叠积木、机器人实时观察、任务指令输出机器人连续动作完成新任务跨设备场景如专家是UR机器人执行是Franka机器人或真实人类视频场景均适用。基于前人的哪些方法视觉-语言-动作VLA模型基础借鉴RT-2的动作离散化思路、OpenVLA的大规模机器人数据训练方法以及π₀的“VLM动作专家”架构但突破它们“依赖训练分布内任务”的局限加入单视频演示学习能力。单样本模仿学习OSIL延续Duan等人提出的“单演示当前观察”的学习框架改进AWDA的“路径点预测”思路用latent动作替代手工设计的运动原语提升通用性参考MAML的元学习思想但无需任务级微调实现更高效的跨任务迁移。latent动作表征基于VQ-VAE的离散表征方法将连续动作转为离散token改进Genie、LAPA等前人的latent动作学习加入循环一致性约束解决跨设备动作空间统一问题UniVLA的“任务中心latent动作”思路但强化了动作的语义一致性和真实场景适配性。数据增强与3D重建借鉴RoboSplat的3D高斯splatting场景重建技术用于生成机器人演示的虚拟场景参考MimicGen的“从人类演示合成机器人数据”思路但优化交互定位手部/物体姿态估计和物理一致性如抓取稳定性优化提升数据质量。Transformer与多模态融合采用DINOv2提取视觉特征基于Qwen2.5-VL的VLM架构实现视觉-语言融合时空Transformer用于建模动作的时序和空间关联延续了Vision Transformer在多模态任务中的优势。实验设置、数据、评估方式实验设置实验目标验证ViVLA在“ unseen任务学习”“跨设备迁移”“人类视频迁移”三大场景的性能。基准数据集主要测试集LIBERO基准130个语言驱动操控任务分4个子集Spatial空间变化、Object物体变化、Goal目标变化、Long长时任务每个子集8个训练任务、2个unseen测试任务。真实场景测试12个真实世界任务6个seen、6个unseen如“翻转积木”“擦托盘”“关篮子”用Franka 7自由度机械臂执行。对比方法VLA模型OpenVLA开源SOTA、UniVLA跨设备latent动作单样本模仿学习AWDA路径点预测、Diffusion Policy扩散模型动作预测消融对比无latent动作预测、自回归建模、无时空掩码等变体。跨设备实验专家为UR机械臂视频执行器为Franka机械臂人类视频实验专家为人类操作视频执行器为Franka机械臂。实验数据数据集构成总892,911个“专家-机器人”配对样本来源包括自制Human2Robot数据集7,421个人类视频覆盖100任务通过3D高斯splatting生成89,736个人类-机器人配对样本开源数据集Fractal87,212、Bridge60,064、Droid49,933、Language Table442,226等按任务指令语义相似性Sentence-BERT余弦相似度0.9配对共803,175样本。数据特征覆盖单臂操控、物体交互抓取、放置、搅拌等包含多视角、不同光照和场景外观的增强样本支持真实场景迁移。评估方式量化指标任务成功率如机械臂完成“叠积木”的次数/总尝试次数对比不同方法在seen训练过的任务和unseen新任务上的性能差异。跨场景评估同设备unseen任务LIBERO基准4个子集的成功率跨设备任务UR机器人演示→Franka机器人执行的成功率人类视频迁移人类演示→Franka机器人执行的真实场景成功率鲁棒性测试改变物体数量、空间位置、相机视角、光照评估成功率变化。消融实验逐一移除关键组件如循环一致性、时空掩码、并行解码测试性能下降幅度验证各组件必要性。定性分析可视化机器人动作轨迹、latent动作空间分布验证跨设备统一性展示真实场景任务执行过程如“擦托盘”“关篮子”。提到的同类工作视觉-语言-动作VLA模型RT-2首提VLA架构动作离散化、OpenVLA基于Prismatic7B大规模OXE数据集训练、π₀结合PaliGemma VLM与动作专家生成连续动作、UniVLA任务中心latent动作跨设备学习、SpatialVLA空间表征优化、Interleave-VLA图文指令 interleaving。单样本模仿学习OSILDuan等人首提OSIL软注意力框架、Finn等人MAML元学习用于OSIL、T-OSVITransformer自监督逆动力学损失、AWDA属性路径点数据增强、OSVI-WM世界模型生成轨迹、CrossFormer跨4种动作空间共训练。跨设备学习早期方法手动对齐动作空间、CrossFormer无约束观察/动作空间、ATM视频预训练轨迹生成、LAPA无监督latent动作学习、Genie生成式交互环境latent动作、Mirage2D图像修复实现跨机器人迁移、RoboSplat3D高斯splatting用于数据增强。数据增强与生成MimicGen分解人类演示生成机器人数据、Mirage机器人图像修复、VISTA新视角合成、Rovi-aug跨设备图像增强、RoboSplat3D场景编辑、Franka Emika机器人相关数据集真实机械臂数据。和本文相关性最高的3个文献OpenVLAarXiv:2406.09246相关性当前开源VLA模型的SOTA基于Prismatic7B和OXE大规模数据集训练聚焦机器人操控任务但泛化局限于训练分布内任务。本文ViVLA以OpenVLA为核心对比基准在unseen任务LIBERO基准上实现30%性能提升突破其泛化能力局限且提出的单视频演示学习是对OpenVLA架构的关键扩展。关联点均基于VLM构建VLA模型均使用大规模机器人数据训练核心目标均为提升机器人操控的通用性本文在动作建模并行解码、跨设备适配A3C、数据生成人类视频合成上改进OpenVLA的不足。AWDAarXiv:2302.04856相关性单样本视觉模仿学习的代表性方法通过预测属性路径点手工运动原语实现OSIL是本文在OSIL领域的核心对比对象。ViVLA在相同LIBERO基准和真实场景中unseen任务成功率远超AWDA如LIBERO-Object子集ViVLA 74% vs AWDA 50%且无需手工设计运动原语依赖latent动作和并行解码实现更通用的学习。关联点均以“单视频演示当前观察”为输入目标均为跨任务泛化本文解决了AWDA的“手工原语局限”和“泛化能力弱”问题通过统一动作空间和高效建模提升性能。UniVLAarXiv:2505.06111相关性近期跨设备VLA模型提出“任务中心latent动作”解决跨设备动作空间差异无需动作标注与本文核心技术latent动作学习、跨设备迁移高度重合。本文ViVLA在latent动作学习中加入“循环一致性”语义一致性和跨设备统一性优于UniVLA且实现UniVLA不具备的“单视频演示学习”能力在LIBERO unseen任务上性能提升35%。关联点均聚焦VLA模型的跨设备泛化均采用latent动作表征解决动作标注缺失本文在动作空间统一A3C、学习效率单视频演示、数据规模89万样本上超越UniVLA是对其latent动作思路的关键优化。