2026/1/11 7:52:51
网站建设
项目流程
优秀的吉祥物设计网站,为把网站建设更好,南宁网站设计要多少钱,织梦可以做婚纱影楼网站吗点击下方卡片#xff0c;关注“自动驾驶之心”公众号戳我- 领取自动驾驶近30个方向学习路线自动驾驶前沿信息获取→自动驾驶之心知识星球论文作者 | Ziying Song等编辑 | 自动驾驶之心当前主流自动驾驶系统正加速向端到端范式演进#xff0c;通过统一的深度网络将…点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线自动驾驶前沿信息获取→自动驾驶之心知识星球论文作者 | Ziying Song等编辑 | 自动驾驶之心当前主流自动驾驶系统正加速向端到端范式演进通过统一的深度网络将感知、预测与规划整合在一起从多视角传感器数据直接生成车辆未来轨迹或控制指令在复杂城市场景中展现出良好的整体性能。然而现有端到端自动驾驶方法大多仍基于单一专家示范的模仿学习范式进行训练模型被迫去拟合一条“唯一正确”的专家轨迹。即使引入多模态规划生成的多条候选轨迹也往往高度聚集在 Ground Truth 附近缺乏真正有意义的行为多样性。在复杂交互、转弯或不确定性较高的场景中这种模式坍塌现象会限制系统对多种安全可行决策的探索能力。近日来自北京交通大学、地平线机器人、华中科技大学、清华大学、澳门大学、昆士兰大学等机构的研究团队提出了一种面向端到端自动驾驶的多模态规划框架 DIVERDiffusion Reinforcement for Diverse End-to-End Driving。该方法将扩散模型的多模态生成能力与强化学习的目标约束机制相结合将轨迹生成从“单一模仿回归问题”转化为“在安全与多样性约束下的策略生成问题”从而能够在统一模型中生成多样、可行且符合驾驶语义的候选轨迹。实验结果表明DIVER 在 Bench2Drive、nuScenes 等多个公开基准上显著提升了端到端规划的轨迹多样性与安全性在保持低碰撞率的同时有效拓展了行为覆盖范围并在闭环评测中展现出更强的复杂场景适应能力为构建更灵活、更接近人类驾驶决策模式的端到端自动驾驶系统提供了一条新的技术路径。论文标题DIVER: Reinforced Diffusion Breaks Imitation Bottlenecks in End-to-End Autonomous Driving论文链接https://arxiv.org/abs/2507.04049项目主页https://github.com/adept-thu/diver研究背景端到端自动驾驶正在快速演进但在大量真实测试与闭环评测中一个非常典型的问题始终存在车辆的规划行为过于保守、模式单一难以应对复杂交通场景。这是因为主流端到端方法大多依赖单一专家示范的模仿学习范式模型被迫去“复现一条唯一的 GT 轨迹”即使引入多模态规划生成的多条轨迹也会高度聚集在 GT 周围最终仍然缺乏真正的行为多样性图1a、图1b。具体来说单模态规划直接回归一条确定性轨迹几乎不具备探索能力图1a多模态规划虽然生成多条候选轨迹但由于训练仍基于单一 GT 的模仿学习目标通常以 L1 / L2 或 score matching 形式实现模型在优化过程中会将概率质量集中到 GT 附近导致多模态预测出现严重的 mode collapse图1b。相比之下人类驾驶并不会只“模仿一种动作”在同一个场景下我们可能选择减速、并线、绕行或等待而这种行为多样性与安全约束的平衡正是当前端到端模型所缺失的能力。基于此论文提出了DIVERDiffusion Reinforcement for Diverse E2E Driving一个将扩散模型的多模态生成能力与强化学习的目标约束能力相结合的端到端自动驾驶框架使模型不仅能“生成多条轨迹”更能生成多样、可行且安全的驾驶行为图1c。图1. 三种规划范式对比核心技术DIVER 的核心思想是不再把轨迹生成当作“拟合 GT 的回归问题”而是把它当作“在安全与多样性约束下的策略生成问题”。为此DIVER 在端到端规划中构建了一个完整的 “扩散生成 强化学习优化” 框架图2包括Policy-Aware Diffusion GeneratorPADGReference GT 引导的多模态扩散GRPO 强化学习优化多样性 / 安全 / 时序一致性奖励设计图2. DIVER 整体框架图多模态扩散规划打破模仿学习瓶颈传统扩散规划方法虽然能生成多条轨迹但仍然受单一 GT 监督理论上必然收敛到 GT作者对此给出了严格推导。DIVER 的关键改进在于将扩散模型视为随机策略不再只用 L1 / L2 回归监督通过多 Reference GT 强化学习奖励显式鼓励多样性Policy-Aware Diffusion GeneratorPADGPADG 图3是 DIVER 的核心模块其作用是在扩散去噪过程中引入地图、动态体、参考轨迹等条件信息使生成的每条轨迹都具备清晰语义与可行性。其结构包括轨迹编码Trajectory Encoder条件扩散解码器Conditional Diffusion Decoder地图 / Agent Cross-AttentionReference GT 引导机制图3. PADG模块示意图Reference GT让每一条轨迹都有“意图”为避免多模态轨迹全部收缩到同一模式DIVER 不再只使用一个 GT而是从专家轨迹中构建 多个 Reference GT每个预测轨迹 mode 与一个 Reference GT 对齐使用 Hungarian Matching 进行一对一匹配监督这样每个 mode 都被明确赋予一种驾驶意图如转弯、让行、并线从源头上避免 mode collapse。强化学习GRPO把“好轨迹”定义清楚仅有多样性还不够真实驾驶还需要安全与稳定。DIVER 采用 Group Relative Policy OptimizationGRPO为扩散生成的轨迹引入多种轨迹级奖励包括多样性、安全、轨迹一致性与车道保持等这些奖励共同作用使模型在“探索更多可能性”的同时仍然保持驾驶质量。多样性评估指标Diversity Metric在多模态规划中仅生成多条轨迹并不等价于“有效多样性”。如果轨迹之间只是无约束发散反而可能降低安全性与可执行性。为此DIVER 提出了一种新的 Diversity Metric用于在可行性约束下评估多模态轨迹的真实多样性。该指标不仅衡量不同轨迹在空间上的差异还能够避免“无意义分散”的情况更准确反映多模态规划在行为覆盖与驾驶质量之间的平衡。在后续实验中论文均基于该指标对不同方法的多模态规划能力进行对比分析。性能亮点在 Bench2Drive 闭环评测中DIVER 在多项关键指标上显著优于 UniAD、VAD、SparseDrive、DiffusionDrive 等方法(表1表1. Bench2Drive(V0.0.3)上的开环、闭环结果和多功能结果针对“转弯最容易出问题”的场景论文使用 Turning-nuScenes 数据集进行评测。结果表2显示DIVER 的 轨迹多样性显著更高同时 碰撞率最低表2. Turning-nuScenes 规划结果在 nuScenes 验证集的 6 秒长时预测任务中DIVER 在 多样性Div. 上大幅领先同时保持 最低碰撞率表3. NuScenes验证集上的长期规划结果总结DIVER 通过 “扩散模型 强化学习” 的统一框架系统性解决了端到端自动驾驶中长期存在的 模仿学习模式坍塌问题。在多个权威基准中DIVER 展示了显著更高的轨迹多样性更低的碰撞率更稳定的长时规划能力更强的复杂场景泛化能力这项工作表明靠模仿学习已不足以支撑真实世界自动驾驶将生成模型与强化学习结合是通向“更像人”的自动驾驶的重要一步。自动驾驶之心自动驾驶之心招人啦