0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DiffusionDrive首次在端到端自动驾驶中引入扩散模型

地平线HorizonRobotics ? 来源:地平线HorizonRobotics ? 2025-03-08 13:59 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近年来,端到端自动驾驶成为研究热点,其核心在于从传感器数据直接学习驾驶决策。然而,驾驶行为本质上是多模态的——同一场景下可能存在多种合理轨迹,例如在复杂路口,车辆可选择左转、右转或直行。这种多样性是提升自动驾驶鲁棒性和安全性的关键,但现有方法往往受限于单一轨迹回归或固定锚点采样,难以全面建模驾驶决策空间。

扩散模型 (Diffusion Model) 凭借强大的多模态建模能力,已在机器人决策学习中得到验证。其逐步去噪机制能从复杂数据分布中生成多样性强、符合物理约束的轨迹,使其成为自动驾驶多模态规划的理想选择。然而,扩散模型直接应用于端到端自动驾驶仍面临计算开销高和模式崩溃 (Mode Collapse) 的问题——传统扩散模型需多轮迭代去噪,导致推理速度难以满足实时需求,同时在高度动态的交通场景下,生成轨迹往往趋于重叠,无法充分展现驾驶决策的多样性。

为此,我们提出截断扩散策略 (Truncated Diffusion Policy) ,结合多模态锚点先验 (Multi-mode Anchors Prior) ,通过截断扩散过程,使模型从锚定的高斯分布 (Anchored Gaussian Distribution) 直接去噪至多模态驾驶轨迹分布。该方法避免了从纯随机噪声开始的冗长迭代,仅需2步即可完成高质量轨迹推理,相比传统扩散策略加速10倍。此外,我们设计了级联扩散解码器 (Cascade Diffusion Decoder) ,增强模型对场景信息的交互能力,提升轨迹预测精度。

我们提出的DiffusionDrive首次在端到端自动驾驶中引入扩散模型,并通过截断扩散策略与级联扩散解码器,有效解决计算开销与模式崩溃问题,为构建高效、鲁棒的多模态自动驾驶规划提供了新思路。

范式对比

6eb03982-fb3d-11ef-9310-92fbcf53809c.png

对比不同的端到端自动驾驶范式:

(a) 单模态回归方法,通过Ego Query机制直接预测单一轨迹,但忽略了驾驶行为的多模态特性,难以适应复杂交通场景。

(b) 预定义锚定轨迹采样方法,通过固定的锚定轨迹集来离散化轨迹空间,并基于评分机制进行选择,虽然能够一定程度上捕捉多模态行为,但受限于锚定轨迹数量和分布,难以泛化到未见场景。

(c) 传统扩散策略通过在高斯分布上迭代去噪来生成轨迹,能够捕捉多模态驾驶行为,但由于去噪步骤多,计算成本高,并且在复杂交通环境中容易出现模式崩溃,导致轨迹多样性不足。

(d) 我们提出的截断扩散策略,通过引入锚定高斯分布,利用多模态锚点作为初始分布,使模型从更合理的轨迹分布开始去噪,从而显著减少计算开销,仅需少量去噪步骤即可生成高质量的多模态轨迹,在保证多样性的同时大幅提升推理效率,使其更适用于实时自动驾驶。

截断扩散策略

6ed017a2-fb3d-11ef-9310-92fbcf53809c.png

传统扩散策略在端到端自动驾驶任务中的应用面临两大核心挑战:高计算成本和模式崩溃。扩散模型的去噪过程通常需要多轮迭代,例如20轮,以逐步将纯高斯噪声转化为可行的驾驶轨迹。然而,这种逐步推理方式导致计算开销极高,难以满足实时自动驾驶的要求。此外,由于自动驾驶场景高度动态且充满不确定性,扩散模型从随机噪声生成轨迹时,可能会产生高度相似、甚至完全重叠的轨迹分布,导致模式崩溃,使得生成的轨迹多样性不足,难以覆盖真实世界中的驾驶决策空间。

为了解决这些问题,我们提出截断扩散策略,通过结合多模态锚点先验,优化扩散模型的初始化和去噪过程,使其能够从更合理的轨迹分布出发,而非从完全随机的高斯噪声开始。具体而言,我们首先在训练数据中对驾驶轨迹进行聚类,得到一组代表性的锚点轨迹 (Anchor Trajectories) ,这些锚点能够较好地覆盖不同驾驶场景下的典型轨迹模式。在训练时,我们不再让模型从纯随机高斯分布中学习去噪,而是在锚点轨迹的基础上添加少量噪声,形成一个更具物理合理性的初始分布。相比于传统扩散模型直接从随机噪声学习驾驶行为,这种方式大幅减少了去噪步骤的需求,让模型可以从更接近真实驾驶行为的轨迹分布中进行优化。

在推理阶段,我们直接从这些锚定的轨迹分布中采样,而不是从完全随机的高斯噪声开始,并大幅缩短去噪过程,仅需2轮去噪步骤即可生成高质量的驾驶轨迹,相比传统扩散策略加速10倍。此外,为了进一步提升轨迹的合理性,我们在去噪过程中引入了置信度评分机制 (Confidence Scoring Mechanism) ,通过对去噪后的轨迹进行动态评分,筛选出最符合物理约束和场景要求的轨迹。这种评分机制可以有效过滤掉异常或重叠的轨迹,避免模式崩溃问题,使最终生成的轨迹既具备多样性,又保持合理性。

6eefe7b2-fb3d-11ef-9310-92fbcf53809c.png

此外,我们设计了一种级联扩散解码器,提升模型在去噪过程中的场景感知能力。传统扩散模型通常采用单步解码,即直接在每一步去噪后输出轨迹,而我们的级联扩散解码器允许模型在每个去噪步骤中与环境感知信息进行多轮交互,通过层层递进的方式优化轨迹质量。这种级联机制结合了稀疏可变形注意力 (Sparse Deformable Attention) ,使得模型能够高效地从鸟瞰视角 (BEV) 和透视视角 (PV) 提取关键信息,提升轨迹生成的稳定性和鲁棒性。

综上,我们的截断扩散策略不仅保留了扩散模型在多模态轨迹建模上的强大能力,还通过锚点先验和去噪优化,显著提升了推理效率,并通过置信度评分和级联解码器,有效解决了模式崩溃问题,最终使得生成的驾驶轨迹更加贴近真实驾驶行为,使其更适用于实时自动驾驶系统。

实验验证

我们选择采用更加严格的闭环评测方式,针对驾驶决策的数据集NAVSIM,来验证我们的设计:

6f029a1a-fb3d-11ef-9310-92fbcf53809c.png

可以看到DiffusionDrive大幅领先之前所有的端到端方案,仅仅通过学习人类驾驶行为,不引入额外监督与后处理,我们超过了之前的冠军方案Hydra-MDP。

EP指标的明显优势更是凸显了DiffusionDrive方法的鲁棒性。因为EP指标用于评测planning的完成度以及对干扰的鲁棒性,而DiffusionDrive在这一指标上具有十分突出的优势。

6f1498fa-fb3d-11ef-9310-92fbcf53809c.png

在消融实验中,显示我们提出的截断式扩散策略和设计的Diffusion Decoder相比于传统扩散策略能够带来更高的planning质量 (PDMS) ,更高的planning多模态特性 (D) ,更快的速度 (FPS) 。

可视化验证

我们将模型在验证集上推理得到的多模态轨迹可视化出来:

6f1ee878-fb3d-11ef-9310-92fbcf53809c.png

如上图所示,我们不仅能够输出保守的跟车,也能够输出合理换道超车的行为。

6f48c30a-fb3d-11ef-9310-92fbcf53809c.png

上图也是进一步验证DiffusionDrive鲁棒的多模态特性,输出多样化的planning轨迹能够进一步与环境交互,避免碰撞。

6f6176d4-fb3d-11ef-9310-92fbcf53809c.png

上图显示DiffusionDrive还能和红绿灯交互,所以在除了跟车行为之外的换道行为时,选择停在停止线上,而模型在训练中并没有红绿灯的标注,通过提出的范式,使得模型学习到了潜在的驾驶底层逻辑。

业务验证

DiffusionDrive也在业务数据集上进行了规模化验证。下面是实车测试的视频

总结

我们提出DiffusionDrive,一种基于扩散模型的端到端自动驾驶方法,以截断扩散策略解决传统扩散方法的高计算成本和模式崩溃问题。通过引入多模态锚点先验,我们将去噪过程从锚定的高斯分布开始,而非从纯随机噪声进行迭代,大幅减少计算量,仅需2步即可生成高质量轨迹,相较于传统扩散策略推理加速10倍。此外,我们设计了级联扩散解码器,结合场景感知信息逐步优化轨迹,提升轨迹预测的多样性和准确性。

实验表明,DiffusionDrive在NAVSIM和nuScenes数据集上均取得最优表现,显著提升了规划质量、轨迹多样性和计算效率。相比现有SOTA方法,DiffusionDrive在保证实时性的同时,提高了20.8%轨迹精度,降低63.6%碰撞率。此外,我们更是在真实场景中验证了DiffusionDrive的有效性。

本研究首次将截断扩散策略引入端到端自动驾驶,突破了扩散模型计算开销大、模式崩溃的瓶颈,为实时高效的多模态驾驶决策提供了一种全新范式。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1190

    浏览量

    42080
  • 机器人
    +关注

    关注

    213

    文章

    29829

    浏览量

    213613
  • 模型
    +关注

    关注

    1

    文章

    3531

    浏览量

    50572
  • 自动驾驶
    +关注

    关注

    790

    文章

    14363

    浏览量

    171119

原文标题:CVPR 2025|DiffusionDrive: 迈向生成式多模态端到端自动驾驶

文章出处:【微信号:horizonrobotics,微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动驾驶基于规则的决策和模型有何区别?

    自动驾驶架构的选择上,也经历了从感知、决策控制、执行的三段式架构到现在火热的模型,尤其
    的头像 发表于 04-13 09:38 ?2963次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中</b>基于规则的决策和<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>有何区别?

    如何基于深度神经网络设计一个自动驾驶模型

    如何基于深度神经网络设计一个自动驾驶模型?如何设计一个基于增强学习的自动驾驶决策系统?
    的头像 发表于 04-29 16:44 ?5349次阅读
    如何基于深度神经网络设计一个<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的<b class='flag-5'>自动驾驶</b><b class='flag-5'>模型</b>?

    自动驾驶到底是什么?

    UniAD 统一自动驾驶关键任务,但是的训练难度极大,对数据的要求和工程能力的要求比常规的技术栈要高,但是由此带来的全局一致性让整个系统变得更加简洁,也能够防止某个模块进入局部最
    发表于 06-28 14:47 ?4356次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>到底是什么?

    理想汽车自动驾驶模型实现

    理想汽车感知、跟踪、预测、决策和规划等方面都进行了模型化,最终实现了模型。这种
    发表于 04-12 12:17 ?730次阅读
    理想汽车<b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>实现

    理想汽车加速自动驾驶布局,成立“”实体组织

    近期,理想汽车在其智能驾驶领域迈出了重要一步,正式成立了专注于“自动驾驶”的实体组织,该组织规模超过200人,标志着理想在
    的头像 发表于 07-17 15:42 ?1640次阅读

    实现自动驾驶,唯有

    ,去年行业主流方案还是轻高精地图城区智驾,今年大家的目标都瞄到了(End-to-End, E2E)。
    的头像 发表于 08-12 09:14 ?1567次阅读
    实现<b class='flag-5'>自动驾驶</b>,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?

    Mobileye自动驾驶解决方案的深度解析

    自动驾驶技术正处于快速发展之中,各大科技公司和汽车制造商均在争相布局,试图在这个新兴领域占据一席之地。Mobileye作为全球自动驾驶技术的领军企业之一,凭借其独特的
    的头像 发表于 10-17 09:35 ?872次阅读
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>解决方案的深度解析

    Waymo利用谷歌Gemini大模型,研发端自动驾驶系统

    迈新步,为其机器人出租车业务引入了一种基于谷歌多模态大语言模型(MLLM)“Gemini”的全新训练模型——“
    的头像 发表于 10-31 16:55 ?1818次阅读

    连接视觉语言大模型自动驾驶

    自动驾驶大规模驾驶数据上训练,展现出很强的决策规划能力,但是面对复杂罕见的
    的头像 发表于 11-07 15:15 ?752次阅读
    连接视觉语言大<b class='flag-5'>模型</b>与<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>

    自动泊车的应用

    与城市环境的复杂性和高速公路驾驶的风险相比,停车场景的特点是低速、空间有限和高可控性。这些特点为在车辆逐步部署
    的头像 发表于 12-18 11:38 ?1040次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>在</b><b class='flag-5'>自动</b>泊车的应用

    自动驾驶技术研究与分析

    编者语:「智驾最前沿」微信公众号后台回复:C-0450,获取本文参考报告:《自动驾驶行业研究报告》pdf下载方式。 自动驾驶进入202
    的头像 发表于 12-19 13:07 ?946次阅读

    一文带你厘清自动驾驶架构差异

    [首发于智驾最前沿微信公众号]随着自动驾驶技术飞速发展,智能驾驶系统的设计思路也经历了从传统模块化架构
    的头像 发表于 05-08 09:07 ?349次阅读
    一文带你厘清<b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架构差异

    数据标注方案自动驾驶领域的应用优势

    10-20TB,其中需要标注的数据占比超过60%。在这样的背景下,数据标注方案应运而生,正在重塑自动驾驶的数据生产范式。
    的头像 发表于 06-23 17:27 ?379次阅读

    为什么自动驾驶模型有黑盒特性?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术落地,(End-to-End)大模型也成为行业研究与应用的热门方向。相较于传统
    的头像 发表于 07-04 16:50 ?267次阅读
    为什么<b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>有黑盒特性?

    Nullmax自动驾驶最新研究成果入选ICCV 2025

    近日,国际计算机视觉大会 ICCV 2025 正式公布论文录用结果,Nullmax 感知团队自动驾驶方向的最新研究成果《HiP-AD
    的头像 发表于 07-05 15:40 ?536次阅读
    Nullmax<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>最新研究成果入选ICCV 2025