0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

多智能体仿真中的统一混合模型框架研究

地平线HorizonRobotics ? 来源:地平线HorizonRobotics ? 2025-04-01 14:31 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着GPT大语言模型的成功,越来越多的工作尝试使用类GPT架构的离散模型来表征驾驶场景中的交通参与者行为,从而生成多智能体仿真。这些方法展现出明显的性能优势,成为Waymo OpenSim Agents Challenge(WOSAC)中主流的领先方法。

在本文中,我们将GPT-Like离散模型视为采取了特定配置的混合模型(MixtureModel),尝试探究目前主流的GPT-Like方法性能优势的来源。在统一的混合模型框架(Unified Mixture Model,UniMM)下,我们从模型和数据两个方面的配置展开研究发现:GPT-Like离散模型实际上采用了由Tokenization自然引l入的闭环样本,这是其性能优势的关键。

基于上述发现,我们尝试将闭环样本应用于更广泛的混合模型,进一步观察到并解决了相关的ShortcutLearning和Of-PolicyLearning问题。最终,UniMM框架下的各种变体均在WaymoOpenSim AgentsChallenge(WOSAC)展现了SOTA性能。

? 原文链接:

https://arxiv.org/abs/2501.17015

? 项目主页:

https://longzhong-lin.github.io/unimm-webpage

?代码仓库:

https://github.com/Longzhong-Lin/UniMM

多智能体仿真

仿真 (Simulation)是评估自动驾驶系统的重要途径,生成真实的多智能体 (Multi-Agent) 行为是其中的关键。近年来,许多工作采用数据驱动的方法,从真实世界驾驶数据集中学习行为模型 (Behavior Model) 来模仿人类交通参与者。要实现真实的多智能体仿真,主要挑战在于捕捉智能体行为的多模态性 (Multimodality)和解决模型闭环运行的分布偏移 (Distributional Shifts)问题。

35664f0a-0c3a-11f0-9310-92fbcf53809c.png

图表1 多智能体仿真

智能体行为的多模态性在运动预测 (Motion Prediction) 领域得到广泛研究,其中主流方法采用的是混合模型 (Mixture Model)。由于任务的相似性,不少仿真领域的工作也采用类似的连续混合模型 (Continuous Mixture Model) 来表征智能体行为。最近,受大语言模型的启发,越来越多的研究开始尝试GPT架构的离散模型 (GPT-Like Discrete Model) ,将智能体的轨迹离散化为运动Token并进行NTP (Next-Token Prediction) 训练,在仿真领域展现出了超越连续混合模型的性能优势。

为了缓解模型闭环运行的分布偏移,时间序列建模领域的DaD方法继承在线学习算法DAgger的理论保证,将训练样本中的真值输入替换为自回归模型预测,不过该方法只讨论了单模态 (Unimodal) 模型。TrafficSim将类似方法应用在CVAE行为模型,迭代地将真值轨迹替换为后验 (Posterior) 预测,从而生成闭环样本 (Closed-Loop Sample)。

3588a6ea-0c3a-11f0-9310-92fbcf53809c.png

图表2 UniMM研究概述

统一混合模型框架

我们注意到,GPT-Like离散模型本质上是一种混合模型,其中每个混合组分 (Mixture Component) 代表一个离散类别,而运动Token则是各组分对应的锚点 (Anchor) 。因此,本文建立统一的混合模型框架 (Unified Mixture Model, UniMM),并从模型和数据两个方面展开研究,探索GPT-Like方法优势的根源,并尝试推广到更一般的混合模型中。

359aab42-0c3a-11f0-9310-92fbcf53809c.png

图表3 WOSAC领先方法(可视为混合模型)的配置和指标

模型配置

模型方面,我们关注的配置包括:

正组分匹配 (Positive Component Matching) :主流范式为无锚点 (Anchor-Free) 和基于锚点 (Anchor-Based) 匹配。

连续回归 (Continuous Regression) :若Anchor-Based模型将锚点直接作为对应混合组分的预测轨迹,则无需连续回归。

预测时长 (Prediction Horizon) :模型预测轨迹的长度。

混合组分数量 (Number of Components) :混合模型中混合组分的数量。

其中,GPT-Like离散模型采用Anchor-Based正组分匹配且不具备连续回归,通常使用大量混合组分且预测时长较短。后面的实验表明:模型配置的差别并不能完全解释连续混合模型和GPT-Like离散模型之间的性能差距。采用与GPT-Like方法完全不同的模型配置,也可以达到同样优秀的仿真性能。

35cbed9c-0c3a-11f0-9310-92fbcf53809c.png

图表4 主流的正组分匹配范式

数据配置

数据方面,我们借鉴DaD和TrafficSim的设计理念,提出了适用于一般混合模型的闭环样本生成方法。具体地,我们基于原始开环样本自回归地运行模型,将样本中的真值输入状态替换为与之匹配的后验模型预测(我们称之为后验规划)。生成的闭环样本在尽量接近真值的同时,将模型预测引入到样本输入中,使训练期间模型见到的状态更接近在闭环仿真中遇到的状态,从而缓解分布偏移。

35e6d8d2-0c3a-11f0-9310-92fbcf53809c.png

图表5 闭环样本生成

对于GPT-Like离散模型,我们证明:上述闭环样本生成方法等价于采用滚动匹配 (Rolling Matching) 的智能体运动Tokenization。后面的实验表明:使用闭环样本进行训练是生成逼真多智能体行为的关键。进一步地,为了让闭环样本能够惠及更广泛的混合模型,我们识别并解决了Shortcut Learning和Off-Policy Learning问题。

实验

网络架构

实验中使用的网络架构包含场景编码器 (Context Encoder) 和运动解码器 (Motion Decoder) 。场景编码器能够并行处理多智能体在多个时间上的信息;运动解码器生成特定智能体从指定时间开始的多模态未来轨迹。特别地,对于带连续回归的Anchor-Based模型,我们的解码器先对锚点打分、再生成所选取组分对应的轨迹,使得其能够像离散模型一样高效地增加混合组分的数量。

3602c538-0c3a-11f0-9310-92fbcf53809c.png

图表6 混合模型网络结构

采用开环样本训练

我们首先探索不同预测时长和混合组分数量下的Anchor-Free和Anchor-Based模型。在这里,我们采用开环样本训练来保证数据的一致性,从而更好地体现上述模型配置的影响。

3615676a-0c3a-11f0-9310-92fbcf53809c.png

图表7 采用开环样本训练

预测时长:

更大的预测时长 (Prediction Horizon) 带来的额外监督信号是有效的。

过大的预测时长使模型更关注于远期预测的优化,由于仿真仅会利用模型预测的前面一小段,所以这并不利于提升仿真的效果。

363b2d2e-0c3a-11f0-9310-92fbcf53809c.png

图表8 不同预测时长的WOSAC指标

混合组分数量:

增加混合组分的数量确实能够提升模型对复杂分布的表征能力。

较多数量的混合组分可能会阻碍Anchor-Free模型挑选出合理轨迹,从而影响其在仿真中的表现。

Anchor-Based模型持续受益于混合组分数量的增长。

365b6dc8-0c3a-11f0-9310-92fbcf53809c.png

图表9 不同混合组分数量下的最优WOSAC指标

采用闭环样本训练

接下来展开对数据配置的研究,我们从开环样本实验中表现最佳的模型配置出发,从而凸显闭环样本的作用。

3683807e-0c3a-11f0-9310-92fbcf53809c.png

图表10 采用闭环样本训练

Shortcut Learning问题:

生成闭环样本时,若后验策略的规划时长 (Posterior Planning Horizon) 超过其重规划间隔,模型会学习到捷径,损害时空交互推理能力。

Off-Policy Learning问题:

若训练策略的正组分匹配时长 (Positive Matching Horizon) 和样本生成策略的后验规划时长 (Posterior Planning Horizon) 不一致,则其导致的Off-Policy Learning问题会阻碍闭环样本发挥作用。

对于Anchor-Free模型,Off-Policy Learning问题的影响没那么严重,这可能是因为它们的性能更依赖于各混合组分的灵活预测,而不是对混合组分的挑选。

对齐训练策略和样本生成策略的组分选择Horizon可以有效缓解Off-Policy Learning问题,特别是对于十分依赖其混合组分选择的Anchor-Based模型。

36984ab8-0c3a-11f0-9310-92fbcf53809c.png

图表11 近似后验策略(左)和连续回归(右)

近似后验策略:

我们为Anchor-Based模型设计了近似后验策略,将后验组分对应的锚点直接作为执行规划,可以在显著减少训练时间的同时,达到相当的仿真性能。

连续回归:

主流离散模型成功的关键在于闭环样本的使用。

连续回归 (Continuous Regression) 带来的灵活性对于模型性能是有增益的,同时其并不需要显著增加计算开销。

Benchmark结果

基于上述探索,我们提交了UniMM框架下的各种变体(包括离散和连续、Anchor-Free和Anchor-Based),均在Waymo Open Sim Agents Challenge (WOSAC)中展现了SOTA性能。由此证明了:

模型配置的差别并不能完全解释之前的连续混合模型和GPT-Like离散模型之间的性能差距。

仿真性能的关键在于闭环样本的使用,采用与主流离散方法不同的模型配置也能生成逼真的行为。

通过解决Shortcut Learning和Off-Policy Learning问题,闭环样本能够使广泛的混合模型受益,尤其是具有更大预测时长的模型。

36e554de-0c3a-11f0-9310-92fbcf53809c.png

总结与展望

本研究首先建立了多智能体仿真的统一混合模型框架,并针对该框架下的模型配置(正组分匹配、连续回归、预测时长、混合组分数量)和数据配置(闭环样本生成方法)进行深入的分析与实验。我们通过最优的网络结构设计、参数配置和训练方式得到的模型仅需4M参数量的情况下,在Waymo Open Sim Agents Challenge达到了SOTA的性能。基于以上多智能体仿真的模型优化分析和实验结论,我们今后会进一步去探索自动驾驶的运动规划问题。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 仿真
    +关注

    关注

    52

    文章

    4300

    浏览量

    136073
  • 模型
    +关注

    关注

    1

    文章

    3531

    浏览量

    50572
  • 混合模型
    +关注

    关注

    0

    文章

    6

    浏览量

    6507
  • 多智能体
    +关注

    关注

    0

    文章

    7

    浏览量

    6284

原文标题:开发者说 | UniMM:重新审视多智能体仿真中的混合模型

文章出处:【微信号:horizonrobotics,微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于Agent系统的智能家庭网络研究

    基于Agent系统的智能家庭网络研究在分析家庭网络智能化需求的基础上,提出种基于Agent
    发表于 06-14 00:22

    智能跟踪控制系统的动画仿真设计

    调整功能,使仿真过程具有多角度可视性;利用程序的延时技术实现仿真速度的可控性,提高了软件对仿真对象进行观察研究的能力。  2仿真软件总体
    发表于 09-13 09:20

    种基于聚类和竞争克隆机制的智能免疫算法

    求解包含分布式电源的配电网无功优化问题。该方法结合了智能体系统和免疫算法,构建基于人工免疫的具有高效问题求解能力的智能体系统模型。对于代
    发表于 12-29 06:50

    Embedded SIG | OS 混合部署框架

    。「图 2」 OS 混合部署框架的基础架构在上述架构中,libmetal 提供屏蔽了不同系统实现的细节提供了统一的抽象,virtio queue 相当于网络协议中的 MAC 层提供
    发表于 06-29 10:08

    基于统一混沌系统的同步及其保密通信研究

    针对最新提出的统一混沌系统模型,采用线性状态反馈同步方法,实现了统一混沌系统精确同步问题。在此基础上,提出了混沌保密通信方案,并将其应用于混沌掩盖与混沌扩频两
    发表于 08-11 10:58 ?13次下载

    类参数不确定统一混沌系统的脉冲控制

    本文针对类参数不确定统一混沌系统,利用脉冲微分方程稳定性理论,给出了统一混沌系统稳定的充分条件,并采用脉冲控制方法来实现鲁棒镇定, 该方法较为简单,适用范
    发表于 08-25 11:31 ?9次下载

    PSpice教程:PSpice仿真中收敛问题的研究

    PSpice教程:PSpice仿真中收敛问题的研究
    发表于 04-07 15:33 ?0次下载

    形变体仿真中材质本构模型的应用

    本构模型是形变体仿真中最重要的因素之,现有的基本本构模型的应力应变关系具有定的局限性,形变行为比较单
    发表于 12-26 11:19 ?0次下载

    和谐统一混合择优网络的相继故障行为

    将耦合映像格子的相继故障模型作用于和谐统一混合择优网络模型( HUHPM),通过仿真分析的方法研究
    发表于 02-04 09:51 ?0次下载

    智能算法在PID控制仿真中的应用研究教程免费下载

    本章讲述了群智能算法在PID控制仿真中的应用研究,PID控制是典型的工业控制之,对于PID控制,主要难点在于PID的参数整定,现用的工业控制中,而现今的群
    发表于 10-09 08:00 ?0次下载
    群<b class='flag-5'>智能</b>算法在PID控制<b class='flag-5'>仿真中</b>的应用<b class='flag-5'>研究</b>教程免费下载

    人群紧急状况下的智能情绪感染仿真模型

    为了从情绪的视角分析紧急情境下人群的疏散行为,梳理了现有情绪感染的研究工作,总结了人群紧急状况下行为特点。采用智能描述人群个体,提出
    发表于 04-29 13:57 ?12次下载
    人群紧急状况下的<b class='flag-5'>多</b><b class='flag-5'>智能</b><b class='flag-5'>体</b>情绪感染<b class='flag-5'>仿真</b><b class='flag-5'>模型</b>

    智能路径规划研究综述

    智能路径规划是类寻找多个智能从起始位置到目标位置且无冲突的最优路径集合的问题,针对该问题
    发表于 06-04 11:56 ?4次下载

    基于boosting框架混合秩矩阵分解模型

    基于boosting框架混合秩矩阵分解模型
    发表于 06-11 14:41 ?13次下载

    SystemView在通信系统仿真中的应用研究

    SystemView在通信系统仿真中的应用研究(依工测试测量仪器)-该文档为SystemView在通信系统仿真中的应用研究讲解文档,是份不
    发表于 09-30 12:10 ?8次下载
    SystemView在通信系统<b class='flag-5'>仿真中</b>的应用<b class='flag-5'>研究</b>

    Hitachi Vantara统一混合存储产品系列

    这是Hitachi Vantara 存储产品的战略重塑。它涉及在块、文件、对象、云、主机和软件定义存储工作负载之间创建个单的控制平面、数据框架和数据平面,由个启用人工
    的头像 发表于 11-23 12:43 ?1090次阅读