0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Aux-Think打破视觉语言导航任务的常规推理范式

地平线HorizonRobotics ? 来源:地平线HorizonRobotics ? 2025-07-08 10:00 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Aux-Think,把推理当作训练时的助力,而非测试时的负担,打破视觉语言导航任务的常规推理范式

视觉语言导航(VLN)任务的核心挑战,是让机器人在复杂环境中听懂指令、看懂世界,并果断行动。我们系统性地引入推理任务,探索其在导航策略学习中的作用,并首次揭示了VLN中的“推理崩塌”现象。研究发现:无论是行动前推理(Pre-Think),还是行动后推理(Post-Think),一旦在测试阶段显式生成推理链,反而更容易让机器人迷失方向。

Aux-Think提出一种更实用的路径:在训练阶段引入推理任务作为辅助监督,引导模型习得更清晰的决策逻辑;而在测试阶段,则彻底省去推理生成,直接进行动作预测。把推理用在该用的地方,模型在任务中反而更稳、更准、更省。Aux-Think不仅有效避免了测试阶段的推理幻觉,也为“推理应在何时、如何使用”提供了清晰答案,进一步拓展了数据高效导航模型的能力边界。

? 论文题目:

Aux-Think: Exploring Reasoning Strategies for Data-Efficient Vision-Language Navigation

? 论文链接:

https://arxiv.org/abs/2505.11886

?项目主页:

https://horizonrobotics.github.io/robot_lab/aux-think/

视觉语言导航 (VLN) 的推理策略

在视觉语言导航 (VLN) 任务中,机器人需要根据自然语言指令在复杂环境中做出实时决策。虽然推理在许多任务中已有广泛应用,但在VLN任务中,推理的作用一直未被充分探讨。我们是第一个系统性研究推理策略对VLN任务影响的团队,发现现有的推理策略 (Pre-Think和Post-Think) 在测试阶段反而导致了较差的表现,让机器人导航失败。与此不同的是,我们提出的Aux-Think框架通过创新设计有效解决了这一问题。

b1efe980-572d-11f0-baa5-92fbcf53809c.png

Aux-Think优于Pre-Think和Post-Think其它推理策略

b209186a-572d-11f0-baa5-92fbcf53809c.png

Aux-Think在数据效率与成功率之间达到帕累托最优

测试阶段推理的挑战

想象一名司机在开车时不断分析路况,并频繁回顾交通规则后才做决策。虽然这有助于理解环境,但当遇到陌生或复杂情况时,这种“思考过度”的方式反而容易因推理偏差而判断失误。

在视觉语言导航任务中,推理就像回顾交通规则,决策则对应真实的驾驶操作。推理本意是为了帮助机器人理解任务,但一旦进入训练中未见过的状态,思维链便可能产生幻觉。尤其是在不熟悉的环境中,过度依赖推理不仅无法提升决策,反而干扰行动、累积误差,最终导致机器人“误入歧途”。这种“推理崩塌”现象正是Aux-Think希望解决的关键问题。

Aux-Think给出的新答案

为了应对上述问题,我们提出了Aux-Think,一种全新的推理训练框架。Aux-Think的核心思想是:在训练阶段通过推理指导模型的学习,而在测试阶段,机器人直接依赖训练过程中学到的知识进行决策,不再进行推理生成。具体来说,Aux-Think将推理和行动分开进行:

训练阶段:通过引导模型学习推理任务,帮助其内化推理模式。

测试阶段:直接根据训练中学到的决策知识进行行动预测,不再进行额外的推理生成。

这种设计有效避免了测试阶段推理带来的错误和不稳定性,确保机器人能更加专注于执行任务,减少了推理过程中可能引入的负面影响。

b248ed8c-572d-11f0-baa5-92fbcf53809c.png

上图中展示的是一个导航任务:“穿过房间,走到右侧的拱门并停在玻璃桌旁”。三种策略面对相同场景做出了不同反应:Pre-Think模型在行动前试图推理整条路径,认为应该“前进75cm”,但忽视了当前观察并未穿过房间,导致偏离目标;Post-Think模型在执行动作后才分析环境,发现没有看到拱门,但错误已发生,只能继续试探,继续偏航;Aux-Think则在训练时学习推理逻辑,测试时直接基于当前观察判断“右转15度”,准确识别拱门位置,成功完成导航任务。

实验结果

大量实验表明,Aux-Think在数据效率与导航表现方面优于当前领先方法。尽管训练数据较少,Aux-Think仍在多个VLN基准上取得了单目 (Monocular) 方法中的最高成功率。通过仅在训练阶段内化推理能力,Aux-Think有效缓解了测试阶段的推理幻觉与错误传播,在动态、长程导航任务中展现出更强的泛化能力与稳定性。

b268d3ea-572d-11f0-baa5-92fbcf53809c.png

R2R-CE上的指标:Aux-Think在视觉语言导航任务的R2R验证集 (Val-Unseen) 上取得领先的成功率 (SR) ,即使使用的训练数据更少,也能超越多种现有方法。

b27e199e-572d-11f0-baa5-92fbcf53809c.png

RxR-CE上的指标:RxR比R2R更大、更复杂,Aux-Think在RxR验证集上依然以更少数据实现更高成功率 (SR) ,展现出优越的泛化能力。

总结与展望

Aux-Think为解决测试阶段推理引发的导航问题提供了新的思路。通过在训练阶段引入推理指导,在测试阶段去除推理负担,Aux-Think能够让机器人更加专注于任务执行,从而提高其导航稳定性和准确性。这一突破性进展将为机器人在实际应用中的表现奠定更为坚实的基础,也为具身推理策略提供了重要启示。

.

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    29829

    浏览量

    213544
  • 导航
    +关注

    关注

    7

    文章

    555

    浏览量

    43252

原文标题:开发者说|Aux-Think:为什么测试时推理反而让机器人「误入歧途」?

文章出处:【微信号:horizonrobotics,微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    大型语言模型的逻辑推理能力探究

    最新研究揭示,尽管大语言模型LLMs在语言理解上表现出色,但在逻辑推理方面仍有待提高。为此,研究者们推出了GLoRE,一个全新的逻辑推理评估基准,包含12个数据集,覆盖三大
    的头像 发表于 11-23 15:05 ?1540次阅读
    大型<b class='flag-5'>语言</b>模型的逻辑<b class='flag-5'>推理</b>能力探究

    一种在视觉语言导航任务中提出的新方法,来探索未知环境

    视觉语言导航(vision-language navigation, VLN)任务指的是引导智能体或机器人在真实三维场景中能理解自然语言命令
    的头像 发表于 03-05 09:38 ?4827次阅读
    一种在<b class='flag-5'>视觉</b><b class='flag-5'>语言</b><b class='flag-5'>导航</b><b class='flag-5'>任务</b>中提出的新方法,来探索未知环境

    各位高手,我想在汽车导航电路板上加一个aux输出接口

    我想在这个导航上引出一根aux,看网上介绍有好多兄弟对不同机头改装,无奈本地无这要的高手师傅。还需要什么具体细节,随时可以照照片,谢谢各位高手!.导航电路如下:
    发表于 03-04 18:05

    如何打破PCB设计的视觉障碍?

    如何打破PCB设计的视觉障碍?
    发表于 06-15 09:31

    基于计算机视觉和NLP的跨媒体问答与推理

    基于视觉语言的跨媒体问答与推理是人工智能领域的研究热点其目的是基于给定的视觉内容和相关问题,模型能够返回正确的答案。随着深度学习的飞速发展及其在计算杋
    发表于 04-08 10:25 ?8次下载
    基于计算机<b class='flag-5'>视觉</b>和NLP的跨媒体问答与<b class='flag-5'>推理</b>

    视觉问答与对话任务研究综述

    视觉问答与对话是人工智能领堿的重要硏究任务,是计算机视觉与自然语言处理交叉领域的代表性问题之一。视觉问答与对话
    发表于 04-08 10:33 ?10次下载
    <b class='flag-5'>视觉</b>问答与对话<b class='flag-5'>任务</b>研究综述

    ACL2021的跨视觉语言模态论文之跨视觉语言模态任务与方法

    来自:复旦DISC 引言 本次分享我们将介绍三篇来自ACL2021的跨视觉语言模态的论文。这三篇文章分别介绍了如何在图像描述任务中生成契合用户意图的图像描述、端对端的视觉
    的头像 发表于 10-13 10:48 ?2808次阅读
    ACL2021的跨<b class='flag-5'>视觉</b><b class='flag-5'>语言</b>模态论文之跨<b class='flag-5'>视觉</b><b class='flag-5'>语言</b>模态<b class='flag-5'>任务</b>与方法

    用于语言视觉处理的高效 Transformer能在多种语言视觉任务中带来优异效果

    白皮书《Transformer-LS:用于语言视觉处理的高效 Transformer》中提出了“长-短 Transformer” (Transformer-LS),这是一种高效的 Transformer 架构,用于为语言
    的头像 发表于 12-28 10:42 ?2007次阅读

    视觉语言导航领域任务、方法和未来方向的综述

    视觉语言导航(VLN)是一个新兴的研究领域,旨在构建一种可以用自然语言与人类交流并在真实的3D环境中导航的具身代理,与计算机
    的头像 发表于 09-20 14:30 ?5674次阅读

    多维度剖析视觉-语言训练的技术路线

    (如BERT\GPT等)的启发,视觉-语言预训练 (Vision-Language Pre-training, VLP) 逐渐受到关注,成为如今 VL 任务的核心训练范式。本文对 VL
    的头像 发表于 02-23 11:15 ?1353次阅读

    深度探讨VLMs距离视觉演绎推理还有多远?

    通用大型语言模型(LLM)推理基准:研究者们介绍了多种基于文本的推理任务和基准,用于评估LLMs在不同领域(如常识、数学推理、常识
    发表于 03-19 14:32 ?579次阅读
    深度探讨VLMs距离<b class='flag-5'>视觉</b>演绎<b class='flag-5'>推理</b>还有多远?

    基于视觉语言模型的导航框架VLMnav

    本文提出了一种将视觉语言模型(VLM)转换为端到端导航策略的具体框架。不依赖于感知、规划和控制之间的分离,而是使用VLM在一步中直接选择动作。惊讶的是,我们发现VLM可以作为一种无需任何微调或
    的头像 发表于 11-22 09:42 ?838次阅读

    NaVILA:加州大学与英伟达联合发布新型视觉语言模型

    日前,加州大学的研究人员携手英伟达,共同推出了一款创新的视觉语言模型——NaVILA。该模型在机器人导航领域展现出了独特的应用潜力,为智能机器人的自主导航提供了一种全新的解决方案。
    的头像 发表于 12-13 10:51 ?713次阅读

    think-cell:与PowerPoint交换文件

    安装 think-cell 的同事与客户也可以打开和编辑文件,而不会注意到有任何不同。think-cell 元素将显示为常规 PowerPoint 形状,诸如文本框和 PowerPoint 图形对象
    的头像 发表于 01-07 10:11 ?439次阅读
    <b class='flag-5'>think</b>-cell:与PowerPoint交换文件

    新品| LLM630 Compute Kit,AI 大语言模型推理开发平台

    处理器,集成了3.2TOPs@INT8算力的高能效NPU,提供强大的AI推理能力,能够高效执行复杂的视觉(CV)及大语言模型(LLM)任务,满足各类智能应用场景的需求
    的头像 发表于 01-17 18:48 ?757次阅读
    新品| LLM630 Compute Kit,AI 大<b class='flag-5'>语言</b>模型<b class='flag-5'>推理</b>开发平台