0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百度地图出行智能体“小度想想”的黑科技

百度地图 ? 来源:百度 ? 2025-08-12 09:49 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

你有没有过这样的体验?在高速上对着导航喊“小度小度”,它就神奇地回应道“来了”;在地下车库问“最近的充电桩”,屏幕立刻跳出相关的充电桩指引;甚至对车载语音助手说“有点冷”,空调的温度就会悄悄调高。这些看似“读心术”的交互背后,藏着一个能听懂人话、能感知环境、能精准应答的“数字领航员”。

当你说“查找故宫附近的粤菜馆”时,系统不仅要从3亿多条POI数据中精准定位,还要理解“附近”是500米还是3公里;当你追问“有包厢吗”,它甚至能调用餐厅实时预订系统。这些看似简单的对话,需要跨越语音识别、语义理解、内容获取、答案生成等多重技术关卡。

百度地图早在今年4月发布全球首个具备记忆-推理-决策全链能力的出行智能体「小度想想」是如何将自然语言转化为精准指令?那些“秒回”的答案又是怎样炼成的?

AI地图 Tech说】第三期将带你拆解这位“出行搭子”的魔法工厂,看看从“听清”到“听懂”方面,究竟藏着多少黑科技

上图说明了从用户请求到最终执行的整个过程,可以看到其中经过了语音识别、意图解析、技能承接等主要的环节!

语音指令的解码之旅:从声波到文本

当用户说出"导航到故宫博物院"时,系统首先启动声学模型将声波转化为文字。这个看似简单的步骤,其实也不容易,蕴含三层技术环节:

01基础识别

其实就是我们大家常说的语音识别技术,它利用深度学习模型将声波信号转化为二进制序列,结合声学模型与发音词典生成初步文本。语音识别技术近年来经历了白盒化到黑盒化的演进,其性能、效果都有很大的提升,大家应该都已经比较熟悉。但相对于安静室内环境,用户在户外使用小度想想的时候,还有一类常见的问题是拒识。根据统计,至少有15%左右的语音请求是由于误唤醒/误收音引入的(非用户主观需求)。小度想想,需要考虑到行驶过程中的风噪、聊天、多媒体播放等复杂噪音场景,百度地图引入了双重拒识判断模型(声学拒识、语义拒识),提前对问题请求进行甄别和提前拦截,最大限度降低用户干扰,大幅提升用户体验。

02纠错

通过语言模型(如BERT、N-Gram)对识别结果进行上下文纠错,例如将“北经”修正为“北京”。这是小度想想相对于通用的语音助手的优势所在,在纠错的过程中,会使用包括地图POI数据、路名数据等专业字典进行参考。百度地图建设了超亿条POI数据的本名、别名、关联名的地理知识图谱,将POI的各种表达方式建立标准化映射。在此过程中,还需要构建错误拼音-标准名称的双向索引表,支持"西单大悦成"→"西单大悦城"这样的智能纠错。

03排序

在实际工程中,纠错手段不可能只有一个,因此就需要在上述流程完成后,基于多个逻辑,会输出多个可能的识别结果。这里就会基于用户之前的对话习惯,以及一些其他基于先验知识和统计学习的置信度评分算法,从多个候选文本中选取最优结果(比如“横屏模式”,在排序中会优于“红屏模式”)。

意图解析的"翻译官":把自然语言转化为机器指令

当从语音的音频识别为自然语言之后,下一步就是将其转化为机器指令。这里包括几个关键技术:

技术亮点一:『意图模板匹配』

基于自然语言处理(NLP)技术,完成实体识别(如时间“明天”、地点“北京”)、意图分类(如“天气查询”)、情感分析(如用户是否急躁)。过去的语义理解,更多使用模板类技术,如下图所示,针对用户问询的内容抽取出关键要素后,再看匹配了哪种需求表达方式,这称之为一个“意图模板”,基于大量预置的模板就可以实现大部分指令的识别。

技术亮点二: 『生成式意图理解』

模板化语义理解能解决很多问题,但是存在的关键短板在于泛化理解能力不足,同时高度依赖领域知识积累,需要提前做大量的模板标注,还要解决相近表达方式的模板冲突问题,当模板数量达到一定程度后维护成本就会增加。LLM的出现,另辟蹊径地解决了这个问题。其核心优点是端到端利用LLM的上下文理解能力,直接解析用户自然语言中的隐含需求,形成对“口语表达中蕴含的本质意图”的理解,这个过程中无需构造模板,而是提前将全量承接API的参数规范作为“知识”以Prompt的方式注入LLM,使其自主选择API并填充参数。举例来说,我们可以给大模型这样的Prompt:

角色:你是一个语音助手语义解析器,目标是将用户指令转换为API调用
参考资料:可用的API及参数如下:
{API参数规范库}
用户指令:{user_query}
任务:请按以下步骤执行:
1.选择最匹配的API;
2.从指令中提取参数值,若未明确提及则设为null;
3.输出JSON格式,包含api_name和parameters。
预期输出:{"api_name":
"search_flight","parameters": {"departure_city":
"北京", ...}}

技术亮点三:『工具调用』

工具调用是小度想想的下半身,是能够准确承接用户需求的关键支撑。其本质上可以理解为一系列API接口的调用。当调用序列复杂了之后,调用状态的维护就会成为问题,小度想想针对多轮复杂工具调用,提出了基于技能的状态机架构,任意复杂的操作,都可以基于这套架构来统一表达。

技术亮点四:『生成式AI时代的工具调用进阶』

在大模型的时代,为了提升工程化的效果,在API接口的基础上又诞生了两个公认的技术范式:

MCP:聚焦模型与外部工具的连接,提供统一接口(如数据库、API调用),类似“AI的USB接口”,降低跨模型开发成本。只要所有工具都以MCP的协议接入,那么大模型就可以知道这个工具能力的存在,从而能做到在合适的时候调用它。

RAG:RAG本质上是对问答能力的数据增强,如果小度想想仅仅基于老旧的LLM底座来回答问题,会有很严重的幻觉发生。为了解决这个问题,往往使用检索增强生成(Retrieval Augmented Generation,简称 RAG),百度地图将所有的地图领域数据以结构化来存储,然后在用户提问后,以向量相似性找到对应参考数据,并取出再用LLM做汇总,就相当于从“闭卷考试”变成了“开卷考试”,从而保证了答案的精准性。

持续提升生产力:从语音助手到智能体

随着LLM的能力越来越强,我们发现,它的强大理解能力,对于一个一般化的常识问题,能给出相当接近人类的回答。那么是否它能模拟很多团队协作的真人,甚至以硅基生命来承接现实世界的生产力?这就是智能体(Agent)要考虑的问题了。智能体是这两年AI领域最火的词之一,它是基于人工智能技术在某个领域体现高度智能,显著提升人类工作效率的信息系统,相对于“语音助手”,更偏重于“通过观察、思考、权衡利弊,动态自主调用基础能力、高准确地解决复杂业务问题”的特性。

自动驾驶场景为例,智能体可以实时感知车辆周围的路况、其他车辆的行驶状态、交通信号灯的变化等关键信息,为后续决策提供坚实的数据基础。自主决策能力堪称智能体的 “大脑”,它依据感知到的环境信息,结合内部预设的规则和先进算法,迅速、准确地做出决策。在面对复杂路况时,自动驾驶智能体能够综合分析各种因素,精准判断是加速、减速还是转弯,以确保车辆行驶的安全与高效。又如在智能物流配送中,智能体的核心目标是按时将货物准确送达目的地,为此它会综合考量实时路况、车辆载重等信息,动态规划最优配送路线,克服重重困难以达成目标。

回到语音助手这个场景,结合地图智能体的任务,首先要针对地图场景深入精调大模型,百度地图通过文心一言基座大模型进行二次预训练、SFT、强化学习等手段,使地图大模型能够精确理解用户在地图中的各种常见表达,理解准确率高达95%以上。

此外,针对复杂任务的执行,还要引入的两个特性是记忆和反思:

记忆能力

当用户表达不完整的需求时,能够基于之前的问答和用户行为,自动补全对话内容(如用户问“今天限行吗?”默认补充用户所在城市),因此需要构建记忆能力,用于存储历史交互数据、用户偏好与领域知识(如常用地址、路线选择习惯、节假日出行规律),为意图理解与决策提供背景支持,减少重复询问并提升个性化水平。这里面的短期记忆一般是指从启动会话至今的内容,往往持续数分钟,而长期记忆则是用户相对稳定固化的特征,就地图智能体来说,用户的搜索、导航记录等都是长期记忆的范畴。

反思能力

一个初始状态的智能体,在应对用户复杂需求以及实时环境快速变化时,往往会出现理解偏差、输出内容不完备与知识更新滞后等问题。引入反思(Reflection)能力,能显著提升服务的精准性与智能化水平。基于上述记忆-反思流程图,可以看到反思能力能不断地自我判断当前的答案是否满意。当然,客观来说,在大部分领域很难实现完美的反思能力,因为反思的本质是要在将答案呈现给人之前就能判断其质量,这里面存在大量主观因素和模棱两可的问题,在这个过程中,LLM是第一大功臣,可以说针对语音对话类场景,没有LLM纯靠规则就不可能实现普遍有效的反思。除此之外,长短期记忆也起到了重要的作用,它能够结合用户之前的习惯,猜测当前的结果是否符合用户预期,如果不符合,会主动打回进行重新理解和执行。

案例解析:天气查询的完整技术链路

以一个简单的“明天北京会下雨吗”为例,系统执行以下操作:

语音识别:ASR引擎输出“明天北京会下雨吗”文本;

语义理解:通过注册到小度想想的工具,结合这段文本,输出应当调用天气API,获取相关数据;

服务调用:调用天气API获取预测天气数据;

答案生成:输出“明天北京阴有雨,15-25℃”;

反思与重新生成:LLM审视这个答案,认为还不够详细,反思后认为应该按时间段细化降水概率,因此重新请求天气API,获取更详细的降雨预测数据,并呈现给用户。

随着多模态大模型以及自动驾驶技术的发展,未来的小度想想会有更多的可能性。从大的趋势来说,语音语义一体化大模型正在逐渐成熟,2025年3月31日,百度在 AI DAY 上发布了业界首个基于全新互相关注意力(Cross - Attention)的端到端语音语言大模型,该模型实现了超低时延与超低成本。另外,多模态的对话(比如视频AI对话)和自动驾驶的结合也值得重视,比如通过车载摄像头识别"前方学校区域"并自动减速;通过声纹、视频和车辆传感器识别人、车的异常,主动采取应对措施;而在导航行中播报的时候,所有内容都是基于实时动态数据进行人格化生成,再也不像机器人那样的生硬,而是像真人一样地交流,让我们的出行更舒适高效。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 百度
    +关注

    关注

    9

    文章

    2342

    浏览量

    92600
  • 智能体
    +关注

    关注

    1

    文章

    330

    浏览量

    11172

原文标题:揭秘:全球首款真正会思考的出行智能体「小度想想」是如何炼成的

文章出处:【微信号:baidu_map,微信公众号:百度地图】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    百度地图重磅发布地图AI开放平台

    近日,在WGDC25全球时空智能大会上,百度地图重磅发布地图AI开放平台。百度地图深耕20年的数
    的头像 发表于 05-26 11:26 ?729次阅读

    百度在AI领域的最新进展

    近日,我们在武汉举办了Create2025百度AI开发者大会,与全球各地的5000多名开发者,分享了百度在AI领域的新进展。
    的头像 发表于 04-30 10:14 ?751次阅读

    上汽大众与百度地图达成战略合作

    近日,上海国际车展期间,百度地图与上汽大众举行科技X生态战略合作伙伴签约仪式,双方将基于百度领先的车道级地图产品,为上汽大众千万车主打造更安全、高效的
    的头像 发表于 04-29 17:28 ?631次阅读

    百度地图与雅迪推出组合屏智能导航解决方案

    近日,百度地图与雅迪正式达成合作,共同推出组合屏智能导航解决方案,重新定义出行体验,实现“所见即所达”。
    的头像 发表于 04-08 15:22 ?701次阅读

    百度地图在汽车智能化领域的应用实践

    近日,在中国电动汽车人会论坛(2025)的智能汽车创新技术与产业论坛,百度地图事业部副总经理刘增刚发表主旨演讲,分享了百度
    的头像 发表于 04-03 15:02 ?1696次阅读

    用MCP将百度地图能力轻松接入DeepSeek

    是如何将百度地图的能力接入DeepSeek。本文将详细介绍通过MCP将百度地图的能力接入DeepSeek,为用户提供精准的智能规划服务。 一
    的头像 发表于 03-31 11:05 ?852次阅读
    用MCP将<b class='flag-5'>百度</b><b class='flag-5'>地图</b>能力轻松接入DeepSeek

    百度智能云四款大模型应用接入DeepSeek

    近日,百度智能云旗下四款重量级大模型应用产品——客悦、曦灵、一见、甄知,正式迎来了全新升级,接入了先进的DeepSeek模型。这一重要更新,标志着百度智能云在为企业
    的头像 发表于 02-10 18:00 ?906次阅读

    百度智能云点亮昆仑芯三代万卡集群

    近日,百度智能云宣布成功点亮昆仑芯三代万卡集群,这一成就不仅在国内尚属首次,也标志着百度在人工智能算力领域取得了重大突破。据了解,百度
    的头像 发表于 02-05 14:58 ?759次阅读

    百度科启动“繁星计划”

    近日,百度科携手中国科协、中国科学院大学共同举办了史记2024·科学科100词发布会,并在此盛会上正式启动了“繁星计划”。这一计划的核心目标在于利用前沿的AI技术,包括数字人、智能
    的头像 发表于 12-31 10:26 ?848次阅读

    百度确保极越汽车地图服务稳定无忧

    )和地图导航服务的持续稳定。百度承诺,这两项核心功能将不会因任何原因而中断,以保障极越汽车用户的出行安全和便捷。 为了确保服务质量的持续优化,百度云团队已经与极越技术团队进行了深入的对
    的头像 发表于 12-20 10:08 ?529次阅读

    百度正式回应进军短剧领域

    近日,百度在线网络技术(北京)有限公司在知识产权领域有了新的动作,据天眼查信息显示,该公司已申请注册“百度短剧”商标,涵盖网站服务、科学仪器、教育娱乐等多个国际分类,目前这些商标均处于等待实质审查
    的头像 发表于 12-17 14:19 ?651次阅读

    百度文心智能平台荣登中国互联网创新发展典型案例

    近日,在2024年世界互联网大会乌镇峰会上,备受瞩目的“2024年中国互联网企业创新发展十大典型案例”正式发布,百度文心智能平台凭借其卓越表现成功入选。
    的头像 发表于 11-22 11:28 ?1132次阅读

    百度将发布AI智能眼镜

    近日,有知情人士透露,百度旗下的人工智能品牌小计划在即将举行的百度世界大会上推出一款全新的AI智能眼镜。这款眼镜将内置先进的人工
    的头像 发表于 11-11 14:50 ?995次阅读

    百度舸AI计算平台4.0震撼发布

    在2024年百度云智大会的璀璨舞台上,百度智能云重磅推出了舸AI异构计算平台的全新力作——4.0版本。此次升级,标志着百度在AI基础设施领
    的头像 发表于 09-26 14:46 ?960次阅读

    百度联合英伟达举办全球规模最大智能大赛

    近日,科技巨头百度宣布了一项激动人心的合作计划:将与英伟达联合举办“百度搜索·文心智能创新大赛”。此次大赛聚焦于“智能
    的头像 发表于 09-02 15:43 ?608次阅读