百度地图出行智能体“小度想想”的黑科技-电子发烧友网

你有没有过这样的体验？在高速上对着导航喊“小度小度”，它就神奇地回应道“来了”；在地下车库问“最近的充电桩”，屏幕立刻跳出相关的充电桩指引；甚至对车载语音助手说“有点冷”，空调的温度就会悄悄调高。这些看似“读心术”的交互背后，藏着一个能听懂人话、能感知环境、能精准应答的“数字领航员”。

当你说“查找故宫附近的粤菜馆”时，系统不仅要从3亿多条POI数据中精准定位，还要理解“附近”是500米还是3公里；当你追问“有包厢吗”，它甚至能调用餐厅实时预订系统。这些看似简单的对话，需要跨越语音识别、语义理解、内容获取、答案生成等多重技术关卡。

百度地图早在今年4月发布全球首个具备记忆-推理-决策全链能力的出行智能体「小度想想」是如何将自然语言转化为精准指令？那些“秒回”的答案又是怎样炼成的？

【AI地图 Tech说】第三期将带你拆解这位“出行搭子”的魔法工厂，看看从“听清”到“听懂”方面，究竟藏着多少黑科技。

上图说明了从用户请求到最终执行的整个过程，可以看到其中经过了语音识别、意图解析、技能承接等主要的环节！

语音指令的解码之旅：从声波到文本

当用户说出"导航到故宫博物院"时，系统首先启动声学模型将声波转化为文字。这个看似简单的步骤，其实也不容易，蕴含三层技术环节：

01基础识别

其实就是我们大家常说的语音识别技术，它利用深度学习模型将声波信号转化为二进制序列，结合声学模型与发音词典生成初步文本。语音识别技术近年来经历了白盒化到黑盒化的演进，其性能、效果都有很大的提升，大家应该都已经比较熟悉。但相对于安静室内环境，用户在户外使用小度想想的时候，还有一类常见的问题是拒识。根据统计，至少有15%左右的语音请求是由于误唤醒/误收音引入的（非用户主观需求）。小度想想，需要考虑到行驶过程中的风噪、聊天、多媒体播放等复杂噪音场景，百度地图引入了双重拒识判断模型（声学拒识、语义拒识），提前对问题请求进行甄别和提前拦截，最大限度降低用户干扰，大幅提升用户体验。

02纠错

通过语言模型（如BERT、N-Gram）对识别结果进行上下文纠错，例如将“北经”修正为“北京”。这是小度想想相对于通用的语音助手的优势所在，在纠错的过程中，会使用包括地图POI数据、路名数据等专业字典进行参考。百度地图建设了超亿条POI数据的本名、别名、关联名的地理知识图谱，将POI的各种表达方式建立标准化映射。在此过程中，还需要构建错误拼音-标准名称的双向索引表，支持"西单大悦成"→"西单大悦城"这样的智能纠错。

03排序

在实际工程中，纠错手段不可能只有一个，因此就需要在上述流程完成后，基于多个逻辑，会输出多个可能的识别结果。这里就会基于用户之前的对话习惯，以及一些其他基于先验知识和统计学习的置信度评分算法，从多个候选文本中选取最优结果（比如“横屏模式”，在排序中会优于“红屏模式”）。

意图解析的"翻译官"：把自然语言转化为机器指令

当从语音的音频识别为自然语言之后，下一步就是将其转化为机器指令。这里包括几个关键技术：

技术亮点一：『意图模板匹配』

基于自然语言处理（NLP）技术，完成实体识别（如时间“明天”、地点“北京”）、意图分类（如“天气查询”）、情感分析（如用户是否急躁）。过去的语义理解，更多使用模板类技术，如下图所示，针对用户问询的内容抽取出关键要素后，再看匹配了哪种需求表达方式，这称之为一个“意图模板”，基于大量预置的模板就可以实现大部分指令的识别。

技术亮点二：『生成式意图理解』

模板化语义理解能解决很多问题，但是存在的关键短板在于泛化理解能力不足，同时高度依赖领域知识积累，需要提前做大量的模板标注，还要解决相近表达方式的模板冲突问题，当模板数量达到一定程度后维护成本就会增加。LLM的出现，另辟蹊径地解决了这个问题。其核心优点是端到端利用LLM的上下文理解能力，直接解析用户自然语言中的隐含需求，形成对“口语表达中蕴含的本质意图”的理解，这个过程中无需构造模板，而是提前将全量承接API的参数规范作为“知识”以Prompt的方式注入LLM，使其自主选择API并填充参数。举例来说，我们可以给大模型这样的Prompt：

角色：你是一个语音助手语义解析器，目标是将用户指令转换为API调用
参考资料：可用的API及参数如下：
{API参数规范库}
用户指令：{user_query}
任务：请按以下步骤执行：
1.选择最匹配的API；
2.从指令中提取参数值，若未明确提及则设为null；
3.输出JSON格式，包含api_name和parameters。
预期输出：{"api_name":
"search_flight","parameters": {"departure_city":
"北京", ...}}

技术亮点三：『工具调用』

工具调用是小度想想的下半身，是能够准确承接用户需求的关键支撑。其本质上可以理解为一系列API接口的调用。当调用序列复杂了之后，调用状态的维护就会成为问题，小度想想针对多轮复杂工具调用，提出了基于技能的状态机架构，任意复杂的操作，都可以基于这套架构来统一表达。

技术亮点四：『生成式AI时代的工具调用进阶』

在大模型的时代，为了提升工程化的效果，在API接口的基础上又诞生了两个公认的技术范式：

MCP：聚焦模型与外部工具的连接，提供统一接口（如数据库、API调用），类似“AI的USB接口”，降低跨模型开发成本。只要所有工具都以MCP的协议接入，那么大模型就可以知道这个工具能力的存在，从而能做到在合适的时候调用它。

RAG：RAG本质上是对问答能力的数据增强，如果小度想想仅仅基于老旧的LLM底座来回答问题，会有很严重的幻觉发生。为了解决这个问题，往往使用检索增强生成（Retrieval Augmented Generation，简称 RAG），百度地图将所有的地图领域数据以结构化来存储，然后在用户提问后，以向量相似性找到对应参考数据，并取出再用LLM做汇总，就相当于从“闭卷考试”变成了“开卷考试”，从而保证了答案的精准性。

持续提升生产力：从语音助手到智能体

随着LLM的能力越来越强，我们发现，它的强大理解能力，对于一个一般化的常识问题，能给出相当接近人类的回答。那么是否它能模拟很多团队协作的真人，甚至以硅基生命来承接现实世界的生产力？这就是智能体（Agent）要考虑的问题了。智能体是这两年AI领域最火的词之一，它是基于人工智能技术在某个领域体现高度智能，显著提升人类工作效率的信息系统，相对于“语音助手”，更偏重于“通过观察、思考、权衡利弊，动态自主调用基础能力、高准确地解决复杂业务问题”的特性。

以自动驾驶场景为例，智能体可以实时感知车辆周围的路况、其他车辆的行驶状态、交通信号灯的变化等关键信息，为后续决策提供坚实的数据基础。自主决策能力堪称智能体的 “大脑”，它依据感知到的环境信息，结合内部预设的规则和先进算法，迅速、准确地做出决策。在面对复杂路况时，自动驾驶智能体能够综合分析各种因素，精准判断是加速、减速还是转弯，以确保车辆行驶的安全与高效。又如在智能物流配送中，智能体的核心目标是按时将货物准确送达目的地，为此它会综合考量实时路况、车辆载重等信息，动态规划最优配送路线，克服重重困难以达成目标。

回到语音助手这个场景，结合地图智能体的任务，首先要针对地图场景深入精调大模型，百度地图通过文心一言基座大模型进行二次预训练、SFT、强化学习等手段，使地图大模型能够精确理解用户在地图中的各种常见表达，理解准确率高达95%以上。

此外，针对复杂任务的执行，还要引入的两个特性是记忆和反思：

记忆能力

当用户表达不完整的需求时，能够基于之前的问答和用户行为，自动补全对话内容（如用户问“今天限行吗？”默认补充用户所在城市），因此需要构建记忆能力，用于存储历史交互数据、用户偏好与领域知识（如常用地址、路线选择习惯、节假日出行规律），为意图理解与决策提供背景支持，减少重复询问并提升个性化水平。这里面的短期记忆一般是指从启动会话至今的内容，往往持续数分钟，而长期记忆则是用户相对稳定固化的特征，就地图智能体来说，用户的搜索、导航记录等都是长期记忆的范畴。

反思能力

一个初始状态的智能体，在应对用户复杂需求以及实时环境快速变化时，往往会出现理解偏差、输出内容不完备与知识更新滞后等问题。引入反思（Reflection）能力，能显著提升服务的精准性与智能化水平。基于上述记忆-反思流程图，可以看到反思能力能不断地自我判断当前的答案是否满意。当然，客观来说，在大部分领域很难实现完美的反思能力，因为反思的本质是要在将答案呈现给人之前就能判断其质量，这里面存在大量主观因素和模棱两可的问题，在这个过程中，LLM是第一大功臣，可以说针对语音对话类场景，没有LLM纯靠规则就不可能实现普遍有效的反思。除此之外，长短期记忆也起到了重要的作用，它能够结合用户之前的习惯，猜测当前的结果是否符合用户预期，如果不符合，会主动打回进行重新理解和执行。

案例解析：天气查询的完整技术链路

以一个简单的“明天北京会下雨吗”为例，系统执行以下操作：

语音识别：ASR引擎输出“明天北京会下雨吗”文本；

语义理解：通过注册到小度想想的工具，结合这段文本，输出应当调用天气API，获取相关数据；

服务调用：调用天气API获取预测天气数据；

答案生成：输出“明天北京阴有雨，15-25℃”；

反思与重新生成:LLM审视这个答案，认为还不够详细，反思后认为应该按时间段细化降水概率，因此重新请求天气API，获取更详细的降雨预测数据，并呈现给用户。

随着多模态大模型以及自动驾驶技术的发展，未来的小度想想会有更多的可能性。从大的趋势来说，语音语义一体化大模型正在逐渐成熟，2025年3月31日，百度在 AI DAY 上发布了业界首个基于全新互相关注意力（Cross - Attention）的端到端语音语言大模型，该模型实现了超低时延与超低成本。另外，多模态的对话（比如视频AI对话）和自动驾驶的结合也值得重视，比如通过车载摄像头识别"前方学校区域"并自动减速；通过声纹、视频和车辆传感器识别人、车的异常，主动采取应对措施；而在导航行中播报的时候，所有内容都是基于实时动态数据进行人格化生成，再也不像机器人那样的生硬，而是像真人一样地交流，让我们的出行更舒适高效。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

百度

百度

+关注

关注
9

文章
2342

浏览量
92600
智能体

智能体

+关注

关注
1

文章
330

浏览量
11172

原文标题：揭秘：全球首款真正会思考的出行智能体「小度想想」是如何炼成的

文章出处：【微信号：baidu_map，微信公众号：百度地图】欢迎添加关注！文章转载请注明出处。

搜索历史

百度地图出行智能体“小度想想”的黑科技

评论