你有没有过这样的体验?在高速上对着导航喊“小度小度”,它就神奇地回应道“来了”;在地下车库问“最近的充电桩”,屏幕立刻跳出相关的充电桩指引;甚至对车载语音助手说“有点冷”,空调的温度就会悄悄调高。这些看似“读心术”的交互背后,藏着一个能听懂人话、能感知环境、能精准应答的“数字领航员”。
当你说“查找故宫附近的粤菜馆”时,系统不仅要从3亿多条POI数据中精准定位,还要理解“附近”是500米还是3公里;当你追问“有包厢吗”,它甚至能调用餐厅实时预订系统。这些看似简单的对话,需要跨越语音识别、语义理解、内容获取、答案生成等多重技术关卡。
百度地图早在今年4月发布全球首个具备记忆-推理-决策全链能力的出行智能体「小度想想」是如何将自然语言转化为精准指令?那些“秒回”的答案又是怎样炼成的?
【AI地图 Tech说】第三期将带你拆解这位“出行搭子”的魔法工厂,看看从“听清”到“听懂”方面,究竟藏着多少黑科技。
上图说明了从用户请求到最终执行的整个过程,可以看到其中经过了语音识别、意图解析、技能承接等主要的环节!
语音指令的解码之旅:从声波到文本
当用户说出"导航到故宫博物院"时,系统首先启动声学模型将声波转化为文字。这个看似简单的步骤,其实也不容易,蕴含三层技术环节:
01基础识别
其实就是我们大家常说的语音识别技术,它利用深度学习模型将声波信号转化为二进制序列,结合声学模型与发音词典生成初步文本。语音识别技术近年来经历了白盒化到黑盒化的演进,其性能、效果都有很大的提升,大家应该都已经比较熟悉。但相对于安静室内环境,用户在户外使用小度想想的时候,还有一类常见的问题是拒识。根据统计,至少有15%左右的语音请求是由于误唤醒/误收音引入的(非用户主观需求)。小度想想,需要考虑到行驶过程中的风噪、聊天、多媒体播放等复杂噪音场景,百度地图引入了双重拒识判断模型(声学拒识、语义拒识),提前对问题请求进行甄别和提前拦截,最大限度降低用户干扰,大幅提升用户体验。
02纠错
通过语言模型(如BERT、N-Gram)对识别结果进行上下文纠错,例如将“北经”修正为“北京”。这是小度想想相对于通用的语音助手的优势所在,在纠错的过程中,会使用包括地图POI数据、路名数据等专业字典进行参考。百度地图建设了超亿条POI数据的本名、别名、关联名的地理知识图谱,将POI的各种表达方式建立标准化映射。在此过程中,还需要构建错误拼音-标准名称的双向索引表,支持"西单大悦成"→"西单大悦城"这样的智能纠错。
03排序
在实际工程中,纠错手段不可能只有一个,因此就需要在上述流程完成后,基于多个逻辑,会输出多个可能的识别结果。这里就会基于用户之前的对话习惯,以及一些其他基于先验知识和统计学习的置信度评分算法,从多个候选文本中选取最优结果(比如“横屏模式”,在排序中会优于“红屏模式”)。
意图解析的"翻译官":把自然语言转化为机器指令
当从语音的音频识别为自然语言之后,下一步就是将其转化为机器指令。这里包括几个关键技术:
技术亮点一:『意图模板匹配』
基于自然语言处理(NLP)技术,完成实体识别(如时间“明天”、地点“北京”)、意图分类(如“天气查询”)、情感分析(如用户是否急躁)。过去的语义理解,更多使用模板类技术,如下图所示,针对用户问询的内容抽取出关键要素后,再看匹配了哪种需求表达方式,这称之为一个“意图模板”,基于大量预置的模板就可以实现大部分指令的识别。
技术亮点二: 『生成式意图理解』
模板化语义理解能解决很多问题,但是存在的关键短板在于泛化理解能力不足,同时高度依赖领域知识积累,需要提前做大量的模板标注,还要解决相近表达方式的模板冲突问题,当模板数量达到一定程度后维护成本就会增加。LLM的出现,另辟蹊径地解决了这个问题。其核心优点是端到端利用LLM的上下文理解能力,直接解析用户自然语言中的隐含需求,形成对“口语表达中蕴含的本质意图”的理解,这个过程中无需构造模板,而是提前将全量承接API的参数规范作为“知识”以Prompt的方式注入LLM,使其自主选择API并填充参数。举例来说,我们可以给大模型这样的Prompt:
角色:你是一个语音助手语义解析器,目标是将用户指令转换为API调用 参考资料:可用的API及参数如下: {API参数规范库} 用户指令:{user_query} 任务:请按以下步骤执行: 1.选择最匹配的API; 2.从指令中提取参数值,若未明确提及则设为null; 3.输出JSON格式,包含api_name和parameters。 预期输出:{"api_name": "search_flight","parameters": {"departure_city": "北京", ...}}
技术亮点三:『工具调用』
工具调用是小度想想的下半身,是能够准确承接用户需求的关键支撑。其本质上可以理解为一系列API接口的调用。当调用序列复杂了之后,调用状态的维护就会成为问题,小度想想针对多轮复杂工具调用,提出了基于技能的状态机架构,任意复杂的操作,都可以基于这套架构来统一表达。
技术亮点四:『生成式AI时代的工具调用进阶』
在大模型的时代,为了提升工程化的效果,在API接口的基础上又诞生了两个公认的技术范式:
MCP:聚焦模型与外部工具的连接,提供统一接口(如数据库、API调用),类似“AI的USB接口”,降低跨模型开发成本。只要所有工具都以MCP的协议接入,那么大模型就可以知道这个工具能力的存在,从而能做到在合适的时候调用它。
RAG:RAG本质上是对问答能力的数据增强,如果小度想想仅仅基于老旧的LLM底座来回答问题,会有很严重的幻觉发生。为了解决这个问题,往往使用检索增强生成(Retrieval Augmented Generation,简称 RAG),百度地图将所有的地图领域数据以结构化来存储,然后在用户提问后,以向量相似性找到对应参考数据,并取出再用LLM做汇总,就相当于从“闭卷考试”变成了“开卷考试”,从而保证了答案的精准性。
持续提升生产力:从语音助手到智能体
随着LLM的能力越来越强,我们发现,它的强大理解能力,对于一个一般化的常识问题,能给出相当接近人类的回答。那么是否它能模拟很多团队协作的真人,甚至以硅基生命来承接现实世界的生产力?这就是智能体(Agent)要考虑的问题了。智能体是这两年AI领域最火的词之一,它是基于人工智能技术在某个领域体现高度智能,显著提升人类工作效率的信息系统,相对于“语音助手”,更偏重于“通过观察、思考、权衡利弊,动态自主调用基础能力、高准确地解决复杂业务问题”的特性。
以自动驾驶场景为例,智能体可以实时感知车辆周围的路况、其他车辆的行驶状态、交通信号灯的变化等关键信息,为后续决策提供坚实的数据基础。自主决策能力堪称智能体的 “大脑”,它依据感知到的环境信息,结合内部预设的规则和先进算法,迅速、准确地做出决策。在面对复杂路况时,自动驾驶智能体能够综合分析各种因素,精准判断是加速、减速还是转弯,以确保车辆行驶的安全与高效。又如在智能物流配送中,智能体的核心目标是按时将货物准确送达目的地,为此它会综合考量实时路况、车辆载重等信息,动态规划最优配送路线,克服重重困难以达成目标。
回到语音助手这个场景,结合地图智能体的任务,首先要针对地图场景深入精调大模型,百度地图通过文心一言基座大模型进行二次预训练、SFT、强化学习等手段,使地图大模型能够精确理解用户在地图中的各种常见表达,理解准确率高达95%以上。
此外,针对复杂任务的执行,还要引入的两个特性是记忆和反思:
记忆能力
当用户表达不完整的需求时,能够基于之前的问答和用户行为,自动补全对话内容(如用户问“今天限行吗?”默认补充用户所在城市),因此需要构建记忆能力,用于存储历史交互数据、用户偏好与领域知识(如常用地址、路线选择习惯、节假日出行规律),为意图理解与决策提供背景支持,减少重复询问并提升个性化水平。这里面的短期记忆一般是指从启动会话至今的内容,往往持续数分钟,而长期记忆则是用户相对稳定固化的特征,就地图智能体来说,用户的搜索、导航记录等都是长期记忆的范畴。
反思能力
一个初始状态的智能体,在应对用户复杂需求以及实时环境快速变化时,往往会出现理解偏差、输出内容不完备与知识更新滞后等问题。引入反思(Reflection)能力,能显著提升服务的精准性与智能化水平。基于上述记忆-反思流程图,可以看到反思能力能不断地自我判断当前的答案是否满意。当然,客观来说,在大部分领域很难实现完美的反思能力,因为反思的本质是要在将答案呈现给人之前就能判断其质量,这里面存在大量主观因素和模棱两可的问题,在这个过程中,LLM是第一大功臣,可以说针对语音对话类场景,没有LLM纯靠规则就不可能实现普遍有效的反思。除此之外,长短期记忆也起到了重要的作用,它能够结合用户之前的习惯,猜测当前的结果是否符合用户预期,如果不符合,会主动打回进行重新理解和执行。
案例解析:天气查询的完整技术链路
以一个简单的“明天北京会下雨吗”为例,系统执行以下操作:
语音识别:ASR引擎输出“明天北京会下雨吗”文本;
语义理解:通过注册到小度想想的工具,结合这段文本,输出应当调用天气API,获取相关数据;
服务调用:调用天气API获取预测天气数据;
答案生成:输出“明天北京阴有雨,15-25℃”;
反思与重新生成:LLM审视这个答案,认为还不够详细,反思后认为应该按时间段细化降水概率,因此重新请求天气API,获取更详细的降雨预测数据,并呈现给用户。
随着多模态大模型以及自动驾驶技术的发展,未来的小度想想会有更多的可能性。从大的趋势来说,语音语义一体化大模型正在逐渐成熟,2025年3月31日,百度在 AI DAY 上发布了业界首个基于全新互相关注意力(Cross - Attention)的端到端语音语言大模型,该模型实现了超低时延与超低成本。另外,多模态的对话(比如视频AI对话)和自动驾驶的结合也值得重视,比如通过车载摄像头识别"前方学校区域"并自动减速;通过声纹、视频和车辆传感器识别人、车的异常,主动采取应对措施;而在导航行中播报的时候,所有内容都是基于实时动态数据进行人格化生成,再也不像机器人那样的生硬,而是像真人一样地交流,让我们的出行更舒适高效。
-
百度
+关注
关注
9文章
2342浏览量
92600 -
智能体
+关注
关注
1文章
330浏览量
11172
原文标题:揭秘:全球首款真正会思考的出行智能体「小度想想」是如何炼成的
文章出处:【微信号:baidu_map,微信公众号:百度地图】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
评论