0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在MATLAB中构建智能语音助手

MATLAB ? 来源:MATLAB ? 2025-06-30 14:30 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

具身智能是一种将智能与物理实体深度融合的人工智能形态,强调智能行为既依赖智能体自身算力,更离不开其与环境的感知交互。在具身智能体与人类交互方面,自然语言是极为直观且高效的沟通方式。

大语言模型(LLM)凭借卓越的自然语言理解、生成与推理能力,与具身智能结合,人类可经语音智能体发出指令、提出问题或者表达需求,LLM 能处理理解语言信息并生成回复,还可以将用户指令解析为具体动作或任务目标,助力具身智能体精准把握人类意图并协同工作。

我们利用 MATLAB 开发了一个简易智能助手,实现了基于语音的人机交互。下面的视频将展示该语音助手如何被唤醒,以及它如何应答用户提问和接收指令以操控电机开关。

系统概况

下图展示了该智能助手简要的工作流程:它通过监听环境并检测触发词来被唤醒,之后调用语音转文本模型将用户语音转化为文本,通过文本判断是否为用户指令:若为指令,则将其转化为控制信息发送至硬件执行;若非指令,则调用LLM生成相应的回复;最后,通过文本转语音模型将回复文本转化为语音并播放。

wKgZO2hiLzqAXdg4AAGOkeSNF0s896.png

本文将展示如何在 MATLAB 中构建这样一个语音助手,以及 MATLAB 在智能应用快速原型方面的如下能力:

用户界面设计与实现

语音信号采集与处理

Python 模型集成

大语言模型支持

硬件控制与代码部署

用户界面设计与实现

MATLAB 提供一个用于设计和编程 App 的交互式开发环境 App Designer,可以用来设计智能助手的用户界面。App Designer 内置完整的 MATLAB 编辑器和丰富的交互式 UI 组件,支持通过网格布局管理界面,并可自动适应屏幕尺寸变化。用户可直接在工具栏将 App 打包为安装文件分发,或借助 MATLAB Compiler 创建独立桌面或 Web App。

wKgZPGhiLzqAIv1JAAGlSb_DO1E198.png

可参考如下网页快速入门 App Designer:

使用 App 设计工具开发 App:https://ww2.mathworks.cn/help/matlab/app-designer.html

语音采集与处理

除了基本的 Signal Processing Toolbox,MATLAB 还专门为音频、语音和声学信号的处理与分析提供了Audio Toolbox,这也为我们智能助手的语音采集和处理提供了便利。Audio Toolbox 提供丰富的算法,可用于音频信号处理、声学指标估算、音频数据集标注与增强,以及音频特征提取。

可访问如下网页学习如何在 MATLAB 中通过 Audio Toolbox 采集、分析及处理语音信号:

Audio Toolbox:https://ww2.mathworks.cn/help/audio/index.html

结合上一步,如需在用户界面上实现音频文件的波形显示与播放,可参考如下示例:

创建音频播放与可视化应用:*https://ww2.mathworks.cn/help/audio/ug/create-an-app-to-play-and-visualize-audio-files.html *

在智能助手应用中,触发词检测、语音转文本和文本转语音这三个模块都是基于Audio Toolbox 网页上提供的 “AI for Audio” 相关参考示例和函数来实现的。MATLAB 提供了Statistics and Machine Learning Toolbox 和 Deep Learning Toolbox 来支持 AI 方面的应用。其中,触发词检测主要是通过训练一个深度学习网络来完成。可在 MathWorks 官网上搜索以下示例,学习如何在 MATLAB 中对音频信号打标签,如何设计与训练一个用于触发词检测的深度学习网络,以及如何裁剪及量化 神经网络并把它部署到树莓派中。

wKgZO2hiLzqAEZ72AAKy4JdPu1s846.png

对于语音与文本的相互转换,需在 MATLAB 工具栏的“Add-Ons”下点击“Get Add-Ons”,搜索并安装“Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries”。也可访问如下网页直接下载安装,并查看其使用文档及相关示例:

Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries:https://ww2.mathworks.cn/matlabcentral/fileexchange/160371-audio-toolbox-interface-for-speechbrain-and-torchaudio-libraries

wKgZPGhiLzqAJSVjAANow5pfpn4825.png

该插件可自动安装 Python 和 PyTorch,并下载 SpeechBrain 和 Torchaudio 库中的深度学习模型,从而为 Audio Toolbox 提供了基于 AI 的语音识别(ASR)和语音合成功能,使得MATLAB 用户无需深度学习经验即可直接使用前沿的 AI 语音模型。

用户可通过 speechClient 对象,调用speech2text和text2speech函数,选用本地模型或者Google、IBM、Microsoft、Amazon 等云服务,分别实现语音转文本(STT)(或自动语音识别(ASR))和文本转语音(TTS)(或语音合成)功能。对于中文,可选择whisper 模型实现语音转文本,注意这时需单独下载模型权重。

Python 模型集成

在文本转语音模块中,text2speech 函数使用的是 HiFi-GAN/Tacotron2 预训练模型,无法合成超过约 10 秒的语音信号。因此,可在 MATLAB 中配置 Python 环境,安装和调用其他预训练好的 Python 模型。具体操作可参考:

从 MATLAB 中调用 Python:https://ww2.mathworks.cn/help/matlab/call-python-libraries.html

在智能助手的示例中,我们选用的是pyttsx3,一个可直接调用多种操作系统的 TTS,支持在离线状态下实现文本转语音并播放功能的Python 库。

在 MATLAB 命令行,可使用如下命令安装pyttsx3库:

wKgZO2hiLzqAIH1XAACpiaoMxII787.png

然后,通过如下函数初始化一个基于pyttsx3的TTS引擎并设置其参数:

wKgZPGhiLzqAWo18AAMpQyEKjTw287.png

之后,就可利用* engine.say()* 函数传入需要合成并播放的文本,使用*engine.runAndWait() *函数等待朗读任务的完成。

大语言模型支持

在我们的智能助手项目中,大语言模型被用来回答用户的提问。为此,需要在附加功能资源浏览器中搜索并安装 “Large Language Models (LLM) with MATLAB” ,或访问如下网页直接下载并安装:

Large Language Models (LLMs) with MATLAB:https://ww2.mathworks.cn/matlabcentral/fileexchange/163796-large-language-models-llms-with-matlab

wKgZPGhiLzuAJvTCAAKWxywY5PM654.png

这个Add-on可以帮助用户通过 MATLAB 连接或者调用各种大语言模型。目前支持 OpenAI Chat Completions API 和 OpenAI Images API 等,还支持调用 Ollama 部署的本地大模型。可参考之前发布的微信文章《如何运行本地 DeepSeek 模型并在 MATLAB 中使用?》了解更多。

硬件控制和代码部署

与硬件设备进行交互是具身智能的一大特色,在这个智能助手项目中,用户可以通过指令控制电机启动和关闭。MATLAB 和 Simulink 可以直接与一些硬件链接并进行实时数据流传输,还能支持将算法和模型自动生成 C/C++、HDL 或 PLC 代码等,部署到嵌入式系统中,如机器人控制器、无人车的车载计算机等,实现具身智能系统的实际运行。

可在如下网页中找到更详细的信息:

MATLAB 的硬件支持:https://ww2.mathworks.cn/hardware-support/home.html

为了演示智能助手对电机的控制,我们基于如下 MATLAB 随软件附带的示例做了简单修改:

使用基于 STM32 处理器的板子实现对三相交流电机的开环控制:https://ww2.mathworks.cn/help/ecoder/stmicroelectronicsstm32f4discovery/ug/Openn-Loop-Control-Example.html

原始示例是通过板卡上的按键打开或者关闭电机运行,我们将“Communication” 下的“Start and Stop Motor” 模块修改成通过 USART2 串口接收信号控制电机启动与停止(如下图所示)。所以,当智能助手检测到电机控制指令时,只需要在串口发送该指令所相对应的数字即可。

wKgZPGhiLzqAFZL0AAExLzHAZtY896.png

记得在 MATLAB 电机控制命令发送函数中使用与 STM32 USART2 端口配置中相同的波特率与字长。

wKgZO2hiLzqAWHh1AAMgtotzuf8580.png

总结

目前,我们仅使用 MATLAB 将具身智能与大语言模型(LLM)结合,在人机交互方面进行了初步探索,未来将继续探索能否直接使用多模态模型直接解析用户需求来实现具身智能的人机交互。

除了人机交互, MATLAB 在具身智能的建模与仿真、感知与数据处理、决策与控制、学习与训练、测试与评估、嵌入式部署及代码生成等众多领域,均是功能强大的工具。欢迎感兴趣的小伙伴们和我们一同进行探索与研究!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人机交互
    +关注

    关注

    12

    文章

    1251

    浏览量

    56613
  • matlab
    +关注

    关注

    189

    文章

    3003

    浏览量

    234329
  • 智能助手
    +关注

    关注

    0

    文章

    24

    浏览量

    3126
  • 具身智能
    +关注

    关注

    0

    文章

    148

    浏览量

    493

原文标题:大语言模型(LLM) 赋能具身智能中的人机交互

文章出处:【微信号:MATLAB,微信公众号:MATLAB】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    智能语音助手将成为智能家居用户入口

    智能语音助手成为2017年CES和MWC热点之一,内置智能语音助手的产品覆盖多个领域、多个品牌的
    发表于 05-27 16:26 ?2974次阅读

    语音助手的常见问题有哪些?

    语音助手语音识别、自然语音处理的完美结合,目前已被广泛应用于生活,满足人们对远端操控的需求。语音
    发表于 08-06 08:25

    【 平头哥CB5654语音开发板试用连载】智能声控语音助手

    项目名称:智能声控语音助手试用计划:本人在音视频领域有三年工作经历,在校期间一直关注智能设备,对于智能音响和
    发表于 02-25 16:09

    何在matlab实现Virtual Reality 技术

    何在matlab实现Virtual Reality 技术,资料的代码很全,步骤很清晰,很实用,欢迎大家下载交流。
    发表于 06-03 16:57 ?0次下载

    语音助手智能电视标配 真的会用了就离不开语音助手吗?

    语音助手功能逐渐开始成为电视的标配,对于这项功能你应该并不陌生,每天拿在手里的智能手机都可以开启语音助手,比如iPhone的Siri,但很多
    发表于 06-12 16:44 ?1.2w次阅读

    语音助手打电话订餐厅

    语音助手是一款智能型的手机应用,通过智能对话与即时问答的智能交互,实现帮忙用户解决问题,其主要是帮忙用户解决生活类问题。苹果手机
    的头像 发表于 06-03 06:01 ?2720次阅读

    何在MATLAB开发基于像素的视频和图像处理算法

    此讲座将结合新产品的特性,重点介绍如何在MATLAB?开发基于像素流的视频和图像处理的算法,并通过HDL代码产生的技术快速在FPGA上实现。你将了解到:如何在
    的头像 发表于 08-29 06:08 ?3114次阅读
    如<b class='flag-5'>何在</b><b class='flag-5'>MATLAB</b><b class='flag-5'>中</b>开发基于像素的视频和图像处理算法

    智能语音助手的原理_预测智能语音助手的未来

    本文首先介绍了自然语言处理(NLP)和自然语言生成(NLG)这两种基础技术,然后分别对语音识别的基本原理,工作原理,工作流程进行了解释,最后简单地预测了智能语音助手地未来发展趋势。
    发表于 07-31 10:16 ?2.2w次阅读

    智能家居设备有必要植入语音助手功能吗?

    随着智能家居技术在过去五年的不断进步,万物互联成为了智能设备的发展焦点。在所有的智能家居品类之中,以智能音箱发展最为迅猛,这也得益于
    的头像 发表于 07-03 09:43 ?3565次阅读

    语音数据集在智能语音助手中的应用与挑战

    一、引言 随着智能设备的普及和人工智能技术的不断发展,智能语音助手已经成为人们日常生活不可或缺
    的头像 发表于 12-14 15:07 ?1057次阅读

    语音数据集在智能语音助手中的应用与挑战

    一、引言 随着人工智能技术的不断发展,智能语音助手已经成为了人们日常生活不可或缺的一部分。语音
    的头像 发表于 01-18 15:46 ?751次阅读

    智能语音助手在医疗行业的应用与挑战

    一、引言 随着人工智能技术的不断发展,智能语音助手在医疗行业的应用越来越广泛。语音数据集在医疗智能
    的头像 发表于 01-18 16:41 ?812次阅读

    智能语音助手在教育行业的应用与挑战

    一、引言 随着人工智能技术的不断发展,智能语音助手在教育行业的应用越来越广泛。语音数据集在教育智能
    的头像 发表于 01-19 17:21 ?1536次阅读

    智能语音助手在旅游行业的应用与挑战

    一、引言 随着人工智能技术的不断发展和普及,智能语音助手在旅游行业的应用越来越广泛。语音数据集在旅游智能
    的头像 发表于 01-19 17:30 ?1398次阅读

    智能语音助手在医疗行业的应用与挑战

    一、引言 随着人工智能技术的不断发展,智能语音助手在医疗行业的应用越来越广泛。语音数据集在医疗智能
    的头像 发表于 01-19 17:37 ?1149次阅读