0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

瑞芯微RK3576语音识别算法

广州灵眸科技有限公司 ? 2025-08-15 15:13 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1.语音识别简介

语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

我们的语音算法是基于Whisper是OpenAI设计的。Whisper作为一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据来训练,能够在英语语音识别上达到接近人类水平的鲁棒性和准确性。Whisper还可以进行多语言语音识别、语音翻译和语言识别等任务。Whisper的架构是一个简单的端到端方法,采用了编码器-解码器的Transformer模型,将输入的音频转换为对应的文本序列,并根据特殊的标记来指定不同的任务。

基于EASY-EAI-Orin-nano(RK3576)硬件主板的运行效率:

算法种类模型大小Real Time Factor (RTF)
speech_decoder383MB0.077
speech_encoder217MB0.077

2.快速上手

如果您初次阅读此文档,请阅读:《入门指南/源码管理及编程介绍/源码工程管理》,按需管理自己工程源码(注:此文档必看,并建议采用【远程挂载管理】方式,否则有代码丢失风险!!!)

2.1开源码工程下载

先在PC虚拟机定位到nfs服务目录,再在目录中创建存放源码仓库的管理目录:

cd ~/nfsroot mkdir GitHub cd GitHub

再通过git工具,在管理目录内克隆远程仓库(需要设备能对外网进行访问)

git clone https://github.com/EASY-EAI/EASY-EAI-Toolkit-3576.git

wKgZO2ie21qAX1F1AAThXkdBXf4444.png

注:

* 此处可能会因网络原因造成卡顿,请耐心等待。

* 如果实在要在gitHub网页上下载,也要把整个仓库下载下来,不能单独下载本实例对应的目录。

2.2开发环境搭建

通过adb shell进入板卡开发环境,如下图所示。

wKgZPGie23iAAjukAASksyxe3Mo794.png

通过以下命令,把nfs目录挂载上nfs服务器。

mount -t nfs -o nolock : /home/orin-nano/Desktop/nfs/

wKgZPGie26OAe4rXAANSYXB8WZg622.png

2.3例程编译

然后定位到板卡的nfs的挂载目录(按照实际挂载目录),进入到对应的例程目录执行编译操作,具体命令如下所示:

cd EASY-EAI-Toolkit-3576/Demos/algorithm-speech_recognition/ ./build.sh

wKgZO2ie28CAZMLdAAcd4coY2Cc524.png

2.4模型部署

要完成算法Demo的执行,需要先下载法模型。

百度网盘链接为:https://pan.baidu.com/s/1jNjnfjnrmyW3_vvdgEG-rA?pwd=1234 (提取码:1234)。

wKgZO2ie29mAH0pgAAPUfXu-MXk299.png

同时需要把下载的解码模型和编码模型复制粘贴到Release/目录:

wKgZPGie2-2ARVzuAAByCFqAkpU205.png

2.5例程运行及效果

进入开发板Release目录,执行下方命令,运行示例程序:

cd Release/ ./test-speech_recognition speech_encoder.model speech_decoder.model filters.txt CN.txt cn 1-10-1_CN.wav

运行例程命令如下所示:

wKgZPGie3AyARnEmAAFfQ31OKno954.png

API的详细说明,以及API的调用(本例程源码),详细信息见下方说明。

3.语音识别API说明

3.1引用方式

为方便客户在本地工程中直接调用我们的EASY EAIapi库,此处列出工程中需要链接的库以及头文件等,方便用户直接添加。

选项

描述

头文件目录easyeai-api/algorithm/speech_recognition
库文件目录easyeai-api/algorithm/speech_recognition
库链接参数-lspeech_recognition

3.2语音识别检测初始化函数

设置语音识别初始化函数原型如下所示。

int speech_recognition_init(const char *p_encoder_path, const char *p_decoder_path, const char *p_filter_path,

const char *p_vocab_path, rknn_whisper_t *p_whisper);

具体介绍如下所示。

函数名:speech_recognition_init

头文件speech_recognition.h
输入参数p_encoder_path:编码模型名字/路径
输入参数p_decoder_path:解码模型名字/路径
输入参数p_filter_path:滤波器频谱
输入参数p_vocab_path:词组文件
输入参数p_whisper:语音识别句柄
返回值成功返回:0
失败返回:-1
注意事项

3.3语音识别运行函数

设置语音识别运行原型如下所示。

int speech_recognition_run(rknn_whisper_t *p_whisper, audio_buffer_t audio, int task_code, std::vector &recognized_text);

具体介绍如下所示。

函数名:speech_recognition_run
头文件speech_recognition.h
输入参数p_whisper:语音识别句柄
输入参数audio:待识别音频信息
输入参数task_code:语音识别任务
输入参数recognized_text:语音识别结果
返回值成功返回:0
失败返回:-1
注意事项

3.4语音识别释放函数

设置语音识别释放原型如下所示。

int speech_recognition_release(rknn_whisper_t *p_whisper);

具体介绍如下所示。

函数名:speech_recognition_release
头文件speech_recognition.h
输入参数p_whisper:语音识别句柄
返回值成功返回:0
失败返回:-1
注意事项
  1. 语音识别算法例程

例程目录为Demos/algorithm-speech_recognition/test-speech_recognition.cpp,操作流程如下所示:

wKgZO2ie3C-AdaodAAAcJxL1UrY691.png

#include #include #include #include #include #include "sndfile.h" #include "speech_recognition.h" #include "audio_utils.h" int main(int argc, char **argv) { if (argc != 7){ printf("%s \n", argv[0]); printf("Example: %s speech_encoder.model speech_decoder.model filters.txt CN.txt cn 1-10-1_CN.wav\n", argv[0]); return -1; } const char *p_encoder_path = argv[1]; // 编码模型地址 const char *p_decoder_path = argv[2]; // 解码模型地址 const char *p_filter_path = argv[3]; // 滤波器频谱 const char *p_vocab_path = argv[4]; // 词组文件 const char *p_task = argv[5]; // 识别语种(cn/en) const char *p_audio_path = argv[6]; // 待识别音频 int task_code = 0; std::vector recognized_text; // Tokenizer 预定义控制符号(切换语言或任务) if (strcmp(p_task, "en") == 0){ task_code = 50259; } else if (strcmp(p_task, "cn") == 0){ task_code = 50260; } else{ printf("\n\033[1;33mCurrently only English or Chinese recognition tasks are supported. Please specify as en or zh\033[0m\n"); return -1; } // 读取音频,并对音频进行处理 audio_buffer_t audio; int ret = read_audio(p_audio_path, &audio); if (ret != 0){ printf("read audio fail! ret=%d audio_path=%s\n", ret, p_audio_path); return -1; } if (audio.num_channels == 2){ ret = convert_channels(&audio); } if (audio.sample_rate != SAMPLE_RATE){ ret = resample_audio(&audio, audio.sample_rate, SAMPLE_RATE); } // speech recognition初始化 rknn_whisper_t whisper; ret = speech_recognition_init(p_encoder_path, p_decoder_path, p_filter_path, p_vocab_path, &whisper); int iter = 0; for (int i=0; i < 5; i++) { clock_t start = clock(); recognized_text.clear(); // speech recognition语音识别 ret = speech_recognition_run(&whisper, audio, task_code, recognized_text); clock_t end = clock(); // 记录结束时间 double infer_time = ((double)(end - start)) / CLOCKS_PER_SEC; // 转换为秒 // 结果输出 std::cout << "\nspeech recognition output: "; for (const auto &str : recognized_text){ std::cout << str; } std::cout << std::endl; float audio_length = audio.num_frames / (float)SAMPLE_RATE; // sec audio_length = audio_length > (float)CHUNK_LENGTH ? (float)CHUNK_LENGTH : audio_length; float rtf = infer_time / audio_length; printf("%d, Real Time Factor (RTF): %.3f / %.3f = %.3f\n", iter++, infer_time, audio_length, rtf); } // speech recognition释放 speech_recognition_release(&whisper); return 0; }

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    39

    文章

    1788

    浏览量

    114437
  • 瑞芯微
    +关注

    关注

    25

    文章

    629

    浏览量

    52644
  • rk3576
    +关注

    关注

    1

    文章

    189

    浏览量

    862
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于RK3576开发板的人脸识别算法

    RK3576开发板展示人脸识别算法例程和API说明
    的头像 发表于 05-07 16:48 ?2072次阅读
    基于<b class='flag-5'>RK3576</b>开发板的人脸<b class='flag-5'>识别</b><b class='flag-5'>算法</b>

    米尔RK3576RK3588怎么选?-看这篇就够了

    在中国半导体产业的版图中,作为国内SoC芯片领跑者,凭借其在处理器芯片设计领域的深厚积累和持续创新,推出很多智能应用处理器芯片,在嵌入式系统领域得到大规模的应用。RK3588和
    发表于 12-27 11:44

    米尔RK3576实测轻松搞定三屏八摄像头

    RK3576参数强劲RK3576推出的一款高性能AIoT处理器,这款芯片以其卓越的计算能力、多屏幕支持、强大的视频编解码能力和高效的
    发表于 01-17 11:33

    国产开发板的端侧AI测评-基于米尔RK3576

    ,国产自主可控必须搞起来。那与非网本期内容就跟自主可控强关联——评测一款基于国产SoC的板卡,由米尔电子推出的RK3576开发板(MYD-LR
    发表于 02-14 16:29

    适配多种系统,米尔RK3576核心板解锁多样化应用

    米尔电子发布的基于 RK3576 核心板和开发板,具备高性能数据处理能力、领先的AI智能分析功能、多样化的显示与操作体验以及强大的扩展性与兼容性,适用于多种应用场景。目前米尔电子
    发表于 05-23 16:07

    Onenet云网关方案应用--基于米尔RK3576开发板

    本文将介绍基于米尔电子MYD-LR3576开发板(米尔基于RK3576开发板)的Onenet云网关应用方案测试。 摘自优秀创作者-小手
    发表于 06-06 16:54

    RK3576|触觉智能:开启科技新篇章

    ,创新不止步!”——全新芯片RK3576即将震撼登场。指引科技风潮,创造未来无限可能!这款芯片在
    的头像 发表于 03-21 08:31 ?1775次阅读
    <b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b><b class='flag-5'>RK3576</b>|触觉智能:开启科技新篇章

    新品体验 | RK3576开发板

    前言:RK3576作为第二代8nm高性能AIOT平台,一经推出便获得了极大的关注。广州眺望电子科技有限公司是一家专注于嵌入式处理器模组研发与应用的国家高新技术企业,目前公司已推出
    的头像 发表于 11-01 08:08 ?2068次阅读
    新品体验 | <b class='flag-5'>RK3576</b>开发板

    RK3588与RK3576芯片对比

    在AIoT领域,RK3588和RK3576都是备受瞩目的处理器。以下将从多个方面对它们进行详细对比。
    的头像 发表于 11-04 15:55 ?3831次阅读
    <b class='flag-5'>RK</b>3588与<b class='flag-5'>RK3576</b>芯片对比

    米尔RK3576开发板特惠活动!

    近日,米尔电子发布基于RK3576核心板和开发板,RK3576作为国产热门处理器,其高性能数据处理能力、领先的AI智能分析、强大的扩展
    的头像 发表于 11-12 01:00 ?1003次阅读
    米尔<b class='flag-5'>RK3576</b>开发板特惠活动!

    有奖丨米尔 RK3576开发板免费试用

    米尔与合作发布的新品基于RK3576应用
    的头像 发表于 11-12 01:00 ?913次阅读
    有奖丨米尔 <b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b><b class='flag-5'>RK3576</b>开发板免费试用

    追加名额丨米尔RK3576开发板有奖试用

    米尔与合作发布的新品基于RK3576应用
    的头像 发表于 11-22 01:00 ?729次阅读
    追加名额丨米尔<b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b><b class='flag-5'>RK3576</b>开发板有奖试用

    NPU性能深度评测:RK3588、RK3576RK3568、RK3562

    随着AI技术不断发展,越来越多的嵌入式设备开始集成NPU(神经网络处理单元),以实现更高效的AI推理。作为国产芯片厂商的佼佼者,推出的RK3588、
    的头像 发表于 04-03 11:17 ?2730次阅读
    NPU性能深度评测:<b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b><b class='flag-5'>RK</b>3588、<b class='flag-5'>RK3576</b>、<b class='flag-5'>RK</b>3568、<b class='flag-5'>RK</b>3562

    RK3576主板YNH-536-规格书

    RK3576主板YNH-536-V1
    发表于 05-19 09:51 ?4次下载

    RK3576RK3576S有什么区别,性能参数配置与型号差异解析

    第二代8nm高性能AIOT平台RK3576家族再添新成员-RK3576S,先说结论:相较主型号的R
    的头像 发表于 08-14 23:57 ?101次阅读
    <b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b><b class='flag-5'>RK3576</b>与<b class='flag-5'>RK3576</b>S有什么区别,性能参数配置与型号差异解析