EASY EAl Orin Nano(RK3576) whisper语音识别训练部署教程-电子发烧友网

1Whisper简介

Whisper是OpenAI开源的，识别语音识别能力已达到人类水准自动语音识别系统。Whisper作为一个通用的语音识别模型，它使用了大量的多语言和多任务的监督数据来训练，能够在英语语音识别上达到接近人类水平的鲁棒性和准确性。Whisper还可以进行多语言语音识别、语音翻译和语言识别等任务。Whisper的架构是一个简单的端到端方法，采用了编码器-解码器的Transformer模型，将输入的音频转换为对应的文本序列，并根据特殊的标记来指定不同的任务。

本教程针对语音识别Whisper的训练和部署到EASY-EAI-Orin-nano(RK3576)进行说明。

接下来对算法流程进行说明，whisper算法系统流程如下图所示:

预处理器流程：

编码器流程：

解码器流程：

2Whisper模型训练

Whisper工程下载百度网盘下载链接：

https://pan.baidu.com/s/1rX422_7AUMNB_MvZRKL9CQ?pwd=1234(提取码: 1234）

数据集准备

在本例中，whisper-finetuning工程为whisper模型微调训练工程，该工程提供whisper数据转换，模型微调训练代码。本章节将以AiShell数据集演示whisper模型微调训练过程。

其中AiShell下载链接：

https://openslr.magicdatatech.com/resources/33/

AiShell数据转SRT

在本例中我们提供了AiShell数据集转成SRT的python脚本，请根据示例修改脚本内容，其中：

1. aishell_extract.py 解压AiShell数据集，解压后：

data_aishell

├── transcript

│ └── aishell_transcript_v0.8.txt

└── wav

├── dev

├── test

└── train

2. aishell2srt.py 将解压后的AiShell数据集转成SRT格式，其格式如下：

datas/data_aishell/wav/test/S0907/BAC009S0907W0352.wav 作为此次赛事上唯一一场纯泰式规则的超级战

datas/data_aishell/wav/test/S0907/BAC009S0907W0269.wav 苹果正在全力以赴出售尽可能多的智能手机

datas/data_aishell/wav/test/S0907/BAC009S0907W0147.wav 从业人员五万人

datas/data_aishell/wav/test/S0907/BAC009S0907W0495.wav 港媒称内地人不穷了为何仍爱抢学者抢习惯了

3. 在本例中我们提供了create_data.py，将SRT数据转成训练数据，执行命令：

python create_data.py --data-file --language --output train.json

#suchas:

python create_data.py --data-file datas/data_aishell/train.txt --language zh --output train.json

转换后数据格式如下：

{"audio_path": "datas/data_aishell/wav/test/S0907/BAC009S0907W0352.wav", "text":"作为此次赛事上唯一一场纯泰式规则的超级战", "language": "zh", "prompt":""}

{"audio_path": "datas/data_aishell/wav/test/S0907/BAC009S0907W0269.wav", "text": "苹果正在全力以赴出售尽可能多的智能手机", "language": "zh", "prompt":""}

{"audio_path": "datas/data_aishell/wav/test/S0907/BAC009S0907W0147.wav", "text": "从业人员五万人", "language": "zh", "prompt":""}

{"audio_path": "datas/data_aishell/wav/test/S0907/BAC009S0907W0495.wav", "text": "港媒称内地人不穷了为何仍爱抢学者抢习惯了", "language": "zh", "prompt":""}

模型训练

在本例中我们提供了run_finetuning.py用于模型训练，执行命令如下：

python run_finetuning.py --train-json --dev-json --model --save-dir

注：其中model可以为tiny, base, small, medium等值，程序会自动下载对应的模型；如果，model的值为本地模型文件，则程序会直接加载本地模型进行微调训练。训练好的模型将保存在save-dir目录下。

PT模型转ONNX

convert工程为whisper模型转换工程，提供了将pt模型转rknn过程的所有脚本。在本例中我们提供了export_onnx.py脚本将pt模型转成onnx，转换命令：

pip install openai-whisper==20231117

python export_onnx.py --model_type

注：

model_type可以为tiny, base, small, medium等值，程序会自动下载对应的模型。如果model的值为本地模型文件，则程序会直接加载本地模型进行转换。同时，onnx模型保存地址需要修改export_onnx.py代码。

3rknn-toolkit模型转换

rknn-toolkit模型转换环境搭建

onnx模型需要转换为rknn模型才能在EASY-EAI-Orin-nano运行，所以需要先搭建rknn-toolkit模型转换工具的环境。当然tensorflow、tensroflow lite、caffe、darknet等也是通过类似的方法进行模型转换，只是本教程onnx为例。

概述

模型转换环境搭建流程如下所示：

? ? ?

下载模型转换工具

为了保证模型转换工具顺利运行，请下载网盘里“06.AI算法开发/01.rknn-toolkit2模型转换工具/rknn-toolkit2-v2.3.0/docker/rknn-toolkit2-v2.3.0-cp38-docker.tar.gz”。

网盘下载链接:

https://pan.baidu.com/s/1J86chdq1klKFnpCO1RCcEA?pwd=1234(提取码：1234)

把工具移到ubuntu20.04

把下载完成的docker镜像移到我司的虚拟机ubuntu20.04的rknn-toolkit2目录,如下图所示：

运行模型转换工具环境

在该目录打开终端

执行以下指令加载模型转换工具docker镜像:

docker load --input rknn-toolkit2-v2.3.0-cp38-docker.tar.gz

执行以下指令进入镜像bash环境:

docker run -t -i --privileged -v /dev/bus/usb:/dev/bus/usb rknn-toolkit2:2.3.0-cp38 /bin/bash

现象如下图所示:

输入“python”加载python相关库，尝试加载rknn库，如下图环境测试成功:

至此，模型转换工具环境搭建完成。

模型转换为RKNN

EASY EAI Orin-nano支持.rknn后缀的模型的评估及运行，对于常见的tensorflow、tensroflow lite、caffe、darknet、onnx和Pytorch模型都可以通过我们提供的 toolkit 工具将其转换至 rknn 模型，而对于其他框架训练出来的模型，也可以先将其转至 onnx 模型再转换为 rknn 模型。模型转换操作流程入下图所示：

? ? ?

模型转换Demo下载

下载百度网盘链接：

https://pan.baidu.com/s/1C1lQN1U9YhKwpi6PwuyxxA?pwd=1234(提取码: 1234)

把whisper_convert_rk3576.tar.bz2解压到虚拟机，如下图所示:

进入模型转换工具docker环境

执行以下指令把工作区域映射进docker镜像，其中，/home/developer/rknn-toolkit2/model_convert_test为工作区域，/test为映射到docker镜像，/dev/bus/usb:/dev/bus/usb为映射usb到docker镜像

docker run -t -i --privileged -v /dev/bus/usb:/dev/bus/usb -v /home/developer/rknn-toolkit2/model_convert_test:/test rknn-toolkit2:2.3.0-cp38 /bin/bash

执行成功如下图所示: