什么是声纹?声纹识别的原理是什么-电子发烧友网

来源：杨湘祁

一、什么是声纹？

声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱，是由波长、频率以及强度等百余种特征维度组成的生物特征，具有稳定性、可测量性、唯一性等特点。

人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，发声器官–舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。

每个人的语音声学特征既有相对稳定性，又有变异性，不是一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。

尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。

声纹不如图像那样直观展现，在实际分析中，可通过波形图和语谱图进行展现，如下所示：

二、声纹识别的原理

人在讲话时使用的发声器官在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异，主要体现在如下方面：

共鸣方式特征：咽腔共鸣、鼻腔共鸣和口腔共鸣

嗓音纯度特征：不同人的嗓音，纯度一般是不一样的，粗略地可分为高纯度（明亮）、低纯度（沙哑）和中等纯度三个等级

平均音高特征：平均音高的高低就是一般所说的嗓音是高亢还是低沉

音域特征：音域的高低就是通常所说的声音饱满还是干瘪

不同人的声音在语谱图中共振峰的分布情况不同，声纹识别正是通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人，从而实现“闻声识人”的功能。

三、声纹识别算法的技术指标

声纹识别在算法层面可通过如下基本的技术指标来判断其性能，除此之外还有其它的一些指标，如：信道鲁棒性、时变鲁棒性、假冒攻击鲁棒性、群体普适性等指标，这部分后续于详细展开讲解。

错误拒绝率（False Rejection Rate, FRR）：分类问题中，若两个样本为同类（同一个人），却被系统误认为异类（非同一个人），则为错误拒绝案例。错误拒绝率为错误拒绝案例在所有同类匹配案例的比例。

错误接受率（False Acceptance Rate, FAR）：分类问题中，若两个样本为异类（非同一个人），却被系统误认为同类（同一个人），则为错误接受案例。错误接受率为错误接受案例在所有异类匹配案例的比例。

等错误率（Equal Error Rate，EER）：调整阈值，使得误拒绝率（False Rejection Rate，FRR）等于误接受率（False Acceptance Rate，FAR），此时的FAR与FRR的值称为等错误率。

准确率（Accuracy，ACC）：调整阈值，使得FAR＋FRR最小，1减去这个值即为识别准确率，即ACC=1 – min(FAR+FRR)

速度：（提取速度：提取声纹速度与音频时长有关、验证比对速度）：Real Time Factor 实时比（衡量提取时间跟音频时长的关系，比如：1秒能够处理80s的音频，那么实时比就是1:80）。验证比对速度是指平均每秒钟能进行的声纹比对次数。

ROC曲线：描述FAR与FRR之间相互变化关系的曲线，X轴为FAR的值,Y轴为FRR的值。从左到右，当阈值增长期间，每一个时刻都有一对FAR和FRR的值，将这些值在图上描点连成一条曲线，就是ROC曲线。

阈值：在接受/拒绝二元分类系统中，通常会设定一个阈值，分数超过该值时才做出接受决定。调节阈值可以根据业务需求平衡FAR与FRR。当设定高阈值时，系统做出接受决定的得分要求较为严格，FAR降低，FRR升高；当设定低阈值时，系统做出接受决定的得分要求较为宽松，FAR升高，FRR降低。在不同应用场景下，调整不同的阈值，则可在安全性和方便性间平平衡，如下图所示：

四、影响声纹

训练数据和算法是影响声纹识别水平的两个重要因素，在应用落地过程中，还会受很多因素的影响。

声源采样率：

人类语音的频段集中于50Hz ~ 8KHz之间，尤其在4KHz以下频段

离散信号覆盖频段为信号采样率的一半（奈奎斯特采样定理）。

采样率越高，信息量越大。

常用采样率：8KHz (即0 ~ 4KHz频段），16KHz（即0 ~ 8KHz频段）。

信噪比（SNR）：

信噪比衡量一段音频中语音信号与噪声的能量比，即语音的干净程度：

15dB以上（基本干净）

6dB（嘈杂）

0dB（非常吵）