0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是声纹?声纹识别的原理是什么

电子设计 ? 来源:电子设计 ? 作者:电子设计 ? 2020-12-10 21:33 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来源:杨湘祁

一、什么是声纹?

声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱,是由波长、频率以及强度等百余种特征维度组成的生物特征,具有稳定性、可测量性、唯一性等特点。

人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,发声器官–舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。

每个人的语音声学特征既有相对稳定性,又有变异性,不是一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。

尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。

声纹不如图像那样直观展现,在实际分析中,可通过波形图和语谱图进行展现,如下所示:

二、声纹识别的原理

人在讲话时使用的发声器官在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异,主要体现在如下方面:

共鸣方式特征:咽腔共鸣、鼻腔共鸣和口腔共鸣

嗓音纯度特征:不同人的嗓音,纯度一般是不一样的,粗略地可分为高纯度(明亮)、低纯度(沙哑)和中等纯度三个等级

平均音高特征:平均音高的高低就是一般所说的嗓音是高亢还是低沉

音域特征:音域的高低就是通常所说的声音饱满还是干瘪

不同人的声音在语谱图中共振峰的分布情况不同,声纹识别正是通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人,从而实现“闻声识人”的功能。

三、声纹识别算法的技术指标

声纹识别在算法层面可通过如下基本的技术指标来判断其性能,除此之外还有其它的一些指标,如:信道鲁棒性、时变鲁棒性、假冒攻击鲁棒性、群体普适性等指标,这部分后续于详细展开讲解。

错误拒绝率(False Rejection Rate, FRR):分类问题中,若两个样本为同类(同一个人),却被系统误认为异类(非同一个人),则为错误拒绝案例。错误拒绝率为错误拒绝案例在所有同类匹配案例的比例。

错误接受率(False Acceptance Rate, FAR) :分类问题中,若两个样本为异类(非同一个人),却被系统误认为同类(同一个人),则为错误接受案例。错误接受率为错误接受案例在所有异类匹配案例的比例。

等错误率(Equal Error Rate,EER):调整阈值,使得误拒绝率(False Rejection Rate,FRR)等于误接受率(False Acceptance Rate,FAR),此时的FAR与FRR的值称为等错误率。

准确率(Accuracy,ACC):调整阈值,使得FAR+FRR最小,1减去这个值即为识别准确率,即ACC=1 – min(FAR+FRR)

速度:(提取速度:提取声纹速度与音频时长有关、验证比对速度):Real Time Factor 实时比(衡量提取时间跟音频时长的关系,比如:1秒能够处理80s的音频,那么实时比就是1:80)。验证比对速度是指平均每秒钟能进行的声纹比对次数。

ROC曲线:描述FAR与FRR之间相互变化关系的曲线,X轴为FAR的值,Y轴为FRR的值。从左到右,当阈值增长期间,每一个时刻都有一对FAR和FRR的值,将这些值在图上描点连成一条曲线,就是ROC曲线。

阈值:在接受/拒绝二元分类系统中,通常会设定一个阈值,分数超过该值时才做出接受决定。调节阈值可以根据业务需求平衡FAR与FRR。 当设定高阈值时,系统做出接受决定的得分要求较为严格,FAR降低,FRR升高;当设定低阈值时,系统做出接受决定的得分要求较为宽松,FAR升高,FRR降低。在不同应用场景下,调整不同的阈值,则可在安全性和方便性间平平衡,如下图所示:

四、影响声纹

训练数据和算法是影响声纹识别水平的两个重要因素,在应用落地过程中,还会受很多因素的影响。

声源采样率:

人类语音的频段集中于50Hz ~ 8KHz之间,尤其在4KHz以下频段

离散信号覆盖频段为信号采样率的一半(奈奎斯特采样定理)。

采样率越高,信息量越大。

常用采样率:8KHz (即0 ~ 4KHz频段),16KHz(即0 ~ 8KHz频段)。

信噪比(SNR):

信噪比衡量一段音频中语音信号与噪声的能量比,即语音的干净程度:

15dB以上(基本干净)

6dB(嘈杂)

0dB(非常吵)

信道:

不同的采集设备,以及通信过程会引入不同的失真。

声纹识别算法与模型需要覆盖尽可能多的信道。

手机麦克风、桌面麦克风、固话、移动通信(CDMA, TD-LTE等)、微信……

语音时长:

语音时长(包括注册语音条数)会影响声纹识别的精度。

有效语音时长越长,算法得到的数据越多,精度也会越高。

短语音(1~3s)

长语音(20s+)

文本内容:

通俗地说,声纹识别系统通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人。

固定文本:注册与验证内容相同

半固定文本:内容一样但顺序不同;文本属于固定集合

自由文本

五、声纹识别的应用流程

声纹识别(VPR) ,生物识别技术的一种,也称为说话人识别 ,是从说话人发出的语音信号中提取声纹信息。

从应用上看,可分为:

说话人辨认(Speaker Identification):用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;

说话人确认(Speaker Verification):用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。

声纹识别在应用中分注册和验证两个主流程,根据不同的应用中,部分处理流程会存在差异,一般的声纹识别应用流程如下图所示:

六、声纹识别的应用场景

声纹识别作为生物识别技术的一种,有非常多好的应用场景,根据声音的特性,下面从公共安全、金融、社保、智能硬件四个领域介绍声纹识别的应用。

公安领域

声纹作为一种生物特征,最早在刑侦和鉴识领域成功应用。

近年来,由于互联网的发展,语音案件也呈现出井喷的趋势,在这些语音案件中,声纹识别成了唯一一种有效的技术侦破手段,通过的声纹识别和声纹大数据技术进行重点人员监管、反电信诈骗、反恐、刑事案件侦破、身份查询与核验,助力公安有效遏制与打击犯罪,构建和强化安全的社会公众环境。

金融

针对银行、互联网金融等各类金融及服务机构,通过声纹识别技术,提供了用户注册、远程验证、金融生物识别解决方案,大幅提高金融机构的风险防范系统安全性,强化风控能力,增加用户的安全性,防范身份欺诈。

另外在电话客服系统中,通过声纹识别技术,可实时识别出用户的身份,从而提供个性化的客户服务。

社保

我国针对离退休人员,每年至少需要进行一次生存状态验证,并以此为依据进行养老金的发放,目前可通过到指定社保大厅或自助终端进行生存验证,对于一些行动不便的老人家,这种方式也是非常不便利。

声纹识别技术在远程身份验证中有着天然的优势,只需要一个电话(手机或固话都可以),即可完成生存验证,为参保人员提供了便利,同时也为国家节省大量成本,避免养老金流失。

智能硬件

在智能硬件产品中,声纹识别解决了当前智能产品只能识别用户所说的内容,而不能区分说话人身份的问题,让智能产品能够区分不同的角色,实现“听声识人”。

让系统针对性对每个人提供不同的内容与服务,让人机交互更加简单,让用户享受更轻松、更具个性化、更安全的产品体验。

七、总结

声纹识别作为最前沿的生物识别技术,随着技术的成熟,将会在越来越多的应用场景下落地。

我们相信:在不久的将来,在第三代身份证上,声纹将成为继指纹、人像后又一个新增的公民身份ID。

声音将在我们未来的科技生活中扮演眼越来越重要的角色。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4720

    浏览量

    95932
  • 声纹识别
    +关注

    关注

    3

    文章

    142

    浏览量

    22009
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    配电房自适应滤波声纹传感器

    了"智能耳朵",实现了从被动响应到主动预防的运维模式革新。该技术的核心在于自适应滤波与声纹识别的深度结合。传感器内置的数字信号处理器可实时分析环境噪声特征,通过LMS算法动
    的头像 发表于 08-08 09:36 ?183次阅读
    配电房自适应滤波<b class='flag-5'>声纹</b>传感器

    电源变压器声纹传感器:电力设备智能监测的“声学之眼”

    文章由山东华科信息技术有限公司提供在电力设备智能化升级浪潮中,电源变压器作为电能转换的核心装置,其运行稳定性直接影响着整个供电系统的可靠性。声纹监测技术通过捕捉设备运行中的声波特征,为变压器状态感知
    的头像 发表于 07-22 10:48 ?254次阅读
    电源变压器<b class='flag-5'>声纹</b>传感器:电力设备智能监测的“声学之眼”

    开关柜体动态声纹特征分析系统:电力设备状态感知的“听觉维度”

    文章由山东华科信息技术有限公司提供在电力设备运维领域,声音作为设备运行状态的"天然指纹",正成为状态监测的重要维度。开关柜体动态声纹特征分析系统通过捕捉设备运行时的声音特征,为运
    的头像 发表于 07-10 10:54 ?189次阅读
    开关柜体动态<b class='flag-5'>声纹</b>特征分析系统:电力设备状态感知的“听觉维度”

    开关柜体振动声纹监测设备技术解析

    文章由山东华科信息技术有限公司提供开关柜作为电力分配与控制的核心设备,其运行状态直接影响电网稳定性。传统巡检方式难以捕捉早期机械故障,振动声纹监测技术通过解析设备运行产生的振动与声音信号,为状态评估
    的头像 发表于 07-03 10:08 ?226次阅读
    开关柜体振动<b class='flag-5'>声纹</b>监测设备技术解析

    声纹解锁个性化!启明云端硅思物语AI平台让设备“认准你的声音”

    启明云端依托旗下硅思物语AI平台,通过声纹采集技术,在ESP32-S3潮玩手办伴侣上构建的个性化智能助手的真实落地应用场景。声纹采集:你的声音就是“生物密码”什么是声纹声纹如同指
    的头像 发表于 06-17 18:02 ?624次阅读
    <b class='flag-5'>声纹</b>解锁个性化!启明云端硅思物语AI平台让设备“认准你的声音”

    变压器声纹监测传感器:电力设备健康管理的“声学侦探”

    外部干扰产生异常声纹信号。这些信号往往是设备内部故障的早期征兆。变压器声纹监测传感器的出现,为设备健康管理提供了全新的感知维度,正逐步成为智能电网建设的重要技术支
    的头像 发表于 06-16 10:24 ?356次阅读
    变压器<b class='flag-5'>声纹</b>监测传感器:电力设备健康管理的“声学侦探”

    风电齿轮箱声纹传感器:云端转动的“听觉守卫者”

    工况,故障率占风机总故障的30%以上。传统人工巡检模式难以捕捉早期微弱缺陷,而风电齿轮箱声纹传感器的出现,为行业提供了智能化监测解决方案。技术原理:从机械振动到数字声纹
    的头像 发表于 05-14 09:47 ?442次阅读
    风电齿轮箱<b class='flag-5'>声纹</b>传感器:云端转动的“听觉守卫者”

    电网运维动态声纹特征分析系统:聆听设备“心跳”的智能守护者

    文章由山东华科信息技术有限公司提供在电网智能化转型的浪潮中,设备运维模式正经历深刻变革。传统人工巡检依赖经验判断,难以捕捉设备早期隐性故障。动态声纹特征分析系统通过解析设备运行声纹,为电网运维装上
    的头像 发表于 05-13 09:44 ?302次阅读
    电网运维动态<b class='flag-5'>声纹</b>特征分析系统:聆听设备“心跳”的智能守护者

    电机轴承声纹传感器:工业设备健康的“声波侦探”

    引发故障。传统人工听诊或定期停机检测方式存在效率低、盲区大等问题,电机轴承声纹传感器的出现,为设备健康管理提供了智能化解决方案。声纹监测:捕捉轴承的“语言”电机轴
    的头像 发表于 05-13 09:43 ?334次阅读
    电机轴承<b class='flag-5'>声纹</b>传感器:工业设备健康的“声波侦探”

    配电房动态声纹特征监测系统:电力运维的“听觉守卫者”

    早期隐性故障。近年来,动态声纹特征监测系统的出现,为配电房智能化运维提供了全新解决方案。技术内核:从声音中解码设备健康密码配电房动态声纹特征监测系统的核心,在于对设
    的头像 发表于 04-27 10:51 ?382次阅读
    配电房动态<b class='flag-5'>声纹</b>特征监测系统:电力运维的“听觉守卫者”

    智能电力声纹监测系统:守护电网安全的“声纹卫士”

    文章由山东华科信息技术有限公司提供在科技日新月异的今天,电力系统的智能化转型已成为行业发展的必然趋势。其中,智能电力声纹监测系统作为一种创新的监测技术,正逐步成为守护电网安全的重要工具。2025年
    的头像 发表于 04-23 09:32 ?589次阅读
    智能电力<b class='flag-5'>声纹</b>监测系统:守护电网安全的“<b class='flag-5'>声纹</b>卫士”

    京朗仕特工业声纹检测设备支持定向拾音

    的一款将收集到的声纹转换成可视化图像的设备,以便帮助工作人员识别各种设备发出的声纹和气体泄漏的声纹,用以判断被检测设备运行状态是否正常,或是设备、管道等是否存在气体
    的头像 发表于 03-05 14:43 ?449次阅读
    京朗仕特工业<b class='flag-5'>声纹</b>检测设备支持定向拾音

    新品| Unit ASR,一体化离线语音识别单元

    UnitASR是一款AI语音识别单元,内置AI智能离线语音模块CI-03T。它具有语音识别声纹识别、语音增强和语音检测等多项功能,同时支持回声消除(AEC),有效减少噪声和回声干扰,确保语音
    的头像 发表于 02-14 18:34 ?481次阅读
    新品| Unit ASR,一体化离线语音<b class='flag-5'>识别</b>单元

    聚焦AI语音!声扬科技张伟彬博士受邀为中山大学深圳校区师生作分享

    近日,声扬科技联合创始人、总经理张伟彬博士受邀前往中山大学深圳校区,为学校师生作“声纹识别技术及其产业化应用”主题分享。凭借深厚的专业知识,结合前沿的产业落地实践,张伟彬博士深入浅出地分享了声纹识别
    的头像 发表于 12-31 10:45 ?985次阅读
    聚焦AI语音!声扬科技张伟彬博士受邀为中山大学深圳校区师生作分享

    调试PCM3500E,DAC输出噪声纹波峰峰值居然高达600mV,为什么?

    你好!最近在调试PCM3500E,发现其DAC部分,输出噪声纹波峰峰值居然高达600mV,将芯片power down之后噪声就消除了。附图是DIN输入全零时,纹波的波形特征。
    发表于 11-08 07:25