0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

小米AI实验室声学团队 获婴儿啼哭声识别的挑战赛任务第一名

小米公司 ? 来源:小米公司 ? 作者:小米公司 ? 2020-11-13 10:28 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

对婴儿来说,啼哭声是一种通讯的方式,一个非常有限、但类似成年人进行交流的方式。它也是一种生物报警器,向外界传达着婴儿生理和心理的需求。 基于啼哭声声波携带的信息,婴儿的身体状况才能被确定,疾病才能被检测出来。因此,有效辨识啼哭声,成功地将婴儿啼哭声“翻译”成“成人语言”,让成年人读懂啼哭声的含义,有重大的实际意义。 2020 iFLYTEK A.I.开发者大赛中,有一项关于婴儿啼哭声识别的挑战赛任务。本次竞赛总共吸引了678只队伍参赛,分别来自国内不同的公司和高校。最终小米AI实验室声学团队以0.99123分的高分夺得第一名。

比赛的训练数据集包含了awake(苏醒)、diaper(换尿布)、hug(要抱抱)、hungry(饥饿)、sleepy(困乏)和uncomfortable(不舒服)六类哭声,并且人工添加了来自Noisex-92标准数据库的噪声。 这项任务旨在判别婴儿啼哭声所传递的信息,需要分别在简单噪声环境和复杂噪声环境下对婴儿啼哭进行识别,判断容易引起混淆的啼哭声,分析各类啼哭声的明显特征及简单直接的判别方式。 初赛训练数据包含918条音频,测试集包含228条。复赛赛方提供了添加不同噪声的30294条训练数据,需对7524条测试音频进行识别。

婴儿啼哭比赛背后的技术原理 小米AI实验室声学团队借鉴说话人确认的方法,训练网络使得vector的余弦距在离类间间距拉大而类内间距减小。 在模型的训练过程中,首先使用VAD算法对婴儿啼哭音频中的静音部分进行剔除。去除静音后随机选取160帧,不足160帧的语音采用Cycle Padding方式,利用中间特征进行循环填充,相比与传统的补0或用尾部填充的方式,特征更加丰富。 模型采用3 层 LSTM+256Dense 层,每层节点为 512。初赛训练集中的所有纯净语音均看作 enroll 语料,所有训练集中每个类别的 embedding 由该类别中的所有语音过模型求整体平均得到。测试集中的每条语音过模型后得到的 embedding与 enroll 中的每类 embedding 求余弦距离,分数对应最高的类别为预测类别。 训练策略为:首先迭代第一个 5000 次,学习率设置为 1e-3,第二次加载预训练模型(mAp 分数高的),调整学习率,再迭代 5000 次,最终交叉加载预训练模型在不同的 part 上训练。

模型的选择和推理过程分为以下4个步骤:

测试集统计分析:首先统计测试集语音的信噪比、时长、静音占比及语音相似度。通过对比分析,对相似数据进行归类,选取最高信噪比数据进行预测。

模型选择:在 5 个训练集上分别择优选取 2 个模型作为备用。

推理:计算测试语料经模型推理得到的vector 与每类哭声embedding间的余弦距离,取分数最高的对应类为备选结果。

投票:根据单个模型预测的结果投票得到最终结果。

声学感知技术未来将如何发展? 当前主流的声学感知技术使用的是强监督的深度学习方法,随着数据量的增大和技术的发展,未来监督学习的方法将逐渐过度为半监督甚至无监督学习。其中半监督学习正是当前声音事件检测技术的研究重点。 不仅如此,深度学习的网络模型也从人工专家设计逐渐转变为自动搜索架构,而元学习等小样本学习方法也开始逐步应用在声学感知方向。 婴儿哭声分析只是声学感知技术的其中一个应用。当前的声音场景分类和声音事件检测技术已能在设备端上实时分析当前用户所处的场景和识别出各式各样的声音,如猫狗宠物叫声、警报声、汽车鸣笛声等。

不仅如此,声学感知技术还能分析出一些连人耳也无法听出的声音,如本次竞赛的婴儿啼哭意图,以及应用在工业上,通过分析机器发出的声音来判断机器保养状态的声学分析技术。声音作为一种最常见的传感媒介之一,声音感知技术在智能家庭、自动驾驶、智能工业化等领域都有广泛的应用场景。 手机xAIoT小米AI全力打造小米智能家居 随着小米最新的手机xAIoT战略,智能家居环境是手机设备与全部智能家居设备联动最全面的使用场景。手机、TWS耳机和越来越多的智能家居设备比如智能音箱、智能电视、米家IoT设备等都具有麦克风拾音功能。 我们获得了足够多场景下的声音数据时,构建基于设备端的场景感知、事件感知、人体感知和空间感知能力成为了可能。 依赖于全球第一的AIoT平台,小米可以实现对家中每一个角落无处不在的感知能力,并完成手机端事件提醒与多事件时间线回溯,声学作为智能感知的一种手段,在未来与UWB技术、视觉图像技术相结合,相互取长补短将成为主流的趋势。

责任编辑:xj

原文标题:小米AI实验室声学团队荣获2020 iFLYTEK A.I.开发者大赛婴儿啼哭声识别挑战赛冠军

文章出处:【微信公众号:小米公司】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    88

    文章

    35760

    浏览量

    282488
  • 智能语音
    +关注

    关注

    11

    文章

    808

    浏览量

    49633
  • 小米
    +关注

    关注

    70

    文章

    14482

    浏览量

    148421

原文标题:小米AI实验室声学团队荣获2020 iFLYTEK A.I.开发者大赛婴儿啼哭声识别挑战赛冠军

文章出处:【微信号:xiaomigongsi0406,微信公众号:小米公司】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    尼特获得DEKRA德凯CTF1实验室认证

    近日,宁波尼特照明电器有限公司正式通过DEKRA德凯严格审核,成功获得CTF1实验室认可资质。本次颁证仪式由DEKRA德凯上海照明事业部总监厉梁与宁波尼特照明电器有限公司实验室负责
    的头像 发表于 08-07 14:54 ?326次阅读

    软通动力斩获2024年中国IT服务市场份额第一名

    近日,迪顾问发布《2024-2025年中国信息技术服务市场研究年度报告》。软通动力凭借在智能化转型浪潮中的卓越表现,以领先的数智化能力持续领跑中国IT服务市场,不仅斩获2024年市场份额第一名,更在IT咨询、IT运维等核心领域巩固优势,综合竞争力持续提升。
    的头像 发表于 08-01 17:53 ?840次阅读

    润和软件稳居数字业务类解决方案市场第一名

    ”)凭借自身卓越的技术实力和创新能力,连续五年稳居数字业务类解决方案市场第一名;在细分领域:数字信贷系统解决方案子市场持续保持第一名,数字银行解决方案子市场跃升至第一名。同时,其在开放银行、交易银行、智能营销、智能风控、数据智能
    的头像 发表于 07-14 17:36 ?666次阅读

    传音多媒体团队CVPR NTIRE 2025两项挑战赛冠亚军,推动视频画质升级

    (NTIRE2025EfficientSuper-ResolutionChallenge)第一名,短视频UGC图像超分辨率挑战赛(NTIRE2025Short-formUGCImageSuper-Reso
    的头像 发表于 06-24 17:03 ?492次阅读
    传音多媒体<b class='flag-5'>团队</b>揽<b class='flag-5'>获</b>CVPR NTIRE 2025两项<b class='flag-5'>挑战赛</b>冠亚军,推动视频画质升级

    传音多媒体团队CVPR NTIRE 2025两项挑战赛冠亚军

    Efficient Super-Resolution Challenge)第一名,短视频UGC图像超分辨率挑战赛(NTIRE 2025 Short-form UGC Image Super-Resolution
    的头像 发表于 06-24 16:08 ?1183次阅读
    传音多媒体<b class='flag-5'>团队</b>揽<b class='flag-5'>获</b>CVPR NTIRE 2025两项<b class='flag-5'>挑战赛</b>冠亚军

    华为荣登GlobalData运营商基础设施管理服务排名报告Leader象限第一名

    象限第一名。 报告对通信服务商从商业模式、解决方案、网络设计与优化、网络转型能力、服务规模、和业务敏捷性六个维度进行了全面评估,华为综合得分第一。这印证了华为在对全球运营商客户提供领先服务解决方案、网络极致性能和数智化转型等方面做出了卓越
    的头像 发表于 05-22 18:43 ?674次阅读
    华为荣登GlobalData运营商基础设施管理服务排名报告Leader象限<b class='flag-5'>第一名</b>

    实验室安全管理成焦点,汉威科技赋能实验室安全升级

    实验室是国家科技创新体系的重要组成部分,是国家组织高水平基础研究和应用基础研究、聚集和培养优秀科学家、开展学术交流的重要基地。近年来,各高校、研究院所、科创园区、高新产业园区相关企业的实验室呈现爆发
    的头像 发表于 04-10 10:41 ?478次阅读
    <b class='flag-5'>实验室</b>安全管理成焦点,汉威科技赋能<b class='flag-5'>实验室</b>安全升级

    微软AI开发者挑战赛即将开启

    人工智能,正在重塑世界。2 月 5 日至 4 月 23 日,加入我们,共赴场聚焦 AI 技术的开发者挑战赛!在这里,创意、技术和无限可能将碰撞出耀眼火花。无论你是开发新秀还是经验丰富的技术专家,这场由微软 Azure 驱动的在
    的头像 发表于 02-12 16:18 ?497次阅读

    达实再度荣获十大出入口控制品牌第一名

    近日,被誉为智能建筑行业“奥斯卡”的中国智能建筑品牌奖颁奖典礼于广州盛大举行。达实智能子公司——深圳达实物联网技术有限公司 连续14年 “十大出入口控制品牌第一名”荣誉,与此同时还揽“2024年优秀AIoT智控平台品牌”等两
    的头像 发表于 12-11 10:23 ?803次阅读

    蔚来获得CACSI车型满意度和售后服务满意度第一名

    近日,由中国质量协会发布的2024年中国新能源汽车用户满意度测评结果(CACSI)出炉。蔚来ET5T荣获纯电动中型轿车满意度第一名,蔚来品牌荣获售后服务满意度第一名。蔚来已连续两年获得CACSI车型满意度和售后服务满意度第一名
    的头像 发表于 12-06 17:19 ?2107次阅读

    理想L6和理想L8荣获中国新能源汽车用户满意度测评第一名

    近日,中国质量协会发布2024年中国新能源汽车行业用户满意度测评(NEV-CACSI)结果,理想L62024年市场关注新车(SUV) 第一名,理想L8也成为混动中大型SUV第一名。双双登顶,证明着
    的头像 发表于 12-05 14:00 ?1158次阅读

    小米与聚飞光电成立联合实验室

    近日,“小米&聚飞联合实验室”在惠州聚飞正式揭牌成立。该实验室将以Mini背光技术创新为主要方向,进步强化双方在显示终端领域的多元化合作。
    的头像 发表于 11-27 10:45 ?692次阅读

    苹果深圳实验室运营,强化iPhone等产品测试

    10月10日,苹果公司宣布其位于深圳河套深港科技创新合作区深圳园区的应用研究实验室正式启用。该实验室斥资超过10亿人民币,旨在组建支由超过1000中外高端人才构成的研发
    的头像 发表于 10-11 15:41 ?922次阅读

    T?V莱茵授予联想合作实验室资质

    联想(北京)有限公司近日迎来重要里程碑,其声学实验室与安规实验室成功获得德国莱茵T?V大中华区颁发的合作实验室资质证书。这殊荣不仅标志着联
    的头像 发表于 09-20 18:23 ?1304次阅读

    NVIDIA为AI城市挑战赛构建合成数据集

    一年一度的 AI 城市挑战赛中,来自世界各地的数百支参赛队伍在 NVIDIA Omniverse 生成的基于物理学的数据集上测试了他们的 AI 模型。
    的头像 发表于 09-09 10:04 ?961次阅读