0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

仅凭声音,AI 就能“脑补”你的脸!测试结果精度可以达到 90.25%

5RJg_mcuworld ? 来源:YXQ ? 2019-04-08 10:10 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【导语】之前我们为大家介绍过一项非常酸爽的研究“Talking Face Generation”:给定音频视频后(输入),可以让任意一个人的面部特征与输入的音视频信息保持一致,也就是说出输入的这段话。当时就想到了“杨超越的声音+高晓松的脸”这样的神仙搭配。不过,近期一项新研究再度抓到了笔者的眼睛!在最新的研究中,研究者仅需要音频信息就生成了人脸... ...如此鬼畜的操作,此乃头一次见啊!接下来就为大家介绍一下这项工作!

音频和图像是人类最常用的两种信号传输模式,图像传达的信息非常直观,而语音包含的信息其实比我们想象的要更丰富,包括说话人的身份,性别和情绪状态等等。从这两个信号中提取的特征通常是高度相关的,可以让人仅聆听声音就可以想象他的视觉外观。WAV2PIX 的工作就是仅利用语音输入,来生成说话者的人脸图像。其实这就是一个跨模态的视觉生成任务。

谈到这项研究的贡献,主要有三点:

提出了一个能够直接从原始的语音信号生成人脸的条件GAN:WAV2PIX;

提供了一个在语音和人脸两方面综合质量很高的一个数据集:Youtubers

实验证明论文的方法可以生成真实多样的人脸。

论文收集了大V用户(Youtubers)上传到 Youtube 的演讲视频,这些视频通常具有高质量的说话环境、表达方式、人脸特征等。Youtubers 数据集主要由两部分组成:一个是自动生成的数据集和一个手动处理后的高质量的子集。

主要的预处理工作:

音频最初下载的是高级音频编码(AAC)格式,44100 Hz,立体声。因此转换为 WAV 格式,并重新采样到 16 kHz,每个样例占 16 位并转换为单声道。

采用基于 Haar 特征的人脸检测器来检测正脸。仅采纳置信度高的帧

保存检测出来的那帧图像及前后两秒的语音帧,以及一个标签(identity)。

方法介绍

研究主要由三个模块构成:一个是语音编码器,一个是图片生成网络,一个是图片判别网络。

语音编码器(Speech Encoder):已有的方法大多数是手工提取音频特征,并不是针对生成网络的任务进行优化的,而 SEGAN 提出了一种在波形上用于语音处理的方法。因此作者在已有的工作 SEGAN 上进行修改。修改为具有 6 层一维网络,并且每层的 kernel 大小是 15x15,步长为 4,然后每层卷积网络后面使用 LeakyReLU 激活函数,网络的输入通道是 1。输入 16kHZ 下1 秒的语音片段,上述的卷积网络可以得到一个 4x1024 的张量,然后采用三个全连接网络将特征数量从 4x1024 降到 128。作为生成器网络的输入。

图片生成器(Image Generator Network):输入是语音编码器的 128 向量。采用二维转置卷积、插值、dropout 等方式将输入转为 64x64x3 或者 128x128x3 的张量。在 G 的损失函数中添加了一个辅助损失用于保持说话人的标签(Identity)。

图片判别器(Image Discriminator Network):判别器由几层步长为 2,kernel 大小是 4x4 的卷积网络组成,并使用谱归一化和 LeakyReLU 激活函数。当张量为 4x4 时,作者拼接了语音的输入,并采用最后一层网络来计算 D 网络的分数。

实验过程

训练:将手动处理后的数据集作为训练集,采用数据增强等手动。值得注意的是,在处理时将每张图像复制了 5 次,并将其与 4 秒音频里面随机采样的 5 个不同的1秒音频块进行匹配。因此总共有 24K 左右的图像-音频对用于模型训练。其它超参数采用参考的文献设置。

评估:下图给出了可视化的结果,虽然生成的图像都比较模糊,但基本可以观察到人的面部特征,并且有不同的面部表情。

作者进一步微调了一个预训练的 VGG-FACE Descriptor 网络,用于量化测试结果,在作者提供的数据集上,可以达到 76.81% 的语音识别准确率和 50.08% 的生成图像准确率。

为了评估模型生成图像的真实程度,作者定义了一个 68 个人脸关键点的精度检测分数。如下图所示,测试结果精度可以达到 90.25%。表明在大多数情况下生成的图像保留了基本的面部特征。

感兴趣的小伙伴们可以下载阅读研究一下~

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音
    +关注

    关注

    3

    文章

    401

    浏览量

    38812
  • AI
    AI
    +关注

    关注

    88

    文章

    35748

    浏览量

    282388

原文标题:仅用语音,AI 就能“脑补”你的脸! | 技术头条

文章出处:【微信号:mcuworld,微信公众号:嵌入式资讯精选】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    待机功耗测试的“隐秘陷阱”:为什么测试结果可能不准确?

    本文导读在家电、LED等行业,待机功耗测试看似简单——选择一台高精度设备即可。但实际上,许多工程师都在无意中踩中测试“陷阱”:插排上的小红灯、接线方式的选择、量程档位的设定...这些细节影响着
    的头像 发表于 07-22 11:37 ?172次阅读
    待机功耗<b class='flag-5'>测试</b>的“隐秘陷阱”:为什么<b class='flag-5'>你</b>的<b class='flag-5'>测试</b><b class='flag-5'>结果</b>可能不准确?

    请问STM32C0的adc精度可以达到多少?

    STM32C0的adc精度可以达到多少?
    发表于 06-09 06:46

    请问STM32C0的adc精度可以达到多少?

    STM32C0的adc精度可以达到多少?
    发表于 06-05 07:53

    直线度测量仪的精度如何评估?

    关键字:直线度测量仪,直线度评估,直线度检测,直线度校准 直线度测量仪的精度的评估是一个综合性的过程,主要可以从以下几个方面进行: 一、直接测量与对比验证 1.标准件测试:使用已知直线度误差的标准件
    发表于 04-21 16:26

    锂电池外壳气密性检测仪的检测精度可以达到多少

    锂电池外壳气密性检测仪的检测精度因品牌和型号的不同而有所差异。一些先进的检测仪能够达到非常高的检测精度。例如,某些品牌的锂电池壳体气密性检测仪,其传感器精度
    的头像 发表于 04-17 11:55 ?416次阅读
    锂电池外壳气密性检测仪的检测<b class='flag-5'>精度</b><b class='flag-5'>可以</b><b class='flag-5'>达到</b>多少

    《DNESP32S3使用指南-IDF版_V1.6》第六十章 猫检测实验

    第六十章 猫检测实验 猫检测与人脸检测一样,也是基于数字图像中查找和识别猫。本章,我们使用乐鑫AI库来实现猫检测功能。本章分为如下几
    发表于 04-01 09:28

    兼容SiTime,国产温晶振应用于高精度电子定位器

    兼容SiTime,国产温晶振应用于高精度电子定位器
    的头像 发表于 03-10 09:56 ?447次阅读
    兼容SiTime,国产温<b class='flag-5'>补</b>晶振应用于高<b class='flag-5'>精度</b>电子定位器

    电伪迹系列之电伪迹处理与技术剖析

    在上一篇系列文章中了解到,电信号反映大脑神经元活动,在神经科学研究、临床诊断、机接口等领域应用广泛。但电信号幅值微弱极易受伪迹干扰。这些伪迹降低信号信噪比,增加数据变异性,导致实验结果
    的头像 发表于 03-04 20:24 ?1136次阅读
    <b class='flag-5'>脑</b>电伪迹系列之<b class='flag-5'>脑</b>电伪迹处理与技术剖析

    影响OTDR测试结果的因素

    测试参数设置 1.1 脉冲宽度 OTDR的脉冲宽度决定了测试的动态范围和分辨率。较短的脉冲宽度可以提供更高的分辨率,但会降低动态范围;而较长的脉冲宽度则相反。因此,选择合适的脉冲宽度对于获得准确的
    的头像 发表于 12-31 09:22 ?1131次阅读

    直线电机的精度达到多少?和重复定位精度一样吗

    直线电机是目前精度非常高的一种电机,精度越高,停止的实际位置与要求位置之间的误差值越小,那么直线电机的精度达到多少?一般来说,直线电机可以
    的头像 发表于 12-05 16:01 ?1952次阅读

    ESD HBM测试差异较大的结果分析

    ESD HBM测试结果差异较大的原因,通常包括设备/仪器差异、?校准和维护水平不同、?环境条件差异、?测试样本差异、?测试操作员技能和经验差异以及
    的头像 发表于 11-18 15:17 ?1353次阅读
    ESD HBM<b class='flag-5'>测试</b>差异较大的<b class='flag-5'>结果</b>分析

    使用ADS1299进行电信号采集时采集不到电信号,怎么解决?

    您好!我这边在使用ADS1299进行电信号采集时采集不到电信号,用信号发生器进行测试,能采集到0.5uV左右的正弦波,文档中是该芯片的原理图和电极连接方式说明,请问是否有问题?还麻烦指教,谢谢!
    发表于 11-13 06:52

    “元企智”EPAI:企业AI应用从“手工作坊”到“工厂高精产线”

    消灭“节后综合症”,“元企智”EPAI为职场人送出AI助攻
    的头像 发表于 10-09 15:33 ?2574次阅读
    “元<b class='flag-5'>脑</b>企智”EPAI:企业<b class='flag-5'>AI</b>应用从“手工作坊”到“工厂高精产线”

    使用LMH7322测量脉冲占空比,误差精度达到0.1怎么改进?

    上图是我用 LMH7322 高速比较器 测试占空比时输出的波形 ,测试频率为:100HZ---5MHZ,误差精度达到 0.1 ,未能达到
    发表于 08-30 07:44

    视觉检测精度达到 0.01 吗

    在现代工业生产和质量控制领域,视觉检测技术因其高效、非接触式测量等优势而备受青睐。然而,对于许多对精度要求极高的应用场景,一个关键的问题是:视觉检测精度能否达到 0.01级别?研讯科技旗下分公司苏州
    的头像 发表于 08-22 11:20 ?674次阅读
    视觉检测<b class='flag-5'>精度</b>能<b class='flag-5'>达到</b> 0.01 吗