0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

设计非对称式互信息估计器减少音频向视频模态表达的不确定性

牵手一起梦 ? 来源:中科院自动化 ? 作者:佚名 ? 2020-05-09 14:51 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着近年来音视频生成技术的不断发展,“虚拟主播”逐渐走入人们视野,并以其在虚拟客服、远程会议、电影剪辑等现实应用场景中的重要作用而获得了社会各界的广泛关注。该技术旨在对输入的音频预测相应口型,从而生成指定或任意人物的自然而准确的面部说话视频。近日,中科院自动化所智能感知与计算研究中心为此提出了一种新颖的音视频协同计算方法,并重点解决了此前难以达成的任意人物协同生成问题。

该方法一方面实现了利用语音驱动任意对象的高清视频生成,另一方面在正脸、侧脸等多种场景下均显著提升了生成视频质量。目前,该成果已被IJCAI 2020大会接收。

由于音视频模态之间差异性等问题,这项技术目前仍然存在着众多挑战。以往的研究方法往往将重点放在了模态内之间,如只关注了视频帧之间的损失约束,却忽略了音视频模态间最重要的问题之一:如何将音频信息高效充分地表达入视频模态?同时由于人物与人物之间的个体差异,将同一模型应用于任意人物视频生成也存在较大的挑战。

为解决上述问题,团队精心设计了一个非对称式互信息估计器(Asymmetric Mutual Information Estimator, AMIE),以构建音视频模态间的约束。如图1示,输入一对音频与人脸图像数据,互信息估计器输出预测的互信息值。在这里,该方法使用Jensen-Shannon表示形式来改善互信息计算方式,使其更好地应用于神经网络。通过这样的互信息估计方式,该方法最大化音频与视频模态之间的互信息,减少音频向视频模态表达的不确定性,并以此获得音频和视频信息之间的跨模态一致性,使得生成视频中人物的口型更加准确自然。

设计非对称式互信息估计器减少音频向视频模态表达的不确定性

该方法在LRW和GRID基础数据集上进行了实验验证。图2中的结果表明该方法生成的口型准确度高,且能够有效适应不同肤色与嘴唇形状差异。表1的量化结果显示该方法在常用的对比指标上的优越性能。

该方法有能力对不存在于数据集中的任意人物进行视频合成,并能够有效处理如姿态表情、性别差异等变化因素(见图3)。例如,输入一段女性语音(图中第二行),该方法分别生成了现实场景的同性别人脸视频(图中第一行),和跨性别人脸视频(图中第三行)。

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 音频
    +关注

    关注

    30

    文章

    3063

    浏览量

    83766
  • 神经网络
    +关注

    关注

    42

    文章

    4814

    浏览量

    104522
  • 视频
    +关注

    关注

    6

    文章

    1977

    浏览量

    74137
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何在 MA35 系列微处理 (MPU) 上开发 AMP(非对称多处理)应用程序?

    如何在 MA35 系列微处理 (MPU) 上开发 AMP(非对称多处理)应用程序,并通过建立多个端点的过程促进与其他内核的多通道数据传输。
    发表于 08-19 06:11

    康谋分享 | 基于多传感数据的自动驾驶仿真确定性验证

    自动驾驶仿真测试中,游戏引擎的底层架构可能会带来非确定性的问题,侵蚀测试可信度。如何通过专业仿真平台,在多传感配置与极端天气场景中实现测试数据零差异?确定性验证方案已成为自动驾驶研发的关键突破口!
    的头像 发表于 07-02 13:17 ?3641次阅读
    康谋分享 | 基于多传感<b class='flag-5'>器</b>数据的自动驾驶仿真<b class='flag-5'>确定性</b>验证

    应用分享 | 精准生成和时序控制!AWG在确定性三量子比特纠缠光子源中的应用

    丹麦哥本哈根大学最新研究利用任意波形发生(AWG),成功构建保真度56%的确定性三量子比特GHZ态!AWG凭借精准的信号生成和时序控制能力,充分展现了其在量子态操控中的强大能力。
    的头像 发表于 06-06 14:06 ?641次阅读
    应用分享 | 精准生成和时序控制!AWG在<b class='flag-5'>确定性</b>三量子比特纠缠光子源中的应用

    从科幻到现实:智能家居如何重塑我们的生活方式?

    随着城市化和经济不确定性加剧,智能家居市场快速增长,预计未来几年将改变。
    的头像 发表于 05-28 09:36 ?229次阅读
    从科幻到现实:智能家居如何重塑我们的生活方式?

    请问OpenVINO?工具套件是否支持使用非对称卷积的支持模型?

    无法确定使用非对称卷积的模型是否受 OpenVINO? Toolkit 的支持
    发表于 03-06 07:58

    优刻得:与DeepSeek模型适配,业绩贡献存不确定性

    全系列模型的适配工作。然而,目前相关业务的效果以及对公司未来业绩的具体贡献仍存在重大不确定性。 同时,经公司核实,截至公告披露日,优刻得并未直接或间接持有杭州深度求索人工智能基础技术研究有限公司的股权。这意味着,尽管双方已展开合作
    的头像 发表于 02-07 10:37 ?783次阅读

    “国产双系统”出炉!复旦微FMQL20SM非对称AMP:Linux + 裸机

    Linux + RTOS/裸机,但需一个主核心来控制整个系统以及其它从核心。每个处理核心相互隔离,拥有属于自己的内存,既可各自独立运行不同的任务,又可多个核心之间进行核间通信。 图 1 FMQL20SM AMP异构多核框架示意图 “非对称 AMP” 对工业的重大意义 更
    的头像 发表于 01-24 13:46 ?727次阅读
    “国产双系统”出炉!复旦微FMQL20SM<b class='flag-5'>非对称</b>AMP:Linux + 裸机

    AFE5808A串并变换之后数据错位,输出结果具有不确定性,为什么?

    AFE5808A串并变换之后数据错位,输出结果具有不确定性,求问可能的原因有哪些?
    发表于 01-01 07:23

    全球首张!赛思时钟系统赋能山东省确定性网络,夯实数字未来新基座

    全球首张确定性网络的高精度时间同步,由赛思打造!
    的头像 发表于 11-29 11:13 ?730次阅读
    全球首张!赛思时钟系统赋能山东省<b class='flag-5'>确定性</b>网络,夯实数字未来新基座

    “双系统”出炉!瑞芯微RK3562J非对称AMP:Linux+RTOS/裸机

    非对称AMP”双系统的应用领域 随着对嵌入系统要求的不断提高,非对称AMP架构如今已成为一种新选择,主要应用于工业领域,如工业PLC、运动控制、机器人控制
    发表于 11-21 16:44

    科技云报到:数字化转型,从不确定性确定性的关键路径

    科技云报到:数字化转型,从不确定性确定性的关键路径
    的头像 发表于 11-16 16:52 ?823次阅读
    科技云报到:数字化转型,从<b class='flag-5'>不确定性</b>到<b class='flag-5'>确定性</b>的关键路径

    对称多处理器非对称多处理器的区别

    (Symmetric Multi-Processing,简称SMP)和非对称多处理器(Asymmetric Multi-Processing,简称AMP)。这两种架构在设计理念、资源管理、任务分配和性能优化等方面存在显著差异。 对称多处理器(SMP) 定义
    的头像 发表于 10-10 15:58 ?2361次阅读

    计及多重不确定性的规模化电动汽车接入配电网调度方法及解决方案

    摘要:规模日益增长的电动汽车和可再生能源带来的不确定性给配电网的安全运营带来了严峻挑战。为综合考虑多重不确定性、平衡运营成本与系统可靠性,首先,提出一种基于分布鲁棒联合机会约束的电动汽车-配电网
    的头像 发表于 09-14 15:26 ?1030次阅读
    计及多重<b class='flag-5'>不确定性</b>的规模化电动汽车接入配电网调度方法及解决方案

    破局不确定性,SENSOR CHINA 2024解锁产业发展新机遇

    2023年,随着经济逐步复苏,多元智能化终端的爆发式增长,推动全球传感市场规模高达1929.7亿美元,增速显著回升。延续这波增长势头,全球传感市场有望保持增长势头,其中,亚太地区的增速将领跑全球
    发表于 09-04 15:00 ?357次阅读
    破局<b class='flag-5'>不确定性</b>,SENSOR CHINA 2024解锁产业发展新机遇

    请问高频放大器用非对称电源供电会有什么影响?

    高频放大器用非对称电源供电会有什么影响?
    发表于 08-29 06:22