0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI使用音频剪辑对与语音匹配的真实感面部建模

倩倩 ? 来源:新经网 ? 2020-04-11 10:40 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

您是否曾经仅仅根据他们的声音来构造一个从未见过的人的心理形象?人工智能AI)现在可以做到这一点,仅使用简短的音频剪辑作为参考即可生成人脸的数字图像。

这个名为“ Speech2Face” 的神经网络(一种以类似于人脑的方式“思考”的计算机)经过科学家培训,接受了来自互联网的数百万个教育视频,显示了100,000多个不同的人在说话。

研究人员在一项新研究中写道,Speech2Face通过该数据集学习了语音提示与人脸某些物理特征之间的关联。然后,AI使用音频剪辑对与语音匹配的真实感面部建模。

值得庆幸的是,人工智能还不能仅仅根据他们的声音确切地知道特定的人是什么样。研究作者报告说,神经网络识别语音中的某些标记,这些标记指向性别,年龄和种族,是许多人共有的特征。

科学家写道:“因此,该模型只会产生看上去普通的面孔。” “它不会产生特定个人的图像。”

尽管坦率地说,对猫的解释有点让人恐惧,但AI已经证明它可以产生出异常准确的人脸。

由Speech2Face生成的脸部-均面向正面并具有中性表情-与声音背后的人并不完全匹配。但是,根据这项研究,这些图像通常确实可以捕捉到正确的年龄范围,种族和性别。

但是,该算法的解释远非完美。当面对语言变化时,Speech2Face表现出“混合表现”。例如,当AI收听亚洲人讲中文的音频片段时,该程序会产生亚洲人脸的图像。然而,据科学家报道,当同一个人用不同的音频片段讲英语时,人工智能产生了白人的面孔。

该算法还显示出性别偏见,将低音调的声音与男性面孔相关联,将高音调的声音与女性面孔相关联。研究人员写道,由于训练数据集仅代表YouTube上的教育视频,因此“并不代表整个世界人口。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数字图像
    +关注

    关注

    2

    文章

    120

    浏览量

    19204
  • 人工智能
    +关注

    关注

    1810

    文章

    49220

    浏览量

    251469
  • 数据集
    +关注

    关注

    4

    文章

    1225

    浏览量

    25630
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    解锁高品质音频体验:探索音频质量评估与测试的科学之道

    高品质音频的科学世界!二、音频质量评估简介语音质量评估就是通过人类或自动化的方法评价语音质量。在实践中,有很多主观和客观的方法评价语音质量。
    发表于 07-22 11:15

    最新人工智能硬件培训AI基础入门学习课程参考2025版(离线AI语音视觉识别篇)

    端侧离线 AI 智能硬件作为 AI 技术的重要载体之一,凭借其无需依赖网络即可实现智能功能的特性,在一些网络条件受限或对数据隐私有较高要求的场景中,发挥着不可或缺的作用。本章基于CSK6大模型语音
    发表于 07-04 11:14

    AI玩具爆发,音频编解码器如何满足语音交互需求

    电子发烧友网综合报道,在AI玩具已经开始逐渐爆发的当下,人机交互已经成为标配功能,而最重要的便是语音控制。而语音控制的第一步,便需要让AI玩具听懂你在说什么这就需要用到
    的头像 发表于 06-20 01:07 ?6487次阅读

    康谋方案 | 高精LiDAR+神经渲染3DGS的完美融合实践

    在自动驾驶仿真测试刚需下,数字孪生成提升保真度关键。本文介绍传统与前沿结合的构建流程,先通过数据采集、点云聚合等完成高精地图重建,再以NeRF+3DGS实现神经网络重建,降本增效,为仿真注入真实感,重塑测试范式。
    的头像 发表于 06-11 13:51 ?1176次阅读
    康谋方案 | 高精LiDAR+神经渲染3DGS的完美融合实践

    90元打造小智AI腕表,语音交互超有趣!

    ,分辨率 240*280,支持触摸。 语音交互:内置麦克风,支持语音唤醒和语音指令。 音频播放:1609 8Ω/1W 喇叭。 外壳设计:智能手表。 锂电池:302535 320mAh,
    发表于 04-16 14:26

    零知开源——ESP32语音交互系统(AI小智)开发教程

    一、功能介绍小智AI聊天机器人是一个基于嵌入式硬件与人工智能技术深度融合的智能交互系统。该项目以ESP32开发板为核心,结合语音唤醒、自然语言处理、音频解码播放及图形化交互界面四大核心模块,实现
    发表于 03-29 16:30

    零知开源——ESP32语音交互系统(AI小智)开发教程

    小智AI聊天机器人是一个基于嵌入式硬件与人工智能技术深度融合的智能交互系统。该项目以ESP32开发板为核心,结合语音唤醒、自然语言处理、音频解码播放及图形化交互界面四大核心模块,实现人机交互功能
    的头像 发表于 03-29 15:33 ?7845次阅读
    零知开源——ESP32<b class='flag-5'>语音</b>交互系统(<b class='flag-5'>AI</b>小智)开发教程

    借助Arm技术革新未来手游体验

    手游正在不断得到重塑。随着内容创作、真实感和沉浸式体验的显著发展,移动设备上的游戏开发和体验方式正在发生快速演变。
    的头像 发表于 03-10 09:17 ?799次阅读

    芯知识 决定语音芯片高音质的因素

    语音芯片高音质因素包括高分辨率音频、低失真高动态范围、高品质音频编解码、深度音频处理及VR/AR音频体验,这些因素共同提升
    的头像 发表于 02-17 14:56 ?370次阅读

    用Reality AI Tools创建模

    在第二步采集到的数据基础之上,用Reality AI Tools创建模型。
    的头像 发表于 01-22 14:23 ?2416次阅读
    用Reality <b class='flag-5'>AI</b> Tools创<b class='flag-5'>建模</b>型

    HarmonyOS NEXT 应用开发练习:AI智能语音播报

    一、DEMO思路 在这个HarmonyOS NEXT原生应用DEMO中,我们将使用ArkTS开发语言创建一个简单的AI智能语音播报应用。 该应用能够接收用户输入的文本,并使用TTS
    发表于 01-06 15:33

    XMOS将亮相CES 2025,展示全新AI音频技术

    带来更加智能、完美、准确和低延时的音频体验。 这些创新技术包括空间音效、语音捕获与降噪、音视频多模态AI处理等,均由XMOS的xcore.ai系列多核控制器提供支持。xcore.
    的头像 发表于 12-13 11:20 ?1650次阅读

    充电桩语音方案,支持OTA语音升级的音频芯片NV400F

    1产品市场随着新能源汽车的普及,充电桩作为其核心配套设施,其智能化、便捷化的需求日益增长。充电桩语音方案,尤其是支持OTA(Over-The-Air)语音升级的音频芯片NV400F,正逐步成为市场上
    的头像 发表于 11-09 01:03 ?919次阅读
    充电桩<b class='flag-5'>语音</b>方案,支持OTA<b class='flag-5'>语音</b>升级的<b class='flag-5'>音频</b>芯片NV400F

    tlv320Ai32在输出音频时总有丝丝声,为什么?

    tlv320Ai32在输出音频时总有丝丝声,即使输出的滤波将噪声调整到90mV以下还是存在。测试发现HPout的噪声有将近480mV 请问这是什么原因,Ai32还有什么寄存器要设置的? 模拟电源的纹波大概60mV,有影响吗?
    发表于 11-05 06:09

    NVH-FLASH语音芯片支持平台做语音—打造音频IC技术革新

    随着科技的飞速发展,人们对于电子产品的音频性能要求越来越高。在这种背景下,NVH-FLASH系列语音芯片应运而生,作为音频IC领域的一次重大技术革新,NVH-FLASH系列语音芯片凭借
    的头像 发表于 10-16 08:02 ?661次阅读
    NVH-FLASH<b class='flag-5'>语音</b>芯片支持平台做<b class='flag-5'>语音</b>—打造<b class='flag-5'>音频</b>IC技术革新