0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种AI算法,可以根据说话声音来预测说话人将作出怎样的肢体动作

DPVg_AI_era ? 来源:lq ? 2019-06-23 09:27 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来自UC Berkeley和MIT的研究人员开发了一种AI算法,可以根据说话声音来预测说话人将作出怎样的肢体动作。所预测的动作十分自然、流畅,本文带来技术解读。

人在说话的时候,常常伴随着身体动作,不管是像睁大眼睛这样细微的动作,还是像手舞足蹈这样夸张的动作。

最近,来自UC Berkeley和MIT的研究人员开发了一种AI算法,可以根据说话声音来预测说话人将作出怎样的肢体动作。

研究人员称,只需要音频语音输入,AI就能生成与声音一致的手势。具体来说,他们进行的是人的独白到手势和手臂动作的“跨模态转换”(cross-modal translation)。相关论文发表在CVPR 2019上。

研究人员收集了10个人144小时的演讲视频,其中包括一名修女、一名化学教师和5名电视节目主持人(Conan O’Brien, Ellen DeGeneres, John Oliver, Jon Stewart, 以及Seth Meyers)。

演讲视频数据集

他们使用现有的算法生成代表说话者手臂和手位置的骨架图形。然后他们用这些数据训练了自己的算法,这样AI就可以根据说话者的新音频来预测手势。

图1:从语音到手势的转换的示例结果。由下往上:输入音频、由我们的模型预测的手臂和手的姿态,以及由Caroline Chan等人在“Everybody Dance Now”论文中提出的方法合成的视频片段。

研究人员表示,在定量比较中,生成的手势比从同一说话者者随机选择的手势更接近现实,也比从一种不同类型的算法预测的手势更接近现实。

图2:特定于说话者的手势数据集

说话者的手势也是独特的,对一个人进行训练并预测另一个人的手势并不奏效。将预测到的手势输入到现有的图像生成算法中,可以生成半真实的视频。

研究团队表示,他们的下一步是不仅根据声音,还根据文字稿来预测手势。该研究潜在的应用包括创建动画角色、动作自如的机器人,或者识别假视频中人的动作。

为了支持对手势和语音之间关系的计算理解的研究,他们还发布了一个大型的个人特定手势视频数据集。

方法详解:两阶段从语音预测视频

给定原始语音,我们的目标是生成说话者相应的手臂和手势动作。

我们分两个阶段来完成这项任务——首先,由于我们用于训练的唯一信号是相应的音频和姿势检测序列,因此我们使用L1回归到2D关键点的序列堆栈来学习从语音到手势的映射。

其次,为了避免回归到所有可能的手势模式的平均值,我们使用了一个对抗性鉴别器,以确保产生的动作相对于说话者的典型动作是可信的。

任何逼真的手势动作都必须在时间上连贯流畅。我们通过学习表示整个话语的音频编码来实现流畅性,该编码考虑了输入语音的完整时间范围s,并一次性(而不是递归地)预测相应姿势的整个时间序列p。

我们的完全卷积网络由一个音频编码器和一个1D UNet转换架构组成的,如图3所示。

图3:语音到手势的翻译模型。

一个 convolutional audio encoder对2D谱图进行采样并将其转换为1D信号。然后,平移模型G预测相应的2D姿势序列堆栈。对真实数据姿势的L1回归提供了一个训练信号,而一个对抗性辨别器D则确保预测的动作既具有时间一致性,又符合说话者的风格。

我们使用UNet架构进行转换,因为它的bottleneck为网络提供了过去和未来的时间上下文,而skip connections允许高频时间信息通过,从而能够预测快速移动。

定量和定性结果

图4:我们训练过的模型是特定于人的。对于每个说话者的音频输入(行),我们应用所有其他单独训练的说话者模型(列)。颜色饱和度对应于待测集上的L1损耗值(越低越好)。对于每一行,对角线上的项都是颜色最浅的,因为模型使用训练对象的输入语音效果最好。

表1:在测试集上使用L1损失的语音到手势转换任务的定量结果(越低越好)

图5:语音到手势转换的定性结果。我们展示了Dr. Kubinec(讲师)和Conan O’Brien(节目主持人)的输入音频频谱图和预测手势。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音
    +关注

    关注

    3

    文章

    400

    浏览量

    38771
  • 鉴别器
    +关注

    关注

    0

    文章

    8

    浏览量

    8833
  • AI算法
    +关注

    关注

    0

    文章

    263

    浏览量

    12723

原文标题:你说话时的肢体动作,AI仅凭声音就能预测 | CVPR 2019

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    艾为芯×AI大模型重塑会思考的电子玩伴

    图1会说话的汤姆猫AI浪潮的掀起带动了场关于童年陪伴的智能进化。AI童伴——会说话的汤姆猫,正引领着童年陪伴的全新变革。汤姆猫能够与孩子进
    的头像 发表于 05-19 18:38 ?294次阅读
    艾为芯×<b class='flag-5'>AI</b>大模型重塑会思考的电子玩伴

    光伏智慧运维系统让电站自己说话和思考

    ?????? 光伏智慧运维系统让电站自己说话和思考 ?????? 太阳能电站就像个大家族,由成千上万块太阳能板、逆变器、线路等组成。过去,要管理这么大的家族,只能靠人工每天去现场检查,效率低还容易
    的头像 发表于 03-27 17:01 ?365次阅读
    光伏智慧运维系统让电站自己<b class='flag-5'>说话</b>和思考

    AI算法托管平台是什么

    AI算法托管平台是一种提供AI模型运行、管理和优化等服务的云端或边缘计算平台。下面,AI部落小编带您详细了解
    的头像 发表于 03-06 10:22 ?427次阅读

    AI Agent 应用与项目实战》----- 学习如何开发视频应用

    再次感谢发烧友提供的阅读体验活动。本期跟随《AI Agent 应用与项目实战》这本书学习如何构建开发个视频应用。AI Agent是一种智能应用,能够
    发表于 03-05 19:52

    FPGA+AI王炸组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......

    ,由大量的逻辑门和触发器组成,可以通过编程定制其功能和连接。FPGA的灵活性和高性能使其在多个领域得到了广泛应用。 1.FPGA的定义 FPGA是一种集成电路,可以在制造后由用户通
    发表于 03-03 11:21

    AI赋能边缘网关:开启智能时代的新蓝海

    ,准确率达到99.9%。 这技术革新正在创造巨大的商业价值。在智慧城市领域,AI边缘网关可以实现交通流量实时分析、违章行为智能识别;在工业互联网中,能够实现设备预测性维护、生产工艺优
    发表于 02-15 11:41

    名单公布!【书籍评测活动NO.55】AI Agent应用与项目实战

    出来,当前的AI Agent并不仅仅是简单的对话机器根据固定流程的自动化程序,而是成为了一种能够自主完成任务的智能体,它正在迅速改变人类的工作和生活方式。其核心特性包括自主性、学习
    发表于 01-13 11:04

    中国移动与南京大学合作研发高保真2D数字说话系统

    近日,中国移动宣布了项重要合作成果——联合南京大学团队成功研发出高保真2D数字说话驱动系统。 作为全球用户规模最大的通信运营商,中国移动每年的客户服务运营成本居高不下。尽管智能语音客服已得到
    的头像 发表于 12-13 11:32 ?1135次阅读

    将AIC33的DIN和DOUT脚用短路的方式实现自环时,说话声音稍微大点的时候,会在声音上叠加个“噼啪”声,为什么?

    我将AIC33的DIN和DOUT脚用短路的方式实现自环时,说话声音稍微大点的时候,会在声音上叠加个“噼啪”声,或则用嘴向MIC连续吹气,自环后听到的
    发表于 11-07 07:42

    将TPA31102D2板的音频输入与SPEAKER芯片连接时,说话声很小失真很厉害,为什么?

    直接将TPA31102D2板的音频输入与PC机耳机口连接,音质很好,听不出什么失真,但是我将TPA31102D2板的音频输入与SPEAKER芯片连接时发现背景音乐声音很清晰如振铃还有就是歌曲的乐器声,但是说话声很小失真很厉害,想问下这个是不是他的speaker输出滤波了导
    发表于 11-07 06:01

    一种创新的动态轨迹预测方法

    本文提出了一种动态轨迹预测方法,通过结合历史帧和历史预测结果提高预测的稳定性和准确性。它引入了历史预测
    的头像 发表于 10-28 14:34 ?1149次阅读
    <b class='flag-5'>一种</b>创新的动态轨迹<b class='flag-5'>预测</b>方法

    可以个TLV320AIC3101的输入与输出端口的左右声道分开使用吗?

    ,然后同时说话,想分别获取这两组声音数据。 2.音频回放也分开左右声道,两个应用程序分别播放不同的内容。 请问能否实现?在哪作出改动更好?如何解决ALSA设备独占的问题? 感谢!
    发表于 10-24 07:47

    TLV3254能不能收听到半径8到10米的人说话声音

    能不能收听到半径8到10米的人说话声音,信噪比实在太低了,远处的听不清,增益缩小了又听不到的远处的声音?
    发表于 10-24 06:34

    BitEnergy AI公司开发出一种AI处理方法

    BitEnergy AI公司,家专注于人工智能(AI)推理技术的企业,其工程师团队创新性地开发了一种名为线性复杂度乘法(L-Mul)的AI
    的头像 发表于 10-22 15:15 ?874次阅读

    2024年芯片行业有多难?用数据说话

    2024年芯片行业有多难?用数据说话
    的头像 发表于 08-10 18:20 ?5986次阅读