0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌研究人员利用3D卷积网络打造视频生成新系统

DPVg_AI_era ? 来源:lq ? 2019-06-02 09:30 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

谷歌研究人员利用3D卷积网络打造视频生成新系统,只需要视频的第一帧和最后一帧,就能生成完整合理的整段视频,是不是很神奇?

漫画书秒变动画片了解一下?

想象一下,现在你的手中有一段视频的第一帧和最后一帧图像,让你负责把中间的图像填进去,生成完整的视频,从现有的有限信息中推断出整个视频。你能做到吗?

这可能听起来像是一项不可能完成的任务,但谷歌人工智能研究部门的研究人员已经开发出一种新系统,可以由视频第一帧和最后一帧生成“似是而非的”视频序列,这个过程被称为“inbetween”。

“想象一下,如果我们能够教一个智能系统来将漫画自动变成动画,会是什么样子?如果真实现了这一点,无疑将彻底改变动画产业。“该论文的共同作者写道。“虽然这种极其节省劳动力的能力仍然超出目前最先进的水平,但计算机视觉机器学习技术的进步正在使这个目标的实现越来越接近。”

原理与模型结构

这套AI系统包括一个完全卷积模型,这是是受动物视觉皮层启发打造的深度神经网络,最常用于分析视觉图像。它由三个部分组成:2D卷积图像解码器,3D卷积潜在表示生成器,以及视频生成器。

图1:视频生成模型示意图

图像解码器将来自目标视频的帧映射到潜在空间,潜在表示生成器学习对包含在输入帧中的信息进行合并。最后,视频生成器将潜在表示解码为视频中的帧。

研究人员表示,将潜在表示生成与视频解码分离对于成功实现中间视频至关重要,直接用开始帧和结束帧的编码表示生成视频的结果很差。为了解决这个问题,研究人员设计了潜在表示生成器,对帧的表示进行融合,并逐步增加生成视频的分辨率。

图2:模型生成的视频帧序列图,对于每个数据集上方的图表示模型生成的序列,下方为原视频,其中首帧和尾帧用于生成模型的采样。

实验结果

为了验证该方法,研究人员从三个数据集中获取视频 - BAIR机器人推送,KTH动作数据库和UCF101动作识别数据集 - 并将这些数据下采样至64 x 64像素的分辨率。每个样本总共包含16帧,其中的14帧由AI系统负责生成。

研究人员为每对视频帧运行100次模型,并对每个模型变量和数据集重复10次,在英伟达Tesla V100显卡平台上的训练时间约为5天。结果如下表所示:

表1:我们报告了完整模型和两个基线的平均FVD,对每个模型和数据集重复10次,每次运行100个epoch,表中FVD值越低,表示对应生成视频的质量越高。

表2:使用直接3D卷积和基于的替代方法的模型的平均SSIM

RNN(SDVI)或光流(SepConv和SuperSloMo),数值越高越好。

研究人员表示,AI生成的视频帧序列在风格上与给定的起始帧和结束帧保持一致,而且看上去说得通。“令人惊喜的是,这种方法可以在如此长的时间段内实现视频生成,”该团队表示,“这可能给未来的视频生成技术研究提供了一个有用的替代视角。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1191

    浏览量

    42159
  • 谷歌
    +关注

    关注

    27

    文章

    6233

    浏览量

    108568
  • 智能系统
    +关注

    关注

    2

    文章

    408

    浏览量

    73422

原文标题:谷歌AI动画接龙:只用头尾两帧图像,片刻生成完整视频!

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    4K、多模态、长视频:AI视频生成的下一个战场,谁在领跑?

    电子发烧友网报道(文/李弯弯) 6月11日,豆包App上线视频生成模型豆包Seedance 1.0 pro。这是字节跳动最新视频模型,支持文字与图片输入,可生成多镜头无缝切换的1080P高品质
    的头像 发表于 06-16 00:13 ?6550次阅读

    NVIDIA助力影眸科技3D生成工具Rodin升级

    在当今数字化与 AI 飞速发展的时代,3D 生成技术正逐渐成为推动各行业创新的关键力量。影眸科技(上海)有限公司专注于 3D 生成领域的探索,积极推动领先实验室科研成果的民用化、商业化
    的头像 发表于 04-27 15:09 ?642次阅读

    ?超景深3D检测显微镜技术解析

    为一个完整的三维模型。这种技术不仅提升了成像的精度,还大大扩展了显微镜的应用范围。 在材料科学领域,超景深3D检测显微镜为研究人员提供了观察材料微观结构的强大工具。例如,在纳米材料的研究中,科学家可以
    发表于 02-25 10:51

    腾讯混元3D AI创作引擎正式上线

    近日,腾讯公司宣布其自主研发的混元3D AI创作引擎已正式上线。这一创新性的创作工具,标志着腾讯在3D内容生成领域迈出了重要一步。 混元3D AI创作引擎的核心功能极为强大,用户只需通
    的头像 发表于 01-22 10:26 ?681次阅读

    阿里云通义万相2.1视频生成模型震撼发布

    近日,阿里云旗下的通义万相迎来了重要升级,正式推出了全新的万相2.1视频生成模型。这一创新成果标志着阿里云在视频生成技术领域的又一次重大突破。 据悉,万相2.1视频生成模型在多个方面实现了显著提升
    的头像 发表于 01-13 10:00 ?886次阅读

    OpenAI暂不推出Sora视频生成模型API

    OpenAI近日宣布,目前暂无推出其视频生成模型Sora的应用程序接口(API)的计划。Sora模型能够基于文本和图像生成视频,引发了广泛关注。然而,由于访问量远超预期,OpenAI此前不得不紧急
    的头像 发表于 12-20 14:23 ?600次阅读

    中国电信发布自研视频生成大模型

    ,中国电信隆重发布了首个由央企全自研的视频生成大模型。该模型采用了创新的“VAST(Video As Storyboard from Text)二阶段视频生成技术”,实现了从文本描述到视频内容的无缝转化。具体来说,该技术首先通过
    的头像 发表于 12-13 15:40 ?612次阅读

    OpenAI推出AI视频生成模型Sora

    近日,备受期待的OpenAI再次推出了其创新之作——AI视频生成模型Sora。这一新品的发布,无疑为AI技术注入了新的活力。 据悉,Sora与OpenAI旗下的AI工具DALL-E有着异曲同工之妙
    的头像 发表于 12-12 09:40 ?793次阅读

    OpenAI开放Sora视频生成模型

    OpenAI近日宣布,其倾力打造的人工智能视频生成系统Sora已正式向美国及其他市场的ChatGPT Plus订阅用户开放。自去年首次公开预览以来,Sora历经约10个月的精心研发与优化,现已全面
    的头像 发表于 12-10 11:16 ?805次阅读

    Google DeepMind发布Genie 2:打造交互式3D虚拟世界

    的交互式体验。 据了解,Genie 2是一个自回归潜在扩散模型,它基于大型视频数据集进行训练。通过自动编码器,视频中的潜在帧被传递到大型Transformer动力学模型中。该模型采用与大语言模型类似的因果掩码进行训练,从而实现了对3D
    的头像 发表于 12-05 14:16 ?1192次阅读

    卷积神经网络的实现工具与框架

    卷积神经网络因其在图像和视频处理任务中的卓越性能而广受欢迎。随着深度学习技术的快速发展,多种实现工具和框架应运而生,为研究人员和开发者提供了强大的支持。 TensorFlow 概述
    的头像 发表于 11-15 15:20 ?779次阅读

    字节跳动自研视频生成模型Seaweed开放

    近日,字节跳动旗下的AI内容平台即梦AI传来新消息,宣布自研的视频生成模型Seaweed即日起正式面向平台用户开放使用。这一举措标志着字节跳动在AI视频领域迈出了坚实的一步。
    的头像 发表于 11-11 14:31 ?781次阅读

    今日看点丨Vishay裁员800人,关闭上海等三家工厂;字节跳动发布两款视频生成大模型

    1. 字节跳动发布两款视频生成大模型 面向企业市场开启邀测 ? 9月24日,字节跳动旗下火山引擎发布两款视频生成大模型(豆包视频生成-PixelDance、豆包视频生成-Seaweed
    发表于 09-25 15:48 ?987次阅读

    火山引擎推出豆包·视频生成模型

    在近期举办的2024火山引擎AI创新巡展上,火山引擎总裁谭待隆重推出了豆包·视频生成模型,这一举措标志着火山引擎在视频内容生成领域迈出了重要一步。豆包模型凭借其独特的技术优势,吸引了业界的广泛关注。
    的头像 发表于 09-25 14:11 ?696次阅读

    阿里通义将发布视频生成大模型

    在即将召开的云栖大会上,阿里通义将震撼发布其自主研发的视频生成大模型。目前,用户已可通过通义App频道及通义万相PC端预约体验这一创新功能,尽管具体使用尚未开放。
    的头像 发表于 09-19 17:01 ?658次阅读