0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TikTok引入前谷歌VideoPoet负责人蒋路,发力AI视频生成

甲子光年 ? 来源:甲子发现 ? 2024-02-22 13:36 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

独家获悉,谷歌高级科学家、卡内基梅隆大学(CMU)计算机学院兼职教授蒋路,已经加入TikTok。

蒋路是谷歌 VideoPoet 项目负责人,VideoPoet 是谷歌在 2023 年 12 月推出的视频生成大模型,类似 OpenAI 刚刚发布的 Sora。

近期,昆仑万维创始人周亚辉在朋友圈表示,有个论文的作者加入字节北美做Tech Leader,正是指《VideoPoet: A large language model for zero-shot video generation》论文的作者蒋路。

资料显示,蒋路先后在西安交通大学、布鲁塞尔自由大学、卡内基梅隆大学学习计算机,并先后进入微软亚洲研究院、谷歌研究院、雅虎研究院实习。

2017 年,蒋路毕业后加入谷歌。他是谷歌云 AI 的创始成员,也是李佳博士和李飞飞博士首次聘请的研究员。此后,蒋路进入谷歌研究院工作。

蒋路的研究曾被应用到谷歌多个产品,如 YouTube、云服务、云 AutoML、广告、Waymo 和翻译服务,影响了全球数十亿用户的日常生活。

蒋路的工作在自然语言处理(ACL)和计算机视觉(CVPR)的顶级会议上被提名为最佳论文。他是研究社区的活跃成员,担任美国国家种子基金(NSF SBIR)的 AI 评审专家,并定期担任 CVPR、ICCV、NeurlPS、ACM Multimedia 和 AAAI 等著名会议的领域主席。

蒋路的研究兴趣主要在多媒体交叉领域,他专注于生成式 AI 和视频创作。2019 年起,他就开始尝试将 Transformer 用在图像、视频生成研究上。

与 Sora 采用的 Diffusion + Transformer 架构不同,蒋路负责的 VideoPoet 视频生成模型采用了单 Transformer 架构,可以将任何自回归语言模型或大型语言模型转换为高质量的视频生成器,支持生成方形或纵向视频,以针对短格式内容定制生成视频,并支持视频输入生成音频

VideoPoet 采用了名为 Tokenizer 的数据处理技术,可以将视频和音频片段编码为离散标记序列(discrete tokens),这些标记也可以被转换回原始表示。其中,视频和图像数据使用名为 MAGVIT V2 的技术,音频数据使用 SoundStream 的技术。

VideoPoet 通过使用多个 Tokenizer 训练一个自回归语言模型,以学习跨视频、图像、音频和文本模态。一旦模型根据某些上下文生成了标记,这些标记就可以通过分词器解码器转换回可查看的表示。

fe1ad37c-d143-11ee-a297-92fbcf53809c.png

3 周前,蒋路本人在职场社交平台宣布了自己在谷歌的 Last Day,并特别表示对在谷歌所做的视频生成项目(VideoPoet,MAGVIT,WALT等)感到自豪。

蒋路表示自己将继续留在湾区,开始视频生成领域的新旅程。现在来看,新的旅程就是 TikTok。

值得一提的是,字节跳动已经在大模型领域全面布局,模型层推出了自研的「云雀大模型」以及类 ChatGPT 对话机器人产品豆包。2023 年底,字节跳动成立新的 AI 应用部门 Flow,并在海外推出了 Coze 等多款产品。抖音集团 CEO 张楠也于近期卸任,专注于 AI 工具剪映的发展。

字节跳动近期辟谣了推出中文版 Sora,并表示:“还无法完善产品落地,距离国外模型有很大差距。”但另一方面,字节跳动正在大力招揽人才。

大模型战场,字节跳动将会如何搅局?




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    29939

    浏览量

    214421
  • 计算机视觉
    +关注

    关注

    9

    文章

    1711

    浏览量

    46953
  • OpenAI
    +关注

    关注

    9

    文章

    1220

    浏览量

    9089
  • TikTok
    +关注

    关注

    2

    文章

    226

    浏览量

    7941

原文标题:独家:TikTok引入前谷歌VideoPoet负责人蒋路,发力AI视频生成|甲子光年

文章出处:【微信号:jazzyear,微信公众号:甲子光年】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    美国AI事务负责人警告:中国半导体设计能力最多只落后两年!

    白宫掌管加密货币和AI事务的负责人萨克斯(David Sacks)接受媒体访问时警告,中国半导体设计能力最多只落后美国两年。 萨克斯受访时指出,从DeepSeek年初推出突破性的AI模型,证明即使
    的头像 发表于 06-20 16:37 ?359次阅读

    4K、多模态、长视频AI视频生成的下一个战场,谁在领跑?

    电子发烧友网报道(文/李弯弯) 6月11日,豆包App上线视频生成模型豆包Seedance 1.0 pro。这是字节跳动最新视频模型,支持文字与图片输入,可生成多镜头无缝切换的1080P高品质
    的头像 发表于 06-16 00:13 ?6550次阅读

    AI Agent 应用与项目实战》----- 学习如何开发视频应用

    开发一个视频内容生成Agent。 访问语聚AI平台官网 ,进行注册或登录。 在平台首页,了解语聚AI的功能和应用场景,特别是其支持的视频生成
    发表于 03-05 19:52

    谷歌印度公共政策负责人Sreenivasa Reddy辞职

    印度公司担任高管职务,拥有丰富的行业经验和卓越的领导能力。他于2023年9月加入谷歌,担任印度公共政策负责人,致力于推动谷歌在印度市场的业务发展。 印度作为谷歌的关键增长市场之一,一直
    的头像 发表于 02-14 09:46 ?379次阅读

    字节跳动即将推出多模态视频生成模型OmniHuman

    一条完整的AI视频。 据即梦AI相关负责人透露,OmniHuman模型在研发过程中融入了前沿的人工智能技术,通过复杂的算法和深度学习机制,实现了图片与音频的精准匹配和
    的头像 发表于 02-08 10:53 ?841次阅读

    阿里云通义万相2.1视频生成模型震撼发布

    近日,阿里云旗下的通义万相迎来了重要升级,正式推出了全新的万相2.1视频生成模型。这一创新成果标志着阿里云在视频生成技术领域的又一次重大突破。 据悉,万相2.1视频生成模型在多个方面实现了显著提升
    的头像 发表于 01-13 10:00 ?886次阅读

    字节TikTok算法负责人陈志杰或离职创业

    近日,从多位知情人士处获得的消息显示,字节跳动旗下TikTok的算法负责人陈志杰可能在近期离职。这一消息引发了业界的广泛关注。 据了解,陈志杰在字节跳动期间,以其卓越的算法能力和对技术的深刻理解,为
    的头像 发表于 12-25 10:39 ?1025次阅读

    OpenAI推出AI视频生成模型Sora

    近日,备受期待的OpenAI再次推出了其创新之作——AI视频生成模型Sora。这一新品的发布,无疑为AI技术注入了新的活力。 据悉,Sora与OpenAI旗下的AI工具DALL-E有着
    的头像 发表于 12-12 09:40 ?792次阅读

    OpenAI开放Sora视频生成模型

    OpenAI近日宣布,其倾力打造的人工智能视频生成系统Sora已正式向美国及其他市场的ChatGPT Plus订阅用户开放。自去年首次公开预览以来,Sora历经约10个月的精心研发与优化,现已全面
    的头像 发表于 12-10 11:16 ?805次阅读

    三星芯片部门任命新负责人

    三星电子近期进行了一些管理层调整,三星芯片业务的负责人进行了调整: 以前负责半导体及设备解决方案(DS)部门的负责人、公司副董事长Jun Young-hyun将调任三星联合首席执行官,同时负责
    的头像 发表于 11-28 14:14 ?594次阅读

    字节跳动自研视频生成模型Seaweed开放

    近日,字节跳动旗下的AI内容平台即梦AI传来新消息,宣布自研的视频生成模型Seaweed即日起正式面向平台用户开放使用。这一举措标志着字节跳动在AI
    的头像 发表于 11-11 14:31 ?781次阅读

    今日看点丨Vishay裁员800人,关闭上海等三家工厂;字节跳动发布两款视频生成大模型

    1. 字节跳动发布两款视频生成大模型 面向企业市场开启邀测 ? 9月24日,字节跳动旗下火山引擎发布两款视频生成大模型(豆包视频生成-PixelDance、豆包视频生成-Seaweed
    发表于 09-25 15:48 ?987次阅读

    火山引擎推出豆包·视频生成模型

    在近期举办的2024火山引擎AI创新巡展上,火山引擎总裁谭待隆重推出了豆包·视频生成模型,这一举措标志着火山引擎在视频内容生成领域迈出了重要一步。豆包模型凭借其独特的技术优势,吸引了业
    的头像 发表于 09-25 14:11 ?696次阅读

    OpenAI硬件负责人热议AI基础设施扩展与节能方案

    在近日于斯坦福大学举办的Hot Chips 2024大会上,OpenAI的硬件设施负责人Trevor Cai发表了一场深入人心的演讲,其核心聚焦于“构建可扩展的AI基础设施”。Trevor Cai
    的头像 发表于 09-02 16:20 ?961次阅读

    谷歌任命原Character.AI首席执行官为Gemini联合技术负责人

    近日,谷歌宣布了一项重要人事任命,原Character.AI的联合创始人兼首席执行官诺姆·沙泽尔(Noam Shazeer)已重返谷歌,并将担任其人工智能新项目“Gemini”的联合技术负责人
    的头像 发表于 08-26 11:06 ?868次阅读