2 月 6 日消息,字节跳动近日发布了一项重大成果 ——OmniHuman 多模态框架,其优势在于其强大的视频生成能力。用户只需提供一张任意尺寸和人物占比的单张图片,再结合一段输入音频,就能生成栩栩如生的人物视频。
与传统 AI 模型不同,OmniHuman-1 能够生成逼真的全身动画,并且可以精准地将手势和面部表情与语音或音乐同步,打破了以往只能生成面部或上半身动画的局限。
基于约 19000 小时的人类运动数据训练,OmniHuman-1 模型支持不同的体型和画面比例,能在内存限制内生成任意长度的视频,并适应不同输入信号,在真实性和准确性方面超越其他同类动画工具。值得一提的是,它还支持卡通角色、人工物体、动物以及复杂姿势的输入,确保生成的动作特征与每种风格的独特特点相匹配。
在实际应用场景中,OmniHuman 潜力巨大。在影视制作领域,创作者能轻松为虚拟角色打造全身动作戏份;虚拟直播里,主播动作更加自然,可增强直播的趣味性与吸引力;游戏世界中,数字人 NPC 的动作和表情更丰富,能提升玩家的沉浸感。
-
AI
+关注
关注
88文章
35506浏览量
281403 -
人工智能
+关注
关注
1809文章
49164浏览量
250744 -
字节跳动
+关注
关注
0文章
347浏览量
9544
发布评论请先 登录
海康威视发布多模态大模型文搜存储系列产品
字节跳动否认赵明加盟及自研手机传闻
字节跳动即将推出多模态视频生成模型OmniHuman
快讯:字节跳动否认120亿美元投资AI
字节跳动豆包大模型1.5 Pro发布
字节跳动发布豆包大模型1.5 Pro
字节跳动发布海外AI中文开发环境IDE:Trae

评论