0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌新一代生成式AI媒体模型登陆Vertex AI平台

谷歌开发者 ? 来源:谷歌云服务 ? 2025-06-18 09:56 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

以下文章来源于谷歌云服务,作者 Google Cloud

Katie Nguyen

开发者关系工程师

我们在Vertex AI上推出新一代生成式 AI 媒体模型: Imagen 4、Veo 3 和 Lyria 2。

我们已经看到有客户使用 Imagen 3 (Google 的图像生成模型) 生成出令人惊艳、栩栩如生的图像。并通过 Veo 2 将这些图像转化为高质量的视频和素材。我们甚至看到客户将这些引人注目的视频,通过 Lyria (Google 先进的 AI 音乐生成模型) 生成专业级音频,赋予其生命力。

随着生成式 AI 媒体在市场营销、媒体等领域的广泛应用,讲述故事变得前所未有的简单。用户可以更快地创建广告素材,并打造突破性的创意内容。接下来,让我们来了解一下每个模型,并指导您如何立即开始使用。

Imagen 4: 更高质量的图像生成

我们宣布 Imagen 4 文本转图像生成功能在 Vertex AI 上推出公开预览版。作为 Google 最高质量的图像生成模型,Imagen 4 提供以下功能:

●出色的文本渲染和提示词遵循性

●在所有风格下都能实现更高的整体图像质量

●支持多语言的提示词,助力全球创作者

提示词:捕捉一个亲密的特写镜头,沐浴在温暖柔和的午后阳光中,阳光透过窗户洒入一间典型的 1960 年代厨房。焦点是一个迷人设计的全能面粉复古包装,惬意地摆放在带有斑点的防火板 (Formica) 台面上。包装本身唤起了纯粹的怀旧感: 也许是厚厚的、略有质感的暖奶油色纸张,上面装饰着简单粗犷的排版 (友好的衬线字体或手写字体) 以经典的红色和蓝色标示 "ALL-PURPOSE FLOUR (通用面粉)",并且配有一个美丽的插图,比如风格化的小麦穗或一个愉快的面包师形象。包装底部用较小的粗体字打印着:"净重 5 磅 (80 盎司) 2.27 公斤"。清晰对焦于包装的细节——纸袋略显柔和的边缘、复古印刷的质感、以及引人注目的 "通用面粉" 字样。1960 年代厨房的微妙元素构成了画面的背景——台面的镀铬边缘柔和地闪着光,模糊中可以看到淡黄色瓷砖的墙面,或者一个略微失焦的复古金属罐的一角。浅景深让注意力锁定在设计精美的包装上,营造出一种充满温暖、真实和怀旧魅力的美感。

提示词:这部四格漫画采用了一种迷人的、刻意像素化的艺术风格,让人联想起经典的 8 位电子游戏,以简单的形状和有限而明亮的调色板为主,主要以绿色、蓝色、棕色和恐龙标志性的灰黑色为主,场景设定在一个风格化的像素海滩。第一格展示了我们熟悉的谷歌浏览器小恐龙 (T-Rex),它有着标志性的像素化外形,戴着小小的像素太阳镜,躺在像素化的沙滩巾上,沐浴在块状的黄色阳光下。背景中,像素化的棕榈树在蓝色像素天空的映衬下轻轻摇曳。一个带有像素化字体的标题框写着:"Even error messages need a vacation.(就算是错误信息也需要放个假)" 第二格是小恐龙正试图建造一座像素沙堡的特写。它笨拙地用它小小的像素化的手臂拍打着一堆棕色像素块,一副专注的样子。周围的沙滩上点缀着一些小小的像素化贝壳。第三格描绘了小恐龙欢快地跳过海滩附近种植的一系列像素化仙人掌,模拟它在游戏中的避障动作。每次跳跃上方都会出现 "Boing!Boing!(蹦!蹦!)" 的短促音效文字,并以块状字体显示。一只像素化的螃蟹在一旁注视着,挥舞着它的像素蟹钳。最后一格描绘了小恐龙平静地仰面漂浮在块状蓝色像素水中,墨镜依然戴着,表情满足。上方有一个小小的思维泡泡,里面是像素化的 "Zzz……",表示它正在放松。

提示词:以电影般的镜头从驾驶座拍摄,清晰地展现前排乘客座位上那位有着醒目红发的年轻乘客的侧面轮廓。她目光凝视前方,专注于观察着透过侧窗可见的尘土飞扬、孤寂的公路。侧窗模糊映照着一片广阔干涸的干地,或许还有远处朦胧的群山。她的手臂搭在窗台或方向盘上。镜头中还捕捉到了她身旁那辆老旧卡车内饰的一部分——车门面板,或许还有一丝磨损的座椅面料。光线可能是午后的阳光,在她脸上和卡车内部投下长长的阴影和温暖的高光。这个角度凸显了她在广阔空旷的景色中独自的存在和沉思的状态。

要在 Vertex AI 上开始访问处于公开预览阶段的 Imagen 4,您可以使用 Media Studio 或运行以下代码示例,该示例使用适用于 Python 的 Google Gen AI SDK。

fromgoogleimportgenai

# TODO(developer): Update and un-comment below lines
# project_id = "PROJECT_ID"
client = genai.Client(vertexai=True, project=project_id, location="us-central1")

prompt ="""
A white wall with two Art Deco travel posters mounted. First poster has the text: "NEPTUNE", tagline: "The jewel of the solar system!' Second poster has the text: "JUPITER", tagline: "Travel with the giants!
"""

image = client.models.generate_images(
 model="imagen-4.0-generate-preview-05-20",
 prompt=prompt,
)

# OPTIONAL: View the generated image in a notebook
# image.generated_images[0].image.show()

Veo 3: 生成有音频和语音的高质量视频

Veo 3 是我们最新推出的、来自 Google DeepMind 的先进视频生成模型。借助 Veo 3,您可以生成以下类型的视频:

●从文本和图像提示词生成视频时,质量得到提升

●语音,例如对话和旁白

●音频,例如音乐和音效

以下是一些客户对 Veo 带来的生产力和创造力提升的评价:

数字支付领域的领导者Klarna正在利用 Vertex AI 上的 Veo 和 Imagen 来提升内容创作效率。从B-roll (补充镜头) 到 YouTube 视频的片头片尾,该公司正在显著缩短制作周期。

"在 Klarna,我们不断探索突破营销创新界限的方法,而 Veo 彻底改变了我们的创意工作流程。借助 Veo 和 Imagen,过去耗时耗力的制作流程转变成了快速高效的任务,使我们能够快速扩展内容创作规模。无论是制作吸引人的 B-roll、打造引人注目的 YouTube 片头,还是开发生动的社交媒体动画,这些工具都让我们的团队更加灵活和富有创造力。结果显而易见,它们带来了更高的参与度和内容表现。借助 Google Cloud,我们正在为未来的业务发展奠定基础,并彻底改变我们品牌焕发生机的方式。"—— Klarna 首席营销官 David Sandstr?m

Jellyfish是 Brandtech 集团旗下一家知名的数字营销公司,已将 Veo 集成到其性能卓越的 AI 营销平台 Pencil 中,并与日本航空合作,提供 AI 生成的机上娱乐服务。

"Veo 2 与 Pencil 的结合,进一步强化了我们致力于赋能市场营销人员的承诺。利用先进的 AI,使他们能够制作出不仅更智能、更快速,同时也更大胆、更富艺术灵感的营销活动。我们的试点项目取得了令人瞩目的成果,成本和产品上市时间平均降低了 50%。这种在控制和质量上的重大改进,能够在几分钟内将之前不可能实现的创意转化为真实的营销内容。日本航空公司 (Japan Airlines) 在将生成式 AI 应用于旅游行业方面处于领先地位,我们期待看到其他品牌效仿。"—— Brandtech 创始人兼首席执行官 David Jones

卡夫亨氏 (Kraft Heinz)的 Tastemaker 平台使其团队能够访问 Imagen 和 Veo,从而显著加快创意和营销活动的开发流程。

"使用 Vertex AI 上的 Veo 和 Imagen 作为我们 Tastemaker 平台的一部分,卡夫亨氏的创意工作流程实现了前所未有的速度和效率。以前需要八周才能完成的工作现在只需八小时,从而大幅节省了成本。"——数字体验与增长主管 Justin Thomas

Envato是全球领先的数字创意资源和模板提供商,该公司使用 Veo 2 开发了其最新推出的视频生成功能 VideoGen,旨在帮助创意专业人士将文本或图像转换为超逼真和电影般的视频内容。

"我们尝试过许多顶级的视频模型,而 Veo 2 在处理各种文本和图像输入时,在速度和质量方面都取得了令人印象深刻的效果。在推出后的最初几天内,就有数万名 Envato 订阅用户访问了 VideoGen,他们生成的视频中近 60% 被下载用于创意项目。自 3 月份以来,Envato 的 VideoGen 使用量逐月增长超过 100%。与 Google Cloud 合作,通过 Veo 将 Envato 的 VideoGen 功能变为现实,这令人非常愉快。"——Envato AI 产品负责人 Aaron Rutley

了解其工作方式:Veo 3 能够处理复杂的提示词细节,如以下示例所示。

提示词:中景镜头,历史冒险场景:温暖的灯光照亮了一位制图师,他正坐在杂乱的书房里,仔细端详着一张摊在大桌子上的古老而杂乱的地图。制图师:"根据这张古老的海图,那座失落的岛屿并非神话!我们必须立即准备一次探险!"

提示词:低角度镜头展示了一扇敞开的淡紫色大门,从一间有着浅紫色墙壁和灰色地板的房间通向一个生机勃勃的户外场景。茂盛的绿草和野花从门口蔓延到室内地板,在空间之间营造出一种奇妙的过渡。门外,连绵起伏的绿色山丘上点缀着更多的野花,绵延至明亮清澈的天空。一棵树矗立在户外场景的前景中,它的叶子为视野增添了深度。阳光和自然元素与室内空间的简约形成对比,引人产生奇妙和想要逃离的感觉。

Veo 3 目前在 Vertex AI 上提供私有预览版,并将在未来几周内更广泛地推出。

Lyria 2: 通过音乐生成实现更强大的创意控制

在 Google Cloud Next 2025 大会上,我们宣布了在 Vertex AI 中推出 Google 的文本转音乐模型 Lyria。我们宣布 Lyria 2 已在 Vertex AI 中正式发布。作为 Google 最新的音乐生成模型,Lyria 2 能够生成多种风格的高保真音乐。作为您下一个创意合作伙伴,Lyria 2 提供以下功能:

●从文本提示词生成高品质音频内容

●更好地控制乐器、BPM 和其他特征进行更强的创意控制

要开始使用 Lyria 2 创建内容,请查看 Vertex AI 上的 Media Studio。之后,您可以根据文本提示词生成音乐,或通过 Vertex AI 访问模型 API。想要获取灵感,请查看下面的一些音乐片段和提示词。

提示词:节奏明快、充满迷幻色彩的秘鲁坎比亚音乐 (Peruvian Cumbia),用于洛杉矶拉丁音乐节现场演出。融合电吉他、贝斯,并突出使用定音鼓打击乐部分,营造出强劲有力、适合跳舞的氛围。充满活力和能量。

提示词:气势恢宏的管弦乐电影配乐,伦敦原生录音室录制,百人管弦乐队演绎,音乐风格气势恢宏,深邃。融合高亢的旋律、戏剧性的和声变化以及强劲的打击乐元素,乐器包括圆号、弦乐、定音鼓。并以主题性手法演绎,具有复杂的编曲、宽广的动态范围和深刻的情感,营造出电影般恢弘且令人敬畏的氛围。

看看我们的一些客户到目前为止对 Lyria 2 的评价:

Captions是一款 AI 驱动的视频创作工具,可帮助用户快速轻松地创建工作室级别的有声视频。他们已将 Lyria 2 集成到 Mirage Edit 功能中,使用户能够快速生成带有自定义声音的完整视频。

"在 Captions,我们的 Mirage Edit 功能已经让订阅用户能够通过提示词便可生成经过完整编辑的 AI 有声视频,包括图像、B-roll (补充) 片段、旁白和过渡效果。现在,我们又添加了一个关键元素: 由 Google Lyria 2 提供支持的自适应音乐。只需一个提示词,Lyria 就能创作出与剧本、节奏和每个情绪节点的转场同步的配乐,这样我们的客户无需离开 Captions 或翻阅素材库,即可发布电影级短视频。"——Captions.ai 的联合创始人兼首席运营官 Dwight Churchill

Dashverse拥有 Dashtoon 和 DashReels 等数字内容平台,目前正在 Vertex AI 上利用 Google 的 Lyria 2,为下一代 AI 原生创作者提供先进的音乐生成功能。这种集成使用户能够创作动感十足、情感丰富的配乐,并与 DashReels 等平台上的内容叙事和节奏无缝衔接。

"在 Dashverse,我们始终致力于赋能日常创作者,无论他们是在 Dashtoon 上创作漫画,还还是在 DashReels 上制作短剧。我们通过 DashReels 向动态的、情感共鸣的叙事方式迈进,这需要一个同样富有表现力和响应能力的音乐引擎。Vertex AI 上的 Lyria 2 正好满足了这一点。它为我们的用户提供了对音乐的录音室级别控制,能够适应情感、场景和节奏,而且没有额外的开销。它不仅仅是一个音轨生成器;它更是一个叙事放大器。我们非常期待它能为下一代 AI 原生创作者解锁无限可能。"——Dashverse 首席技术官Soumyadeep Mukherjee

安全创作,负责任分享

任何 AI 生成内容的安全性和可靠性都至关重要。因此,这些模型都内置了安全保护措施,让您能够专注于创意工作。Veo 3、Imagen 4 和 Lyria 2 都与 Google DeepMind 合作,将安全性作为其核心设计原则。

水印:所有使用 Veo、Imagen 和 Lyria 生成的作品默认都使用 SynthID 技术,该技术将隐形水印直接嵌入到生成的输出中。此水印可以识别 AI 生成的媒体,确保透明度。

安全过滤器:所有生成式 AI 媒体模型的输入提示词和输出内容都可以通过安全过滤器列表进行访问。通过配置内容过滤的严格程度,您可以确保资产符合您的品牌价值观。在视觉输出数据中,您还可以控制人物的生成。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6233

    浏览量

    108392
  • AI
    AI
    +关注

    关注

    88

    文章

    35476

    浏览量

    281262
  • 模型
    +关注

    关注

    1

    文章

    3531

    浏览量

    50571

原文标题:通过下一波生成式 AI 媒体模型扩展 Vertex AI

文章出处:【微信号:Google_Developers,微信公众号:谷歌开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    摩尔线程“AI工厂”:以系统级创新定义新一代AI基础设施

    演讲中表示,为应对生成AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代A
    发表于 07-28 10:34 ?1178次阅读
    摩尔线程“<b class='flag-5'>AI</b>工厂”:以系统级创新定义<b class='flag-5'>新一代</b><b class='flag-5'>AI</b>基础设施

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    基石。 Neuron Studio打造全流程一站式开发体验,为AI应用开发按下加速键 AI 应用的开发瓶颈,从来都不是“点的问题”,而是“链的问题”:开发工具碎片化,调优过程靠手动,单模型
    发表于 04-13 19:52

    谷歌新一代 TPU 芯片 Ironwood:助力大规模思考与推理的 AI 模型新引擎?

    电子发烧友网报道(文 / 李弯弯)日前,谷歌在 Cloud Next 大会上,隆重推出了最新一代 TPU AI 加速芯片 ——Ironwood。据悉,该芯片预计于今年晚些时候面向 Google
    的头像 发表于 04-12 00:57 ?2559次阅读

    适用于数据中心和AI时代的800G网络

    ,成为新一代AI数据中心的核心驱动力。 AI时代的两大数据中心:AI工厂与AIAI时代
    发表于 03-25 17:35

    AI Agent 应用与项目实战》----- 学习如何开发视频应用

    开发个视频内容生成Agent。 访问语聚AI平台官网 ,进行注册或登录。 在平台首页,了解语聚A
    发表于 03-05 19:52

    聚云科技荣获亚马逊云科技生成AI能力认证

    Bedrock等技术,从应用范围、模型选择、数据处理、模型调优到应用集成与部署等方面,助力企业加速生成AI应用落地。此外,聚云科技还基于
    的头像 发表于 02-14 16:07 ?444次阅读

    聚云科技荣获亚马逊云科技生成AI能力认证 助力企业加速生成AI应用落地

    北京 ——2025 年 2 月 14 日 云管理服务提供商聚云科技获得亚马逊云科技生成AI能力认证,利用亚马逊云科技全托管的生成
    发表于 02-14 13:41 ?176次阅读

    DeepSeek最新AI模型现已登陆IBM watsonx.ai平台

    DeepSeek-R1 是款先进的 AI 模型,以卓越的推理能力著称,可广泛应用于编程、规划和数学问题求解等领域,从而驱动智能代理应用、代码生成,调试支持及优化建议、解决复杂数学问题
    的头像 发表于 02-08 09:21 ?815次阅读

    NVIDIA推出多个生成AI模型和蓝图

    NVIDIA 宣布推出多个生成 AI 模型和蓝图,将 NVIDIA Omniverse 体化进
    的头像 发表于 01-08 10:48 ?685次阅读

    Google两款先进生成AI模型登陆Vertex AI平台

    新的 AI 模型,包括最先进的视频生成模型Veo以及最高品质的图像生成模型Imagen 3。近日
    的头像 发表于 12-30 09:56 ?674次阅读

    NVIDIA推出全新生成AI模型Fugatto

    NVIDIA 开发了个全新的生成 AI 模型。利用输入的文本和音频,该模型可以创作出包含任意
    的头像 发表于 11-27 11:29 ?865次阅读

    NVIDIA助力Amdocs打造生成AI智能体

    Amdocs 是家为通信和媒体提供商提供软件与服务的领先供应商。该公司构建的 amAIz 特定领域生成 AI
    的头像 发表于 11-19 14:48 ?954次阅读

    生成AI工具作用

    生成AI工具是指那些能够自动生成文本、图像、音频、视频等多种类型数据的人工智能技术。在此,petacloud.ai小编为您整理
    的头像 发表于 10-28 11:19 ?788次阅读

    AI模型的最新研究进展

    AI模型的最新研究进展体现在多个方面,以下是对其最新进展的介绍: 、技术创新与突破 生成AI
    的头像 发表于 10-23 15:19 ?1621次阅读

    谷歌Vertex AI助力企业生成AI应用

    过去的段时间,我们看到了许多 Google Cloud 客户对生成 AI 和 agent 的精彩应用,令我们拍案叫绝。为了让企业能够更快推出功能强大的
    的头像 发表于 09-09 15:59 ?963次阅读