0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何去解决文本到图像生成的跨模态对比损失问题?

LiveVideoStack ? 来源:LiveVideoStack ? 作者:Google AI Blog ? 2021-06-15 10:07 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Google提出了一个跨模态对比学习框架来训练用于文本到图像合成的 GAN 模型,用于研究解决生成的跨模态对比损失问题。

从文本到图像的自动生成,如何训练模型仅通过一段文本描述输入就能生成具体的图像,是一项非常具有挑战性的任务。

与其它指导图像创建的输入类型相比,描述性句子是一种更直观、更灵活的视觉概念表达方式。强大的自动文本到图像的生成系统可以成为快速、有效的内容生产、制作工具,用于更多具有创造性的应用当中。

在CVPR 2021中,Google提出了一个跨模态对比生成对抗网络(XMC-GAN),训练用于文本到图像合成的 GAN 模型,通过模态间与模态内的对比学习使图像和文本之间的互信息最大化,解决文本到图像生成的跨模态对比损失问题。

poYBAGDIDJ-AfrniAADMgxcEq1k626.jpg

XMC-GAN 文本到图像合成模型中的模态间和模态内对比学习

XMC-GAN 被成功应用于三个具有挑战性的数据集:一个是MS-COCO 图像描述集合,另外两个是用Localized Narratives注释的数据集,一个是包括MS-COCO 图像(称为LN-COCO) ,另一个描述开放图像数据 (LN-OpenImages)。结果显示 XMC-GAN生成图像所描绘的场景相比于使用其它技术生成的图像质量更高,在每个方面都达到了最先进的水平。

pYYBAGDIDI-AdQkNAAB3Ifj0XNA593.jpg

MS-COCO对图像质量和文本对齐的人工评估

此外,XMC-GAN还在 LN-OpenImages 上进行了一系列训练和评估,这相比于 MS-COCO 更具有挑战性,由于数据集更大,图像涵盖主题范围更加广泛且复杂。

对于人类评估和定量指标,XMC-GAN 在多个数据集模型中相较之前有显著的改进。可以生成与输入描述非常匹配的高质量图像,包括更长,更详细的叙述,同时端到端模型的复杂度也相对较为简单,这代表了从自然语言描述生成图像的创造性应用的重大进步。

责任编辑:lq6

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1094

    浏览量

    41521
  • GaN
    GaN
    +关注

    关注

    19

    文章

    2220

    浏览量

    77136

原文标题:XMC-GAN:从文本到图像的跨模态对比学习

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    无法使用OpenVINO?在 GPU 设备上运行稳定扩散文本图像的原因?

    在OpenVINO? GPU 设备上使用图像大小 (1024X576) 运行稳定扩散文本图像,并收到错误消息: RuntimeError: Exception from
    发表于 06-25 06:36

    如何使用离线工具od SPSDK生成完整图像

    对我来说,完整图像是指包含 keyblob、FCB 等的图像。换句话说,图像包含 0x30000000 0x30000FFF 之间的大约 4KB。 如果我理解正确,使用 SPT(以
    发表于 03-28 06:51

    一种多模态驾驶场景生成框架UMGen介绍

    端自动驾驶技术的快速发展对闭环仿真器提出了迫切需求,而生成式模型为其提供了一种有效的技术架构。然而,现有的驾驶场景生成方法大多侧重于图像模态
    的头像 发表于 03-24 15:57 ?971次阅读
    一种多<b class='flag-5'>模态</b>驾驶场景<b class='flag-5'>生成</b>框架UMGen介绍

    ?VLM(视觉语言模型)?详细解析

    支持生成式任务。 多模态融合 :通过模态注意力机制、投影层(如CLIP将图像文本映射到同一空间
    的头像 发表于 03-17 15:32 ?4642次阅读
    ?VLM(视觉语言模型)?详细解析

    使用OpenVINO GenAI和LoRA适配器进行图像生成

    借助生成式 AI 模型(如 Stable Diffusion 和 FLUX.1),用户可以将平平无奇的文本提示词转换为令人惊艳的视觉效果。
    的头像 发表于 03-12 13:49 ?949次阅读
    使用OpenVINO GenAI和LoRA适配器进行<b class='flag-5'>图像</b><b class='flag-5'>生成</b>

    海康威视文搜存储系列:模态检索,安防新境界

    海康威视推出的文搜存储系列产品,引领了安防领域的信息检索新革命。该产品凭借多模态大模型技术,实现了自然语言与视频图像模态信息检索,将安防录像回溯带入了全新的智能时代。 用户只需输入
    的头像 发表于 02-18 14:08 ?746次阅读

    一文详解视觉语言模型

    视觉语言模型(VLM)是一种多模态生成式 AI 模型,能够理解和处理视频、图像文本
    的头像 发表于 02-12 11:13 ?1868次阅读
    一文详解视觉语言模型

    #新年新气象,大家新年快乐!#AIGC入门及鸿蒙入门

    ,基于扩散模型,能够生成与给定文本描述相符的图像。 鸿蒙系统入门 1.基础知识:鸿蒙系统(HarmonyOS)是华为推出的一款分布式操作系统,旨在实现设备、
    发表于 01-13 10:46

    AIGC入门及鸿蒙入门

    模型,能够生成与给定文本描述相符的图像。 鸿蒙系统入门 1. 基础知识: 鸿蒙系统(HarmonyOS)是华为推出的一款分布式操作系统,旨在实现设备、
    发表于 01-13 10:32

    浅析OpenVINO 2024.5的新功能

    ,事实上在安全、监控或医疗保健等某些领域至关重要。它代表了从处理文本到处理不同输入和生成不同形式输出的重大演变。例如,多模态模型可以接收长视频,并以图像或音频片段的形式输出关键信息。
    的头像 发表于 11-25 17:12 ?706次阅读

    生成式AI工具作用

    生成式AI工具是指那些能够自动生成文本图像、音频、视频等多种类型数据的人工智能技术。在此,petacloud.ai小编为您整理生成式AI工具作用。
    的头像 发表于 10-28 11:19 ?792次阅读

    如何使用 Llama 3 进行文本生成

    使用LLaMA 3(Large Language Model Family of AI Alignment)进行文本生成,可以通过以下几种方式实现,取决于你是否愿意在本地运行模型或者使用现成的API
    的头像 发表于 10-27 14:21 ?1153次阅读

    AIGC与传统内容生成的区别

    AIGC : 主要面向非结构化数据的生成,如自然语言文本图像、音频、视频等。 这类数据规模更大,内在结构更复杂,对处理技术提出了更高要求。 传统内容生成 : 主要处理结构化数据,如
    的头像 发表于 10-25 15:13 ?1331次阅读

    利用OpenVINO部署Qwen2多模态模型

    模态大模型的核心思想是将不同媒体数据(如文本图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,多模态
    的头像 发表于 10-18 09:39 ?1330次阅读

    Meta发布多模态LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一项重要技术突破,成功推出了多模态LLAMA 3.2人工智能模型。这一创新模型不仅能够深度解析文本信息,还实现了对图像内容的精准理解,标志着Meta在AI多
    的头像 发表于 09-27 11:44 ?735次阅读