0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

多模态图像合成与编辑方法

OpenCV学堂 ? 来源:机器之心 ? 作者:机器之心 ? 2022-08-23 09:12 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本篇综述通过对现有的多模态图像合成与编辑方法的归纳总结,对该领域目前的挑战和未来方向进行了探讨和分析。

近期 OpenAI 发布的 DALLE-2 和谷歌发布的 Imagen 等实现了令人惊叹的文字到图像的生成效果,引发了广泛关注并且衍生出了很多有趣的应用。而文字到图像的生成属于多模态图像合成与编辑领域的一个典型任务。 近日,来自马普所和南洋理工等机构的研究人员对多模态图像合成与编辑这一大领域的研究现状和未来发展做了详细的调查和分析。

d78635d0-2230-11ed-ba43-dac502259ad0.png

论文地址:https://arxiv.org/pdf/2112.13592.pdf

项目地址:https://github.com/fnzhan/MISE

d79dbe8a-2230-11ed-ba43-dac502259ad0.png

在第一章节,该综述描述了多模态图像合成与编辑任务的意义和整体发展,以及本论文的贡献与总体结构。 在第二章节,根据引导图片合成与编辑的数据模态,该综述论文介绍了比较常用的视觉引导(比如 语义图,关键点图,边缘图),文字引导,语音引导,场景图(scene graph)引导和相应模态数据的处理方法以及统一的表示框架。 在第三章节,根据图像合成与编辑的模型框架,该论文对目前的各种方法进行了分类,包括基于 GAN 的方法,自回归方法,扩散模型方法,和神经辐射场(NeRF)方法。

d7c3cb8e-2230-11ed-ba43-dac502259ad0.png

d7d3ffe0-2230-11ed-ba43-dac502259ad0.png

由于基于 GAN 的方法一般使用条件 GAN 和 无条件 GAN 反演,因此该论文将这一类别进一步分为模态内条件(例如语义图,边缘图),跨模态条件(例如文字和语音),和 GAN 反演(统一模态)并进行了详细描述。

d7e7efe6-2230-11ed-ba43-dac502259ad0.png

相比于基于 GAN 的方法,自回归模型方法能够更加自然的处理多模态数据,以及利用目前流行的 Transformer 模型。自回归方法一般先学习一个向量量化编码器将图片离散地表示为 token 序列,然后自回归式地建模 token 的分布。由于文本和语音等数据都能表示为 token 并作为自回归建模的条件,因此各种多模态图片合成与编辑任务都能统一到一个框架当中。

d7f91f32-2230-11ed-ba43-dac502259ad0.png

d80fe2f8-2230-11ed-ba43-dac502259ad0.png

近期,火热的扩散模型也被广泛应用于多模态合成与编辑任务。例如效果惊人的 DALLE-2 和 Imagen 都是基于扩散模型实现的。相比于 GAN,扩散式生成模型拥有一些良好的性质,比如静态的训练目标和易扩展性。该论文依据条件扩散模型和预训练扩散模型对现有方法进行了分类与详细分析。

d8239028-2230-11ed-ba43-dac502259ad0.png

d83650f0-2230-11ed-ba43-dac502259ad0.png

以上方法主要聚焦于 2D 图像的多模态合成与编辑。近期随着神经辐射场(NeRF)的迅速发展,3D 感知的多模态合成与编辑也吸引了越来越多的关注。由于需要考虑多视角一致性,3D 感知的多模态合成与编辑是更具挑战性的任务。本文针对单场景优化 NeRF,生成式 NeRF 和 NeRF 反演的三种方法对现有工作进行了分类与总结。 随后,该综述对以上四种模型方法的进行了比较和讨论。总体而言,相比于 GAN,目前最先进的模型更加偏爱自回归模型和扩散模型。而 NeRF 在多模态合成与编辑任务的应用为这个领域的研究打开了一扇新的窗户。

d84df174-2230-11ed-ba43-dac502259ad0.png

在第四章节,该综述汇集了多模态合成与编辑领域流行的数据集以及相应的模态标注,并且针对各模态典型任务(语义图像合成,文字到图像合成,语音引导图像编辑)对当前方法进行了定量的比较。 在第五章节,该综述对此领域目前的挑战和未来方向进行了探讨和分析,包括大规模的多模态数据集,准确可靠的评估指标,高效的网络架构,以及 3D 感知的发展方向。 在第六和第七章节,该综述分别阐述了此领域潜在的社会影响和总结了文章的内容与贡献。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6233

    浏览量

    108398
  • 数据
    +关注

    关注

    8

    文章

    7261

    浏览量

    92236
  • 图像
    +关注

    关注

    2

    文章

    1094

    浏览量

    41500

原文标题:多模态图像合成与编辑这么火,马普所、南洋理工等出了份详细综述

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于通道分类合成的SAR图像分类研究

    利用SVM对不同通道的数据分别进行分类,然后利用粒度合成理论对不同的分类结果进行合并,最后实现通道SAR数据图像分类。本文重点论述了利用该方法进行SAR
    发表于 04-23 11:52

    高分辨率合成孔径雷达图像的直线特征尺度提取方法

    针对传统的合成孔径雷达(SAR)尺度边缘提取方法中直线提取连续性和完整性不好的特点,提出了一个由粗到精的多分辨率SAR图像直线特征多级提取框架,利用
    发表于 05-06 09:04

    尺度形态滤波模态混叠抑制方法

    尺度形态滤波模态混叠抑制方法_曹莹
    发表于 01-07 18:21 ?0次下载

    基于超图的模态关联特征处理方法

    传统的模式识别方法认为特征是相互独立的,容易忽略模态特征之间多元的关联性,从而造成识别的误差。为此,基于超图模型,提出一种新的特征整合方法。定义共享熵的计算
    发表于 03-07 11:01 ?2次下载
    基于超图的<b class='flag-5'>多</b><b class='flag-5'>模态</b>关联特征处理<b class='flag-5'>方法</b>

    基于双残差超密集网络的模态医学图像融合方法

    Networks, DRHDNS)的模态医学图像融合方法。 DRHDNS分为特征提取和特征融合两部分。特征提取部分通过将超密集连接与残差学习相结合,构造出双残差超密集块,用于提取特
    发表于 04-14 11:18 ?19次下载
    基于双残差超密集网络的<b class='flag-5'>多</b><b class='flag-5'>模态</b>医学<b class='flag-5'>图像</b>融合<b class='flag-5'>方法</b>

    基于联合压缩感知的模态目标统一跟踪方法

    针对模态目标跟踪中大多仅考虑单个图像的异种特征融合或不同模态图像的同种特征融合,为了使得这两者间能自然集成,提出基于联合压缩感知的
    发表于 04-27 15:59 ?0次下载
    基于联合压缩感知的<b class='flag-5'>多</b><b class='flag-5'>模态</b>目标统一跟踪<b class='flag-5'>方法</b>

    简述文本与图像领域的模态学习有关问题

    来自:哈工大SCIR 本期导读:近年来研究人员在计算机视觉和自然语言处理方向均取得了很大进展,因此融合了二者的模态深度学习也越来越受到关注。本期主要讨论结合文本和图像
    的头像 发表于 08-26 16:29 ?7208次阅读

    ImageBind:跨模态之王,将6种模态全部绑定!

    最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的
    的头像 发表于 05-11 09:30 ?1525次阅读
    ImageBind:跨<b class='flag-5'>模态</b>之王,将6种<b class='flag-5'>模态</b>全部绑定!

    图像对齐所有模态,Meta开源感官AI基础模型,实现大一统

    最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的
    的头像 发表于 05-26 15:45 ?1229次阅读
    用<b class='flag-5'>图像</b>对齐所有<b class='flag-5'>模态</b>,Meta开源<b class='flag-5'>多</b>感官AI基础模型,实现大一统

    VisCPM:迈向多语言模态大模型时代

    随着 GPT-4 和 Stable Diffusion 等模型模态能力的突飞猛进,模态大模型已经成为大模型迈向通用人工智能(AGI)目标的下一个前沿焦点。总体而言,面向
    的头像 发表于 07-10 10:05 ?1025次阅读
    VisCPM:迈向多语言<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型时代

    模态大模型最全综述来了!

    其中最后一个表示监督信号是从图像本身中挖掘出来的,流行的方法包括对比学习、非对比学习和masked image建模。在这些方法之外,文章也进一步讨论了
    的头像 发表于 09-26 16:42 ?3031次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型最全综述来了!

    探究编辑模态大语言模型的可行性

    不同于单模态模型编辑模态模型编辑需要考虑更多的模态信息。文章出发点依然从单
    发表于 11-09 14:53 ?788次阅读
    探究<b class='flag-5'>编辑</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言模型的可行性

    基于几何分析的神经辐射场编辑方法

    神经辐射场作为近期一个广受关注的隐式表征方法,能合成照片级真实的视角图像。但因为其隐式建模的性质,用户难以直观编辑神经辐射场建模对象的几何
    的头像 发表于 11-20 16:56 ?935次阅读
    基于几何分析的神经辐射场<b class='flag-5'>编辑</b><b class='flag-5'>方法</b>

    大模型+模态的3种实现方法

    我们知道,预训练LLM已经取得了诸多惊人的成就, 然而其明显的劣势是不支持其他模态(包括图像、语音、视频模态)的输入和输出,那么如何在预训练LLM的基础上引入跨模态的信息,让其变得更强
    的头像 发表于 12-13 13:55 ?2571次阅读
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模态</b>的3种实现<b class='flag-5'>方法</b>

    利用OpenVINO部署Qwen2模态模型

    模态大模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,
    的头像 发表于 10-18 09:39 ?1326次阅读