0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ACL2021的跨视觉语言模态论文之跨视觉语言模态任务与方法

深度学习自然语言处理 ? 来源:复旦DISC ? 作者:王雨晴 ? 2021-10-13 10:48 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来自:复旦DISC

引言

本次分享我们将介绍三篇来自ACL2021的跨视觉语言模态的论文。这三篇文章分别介绍了如何在图像描述任务中生成契合用户意图的图像描述、端对端的视觉语言预训练模型和如何生成包含更多细节的图像描述。

文章概览

Control Image Captioning Spatially and Temporally

论文地址:https://aclanthology.org/2021.acl-long.157.pdf

该篇文章基于对比学习和注意力机制引导提出了LoopCAG模型。LoopCAG可以根据输入的鼠标轨迹,生成与鼠标轨迹相匹配的图像描述,从而增强了图片描述生成的可控性和可解释性。

E2E-VLP: End-to-End Vision-Language Pretraining Enhanced by Visual Learning

论文地址:https://arxiv.org/pdf/2106.01804.pdf

这篇文章提出了一个端到端的视觉语言预训练模型。模型不需要利用预训练的目标检测器抽取基于区域的视觉特征,直接以图片作为输入。并且设计了两个额外的视觉预训练任务帮助模型学习细粒度的信息,达到了和两阶段模型相似的效果,并且提高了运算效率。

Enhancing Descriptive Image Captioning with Natural Language Inference

论文地址:https://aclanthology.org/2021.acl-short.36.pdf

这篇文章通过推理图和PageRank对图像描述进行描述性打分。再通过参考抽样和加权指定奖励来生成具有更多细节的图像描述。模型生成了比一般方法具有更多细节的图像描述,这些图像描述可以包含基线方法生成的图像描述。

论文细节

1

动机

图像描述任务主要针对图片上比较突出的物体和物体关系展开描述,这样的图片描述没有考虑到用户意图。为了生成具备可控性和可解释性的图像描述,最近的工作提出了生成可控性的图像描述任务。为了生成符合用户意图的图像描述,通常会对描述加以情感、边界框和鼠标轨迹限制。与此同时,近期提出的 Localized-Narratives 数据集将鼠标轨迹作为图像描述任务的另一个输入,为图像描述生成任务中所涉及的语义概念进行空间和时序关系上的控制提供了可能。

模型

LoopCAG 可以总结为三部分:用于生成图片描述且以 Transformer 为主干网络的编码器-解码器;用于视觉对象空间定位的注意力引导(Attention Guidance)组件;用于句子级时序对齐的对比性约束(Contrastive Constraints)组件。

a20e2908-15e3-11ec-8fb8-12bb97331649.png

(1)Caption Generation

作者将视觉特征V和轨迹特征T分别编码,并叠加位置信息后得 和 ,然后串联在一起作为一个统一的序列输入编码器。解码器通过交叉注意力模块与编码器最后一层的隐藏状态相连,将视觉和轨迹信息结合起来作为生成的前置条件。解码器的优化目标是将以下目标函数最小化:

a22c1850-15e3-11ec-8fb8-12bb97331649.png

(2)Attention Guidance

为了定位物体,作者用轨迹作为中间桥梁联系物体和语义token。作者构建了一个监督矩阵来引导词语和视觉对象之间的注意力,即需要物体轨迹点尽可能多的落入对象边界框中。当注意力监督矩阵和模型的交叉注意力矩阵尽可能接近时,词语则可以准确的对应到图片的空间视觉物体上。

(3)Contrastive Constraints

作者使用对比损失函数来约束生成过程的时间顺序,对比损失的形式是 NCE 函数,用来学习区分轨迹-描述对之中的正例和负例。正例是指在顺序上自然对应的描述句和轨迹段,而其余的轨迹-描述对组合均为负例。

最后作者通过将所有损失的总和最小化来联合优化模型。

实验

作者在Localized-Narratives COCO 这个数据集上进行了训练和测试。在测试集上的结果如图所示,LoopCAG 方法在所有的自动评测指标上都达到了先进水平。从表中可以看出,ROUGE-L 的得分提升了2.0。由于 ROUGE-L 主要采用了对顺序敏感的最长共同子序列计分方式,这表明对比约束可以促进生成句子的顺序和用户意图的对应。

2

动机

基于海量图文对的多模态预训练在下游的跨模态任务中已经取得巨大的成功。现有的多模态预训练的方法主要基于两阶段训练,首先利用预训练的目标检测器抽取基于区域的视觉特征,然后拼接视觉表示和文本向量作为Transformer的输入进行训练。这样的模型存在两点问题,一个是第一阶段通常在特定数据集进行训练模型泛化能力不好,此外提取区域的视觉特征比较耗费时间。基于此作者提出了端到端的像素级别的视觉语言预训练模型。模型通过一个统一的Transformer框架同时学习图像特征和多模态表示

模型

本文的模型如图所示。E2E-VLP用一个CNN 模型提取图片视觉特征的同时用一个Transformer进行多模态特征学习。

a270188e-15e3-11ec-8fb8-12bb97331649.png

(1) Input Representations

模型首先用WordPiece tokenizer 分词进行序列化。图片则直接以三通道的像素矩阵输入。

(2) Cross-modal Encoder Pre-training:Transformer

模型用Resnet提取图片的特征向量。用Transformer模块接受图像-句子的序列输入,进行跨模态语义学习。

为了提取跨模态语义信息,模型设计了两个预训练任务。一个是与Bert类似的Masked Language Modeling,只是在该任务中除去上下文信息还可以利用图片信息避免语义混淆,第二个任务是进行图片文本匹配。

(3) Visual-enhanced Decoder

为了提取更细粒度的视觉特征,接入了物体检测和描述生成两个任务。在物体检测中,为了增强视觉语义特征的学习,除去常规的位置和物体种类预测,我们引入了属性预测这一任务。描述生成图片对应的描述。

实验

根据实验结果,E2E-VLP 和两阶段模型相比,也取得了比较好效果,可以理解和完成两种任务。同时在参数量上,E2E-VLP 则具有更加轻量的优势。

3

动机

现阶段的图像描述模型通常倾向于生成比较安全的较为笼统的描述,而忽略图像细节。为了生成包含更多细节的图像描述,作者基于更具有细节的图像描述通常包含笼统描述的全部信息这一观点提出了基于自然语言推断的描述关系模型。

方法

这篇文章的具体方法如下:

(1)Constructing Inference Graphs

首先用基于Bert的自然语言推断模型判断图像描述之间的关系,由于图像描述之间不存在冲突因此挪去了冲突关系。并对一张图的描述构建如图所示的推断关系图,并利用Pagerank的方法对推断图计算描述性评分。

(2)Descriptiveness Regularized Learning

由于传统图像描述的第一阶段生成描述和图像描述最小化交叉熵损失函数等同于生成描述和均匀分布的图像描述之间的KL Divergence,为了生成更具有描述性的图像描述。则采用归一化的描述性评分分布取代均匀分布,认为更具有描述性的图像描述具有更高的生成概率。

a2d4abbe-15e3-11ec-8fb8-12bb97331649.png

在第二阶段,最大化生成图像描述的期望收益时,也同时用描述性评分取代均匀分布来计算期望收益。

a2e2129a-15e3-11ec-8fb8-12bb97331649.png

实验

根据实验结果,模型在多数指标特别是CIDER评分上超过了Baseline,这是因为CIDER倾向于具有更加特殊的细节描述。

此外根据自然语言推断模型判断文章模型生成的图像描述对baseline的图像描述形成更多的包含关系。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1190

    浏览量

    42080
  • 编码器
    +关注

    关注

    45

    文章

    3822

    浏览量

    138398
  • 图像
    +关注

    关注

    2

    文章

    1094

    浏览量

    41493
  • 函数
    +关注

    关注

    3

    文章

    4384

    浏览量

    65132
  • cnn
    cnn
    +关注

    关注

    3

    文章

    354

    浏览量

    22779

原文标题:ACL2021 | 跨视觉语言模态任务与方法

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    云知声四篇论文入选自然语言处理顶会ACL 2025

    结果正式公布。云知声在此次国际学术盛会中表现卓越,共有4篇论文被接收,其中包括2篇主会论文(Main Paper)和2篇Findings。入选的4篇论文聚焦大语言模型知识溯源、图文音多
    的头像 发表于 05-26 14:15 ?645次阅读
    云知声四篇<b class='flag-5'>论文</b>入选自然<b class='flag-5'>语言</b>处理顶会<b class='flag-5'>ACL</b> 2025

    基于MindSpeed MM玩转Qwen2.5VL多模态理解模型

    模态理解模型是让AI像人类一样,通过整合多维度信息(如视觉语言、听觉等),理解数据背后的语义、情感、逻辑或场景,从而完成推理、决策等任务
    的头像 发表于 04-18 09:30 ?1667次阅读
    基于MindSpeed MM玩转Qwen2.5VL多<b class='flag-5'>模态</b>理解模型

    移远通信智能模组全面接入多模态AI大模型,重塑智能交互新体验

    全系智能模组产品已全面接入火山引擎豆包VLM(视觉语言)多模态AI大模型。这一突破性进展表明,搭载移远任意智能模组的终端设备,均可无缝融合多模态AI大模型的强大功能,为用户带来更智能、
    发表于 03-21 14:12 ?295次阅读
    移远通信智能模组全面接入多<b class='flag-5'>模态</b>AI大模型,重塑智能交互新体验

    ?VLM(视觉语言模型)?详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的多模态人工智能模型,
    的头像 发表于 03-17 15:32 ?4572次阅读
    ?VLM(<b class='flag-5'>视觉</b><b class='flag-5'>语言</b>模型)?详细解析

    海康威视文搜存储系列:模态检索,安防新境界

    海康威视推出的文搜存储系列产品,引领了安防领域的信息检索新革命。该产品凭借多模态大模型技术,实现了自然语言与视频图像的模态信息检索,将安防录像回溯带入了全新的智能时代。 用户只需输入
    的头像 发表于 02-18 14:08 ?742次阅读

    一文详解视觉语言模型

    视觉语言模型(VLM)是一种多模态、生成式 AI 模型,能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 ?1854次阅读
    一文详解<b class='flag-5'>视觉</b><b class='flag-5'>语言</b>模型

    AKI语言调用库神助攻C/C++代码迁移至HarmonyOS NEXT

    语言调用,成为开发者和厂商面临的重要挑战。为解决这一痛点,一款名为AKI (Alpha Kernel Interacting)的开源三方库应运而生,它通过高效封装语言调用接口,帮助
    发表于 01-02 17:08

    NaVILA:加州大学与英伟达联合发布新型视觉语言模型

    (VLM)是一种具备多模态生成能力的先进AI模型。它能够智能地处理文本、图像以及视频等多种提示,并通过复杂的推理过程,实现对这些信息的准确理解和应用。NaVILA正是基于这一原理,通过将大型语言模型(LLM)与视觉编码器进行巧妙
    的头像 发表于 12-13 10:51 ?713次阅读

    一文理解多模态语言模型——下

    /understanding-multimodal-llms ? 《一文理解多模态语言模型 - 上》介绍了什么是多模态语言模型,以及构建多模态
    的头像 发表于 12-03 15:18 ?643次阅读
    一文理解多<b class='flag-5'>模态</b>大<b class='flag-5'>语言</b>模型——下

    一文理解多模态语言模型——上

    /understanding-multimodal-llms 在过去几个月中, OpenVINO? 架构师 Yury阅读了众多有关多模态语言模型的论文和博客,在此基础上,推荐了一篇解读多模态
    的头像 发表于 12-02 18:29 ?1257次阅读
    一文理解多<b class='flag-5'>模态</b>大<b class='flag-5'>语言</b>模型——上

    基于视觉语言模型的导航框架VLMnav

    本文提出了一种将视觉语言模型(VLM)转换为端到端导航策略的具体框架。不依赖于感知、规划和控制之间的分离,而是使用VLM在一步中直接选择动作。惊讶的是,我们发现VLM可以作为一种无需任何微调或导航数据的端到端策略来使用。这使得该方法
    的头像 发表于 11-22 09:42 ?839次阅读

    思必驰发布AI办公本Turbo,搭载专业级模态会议大模型

    近日,思必驰正式发布了其最新的AI办公本Turbo,该设备搭载了专业级的模态会议大模型。这一创新技术的引入,标志着思必驰在智能办公领域迈出了重要的一步。
    的头像 发表于 10-31 17:03 ?1076次阅读

    SegVG视觉定位方法的各个组件

    视觉定位(Visual Grounding)旨在基于自由形式的自然语言文本表达定位图像中的目标物体。随着多模态推理系 统的普及,如视觉问答和图像描述,
    的头像 发表于 10-28 13:59 ?973次阅读
    SegVG<b class='flag-5'>视觉</b>定位<b class='flag-5'>方法</b>的各个组件

    利用OpenVINO部署Qwen2多模态模型

    模态大模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,多模态大模型可以可以理解多种不同模态的输入
    的头像 发表于 10-18 09:39 ?1325次阅读

    通义千问发布第二代视觉语言模型Qwen2-VL

    。Qwen2-VL系列模型在多模态处理领域取得了突破性进展,于多个权威测评中崭露头角,刷新了多项最佳成绩记录,展现出强大的视觉理解与语言交互能力。
    的头像 发表于 09-03 16:31 ?896次阅读