0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软亚研提出VL-BERT,现取得了当前单模型的最好效果

JqWP_youuav ? 来源:陈年丽 ? 2019-09-03 15:04 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

机器之心发布

来自中科大、微软亚研院的研究者们提出了一种新型的通用视觉-语言预训练模型(Visual-Linguistic BERT,简称 VL-BERT),该模型采用简单而强大的 Transformer 模型作为主干网络,并将其输入扩展为同时包含视觉与语言输入的多模态形式,适用于绝大多数视觉-语言下游任务。

为了让 VL-BERT 模型利用更为通用的特征表示,作者在大规模图片描述生成数据集 ConceptualCaptions 中进行 VL-BERT 的预训练,实验证明此预训练过程可以显著提高下游的视觉-语言任务的效果,包含视觉常识推理、视觉问答与引用表达式理解等。值得一提的是,在视觉常识推理排行榜中,VL-BERT 取得了当前单模型的最好效果。

适用于下游任务的通用特征表示预训练是深度网络成功的标志之一。在计算机视觉领域,深度网络在 ImageNet 数据集进行图像分类的预训练过程,被发现可广泛提高多种图像识别任务的效果。在自然语言处理领域中,Transformer 模型在大规模语料库中使用语言模型进行预训练的过程,也被证明可广泛提高多种自然语言处理任务的效果。

但对于计算机视觉和自然语言处理领域交叉的任务,例如图像标题生成、视觉问答、视觉常识推理等,缺少这种预训练的通用多模态特征表示。

一般来说,之前的视觉-语言模型分别使用计算机视觉或自然语言处理领域中的预训练模型进行初始化,但如果目标任务数据量不足,模型容易过拟合从而损失性能。并且对于不同的视觉-语言任务,其网络架构一般是经过特殊设计的,由此很难通过视觉-语言联合预训练的过程帮助下游任务。

由此,在本文中,提出了一种可广泛应用于视觉-语言任务的预训练通用特征表示,称为 Visual-LinguisitcBERT,简称 VL-BERT,其架构如下图所示:

VL-BERT 的主干网络使用 TransformerAttention 模块,并将视觉与语言嵌入特征作为输入,其中输入的每个元素是来自句子中的单词、或图像中的感兴趣区域(Region of Interests,简称 RoIs)。在模型训练的过程中,每个元素均可以根据其内容、位置、类别等信息自适应地聚合来自所有其他元素的信息。在堆叠多层 TransformerAttention 模块后,其特征表示即具有更为丰富的聚合与对齐视觉和语言线索的能力。

为了更好地建模通用的视觉-语言表示,在大规模视觉-语言语料库中对 VL-BERT 进行了预训练。采用的预训练数据集为图像标题生成数据集,Conceptual Captions,其中包含了大约 330 万个图像标题对。

VL-BERT 的预训练主要采用三个任务:a) 屏蔽语言模型(Masked Language Modeling),即随机屏蔽掉语句中的一些词,并预测当前位置的词是什么;b) 屏蔽 RoI 分类(MaskedRoIClassification),即随机屏蔽掉视觉输入中的一些 RoIs,并预测此空间位置对应 RoI 的所属类别;c) 图像标题关联预测(Sentence-Image Relationship Prediction),即预测图像与标题是否属于同一对。

在预训练结束后,使用微调来进行下游任务的训练。本文中主要在三个视觉-语言下游任务中进行微调,即视觉常识推理(VisualCommonsenseReasoning)、视觉问答(VisualQuestionAnswering)与引用表达式理解(ReferringExpressionComprehension),下面将分别介绍。

视觉常识推理任务即给定图片与相关问题,机器不仅需要回答问题,还需要提供理由来证明答案的正确性。此任务(Q-》AR)被分解为两个子任务,即视觉问答(Q-》A,给定图片与问题,输出正确答案),以及视觉推理(QA-》R,给定图片、问题与答案,输出正确的理由)。

下面以视觉问答子任务为例,此任务的输入为问题、答案与图像的 RoIs,并预测此答案是否为正确答案。除此之外,作者发现微调时增加与预训练类似的 RoI 分类损失也会进一步提升性能,如下:

视觉问答任务即给定图片,回答与图片输入相关的问题。由此模型的输入即为问题与图像,基本元素为单词或 RoI,最终对答案进行预测,如下:

引用表达式理解任务是使用给定的引用表达式来定位图像中的相关对象,由此输入为查询(引用表达式)与图片中的 RoIs,并预测哪个 RoI 为查询输入的引用,如下:

下面将介绍论文中的一些主要实验结果:

a)在视觉常识推理(Visual Commonsense Reasoning)任务中,与当前最好方法的结果比较如下:

b)在视觉问答(Visual Question Answering)任务中,与当前最好方法的结果比较如下:

c)在引用表达式理解(Referring Expression Comprehension)任务中,与当前最好方法的结果比较如下:

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6690

    浏览量

    105984
  • 机器
    +关注

    关注

    0

    文章

    792

    浏览量

    41345

原文标题:牛人发明无人机自动建房,空中喷“水泥”,网友:建筑工人要失业

文章出处:【微信号:youuav,微信公众号:无人机网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    CADENAS 在 2025 年金字塔公司联系博览会上取得圆满成功

    表现出了极大的积极性和好奇心。这种直接的交流和相互了解让我们觉得这次招聘会非常特别! 感谢奥格斯堡大学的活动团队 展会出色的组织工作、友好的氛围以及美味的食物再次给我们留下了深刻印象。每年的金字塔公司招聘会都为我们提供了一个接触年轻人才的绝佳平台,2025 年的招聘会对我们来说又一次取得了圆满成功。
    发表于 06-04 14:32

    利用英特尔OpenVINO在本地运行Qwen2.5-VL系列模型

    近期阿里通义实验室在 Hugging Face 和 ModelScope 上开源了 Qwen2.5-VL 的 Base 和 Instruct 模型,包含 3B、7B 和 72B 在内的 3 个模型尺寸。
    的头像 发表于 03-12 13:42 ?1089次阅读
    利用英特尔OpenVINO在本地运行Qwen2.5-<b class='flag-5'>VL</b>系列<b class='flag-5'>模型</b>

    使用OpenVINO? 2021.4在CPU和MYRIAD上进行自定义对象检测,为什么结果差异巨大?

    使用自定义训练的模型执行推理,以便在 2021.4 OpenVINO?中进行人员检测。 与 MYRIAD 相比,CPU 的输出结果取得了巨大的差异
    发表于 03-06 07:45

    中科驭数DPU助力大模型训练和推理

    随着深度学习技术的快速发展,大模型(如GPT、BERT等)在自然语言处理、计算机视觉等领域取得了显著成果。然而,大模型的参数量和计算量极其庞大,传统的硬件架构或者单台设备(如单个GPU
    的头像 发表于 02-19 09:48 ?767次阅读
    中科驭数DPU助力大<b class='flag-5'>模型</b>训练和推理

    字节豆包大模型团队推出UltraMem稀疏架构

    字节跳动豆包大模型Foundation团队近期在稀疏模型架构领域取得了新突破,提出了一种名为UltraMem的新型架构。这一架构通过将计算和参数解耦,成功解决了
    的头像 发表于 02-13 11:17 ?756次阅读

    大连理工提出基于Wasserstein距离(WD)的知识蒸馏方法

    的机制,应用于中间层蒸馏时存在问题,其无法处理不重叠的分布且无法感知底层流形的几何结构。 为了解决这些问题,大连理工大学的研究人员提出了一种基于 Wasserstein 距离(WD)的知识蒸馏方法。所提出方法在图像分类和目标检测任务上均
    的头像 发表于 01-21 09:45 ?671次阅读

    基于移动自回归的时序扩散预测模型

    回归取得了比传统基于噪声的扩散模型更好的生成效果,并且获得了人工智能顶级会议 NeurIPS 2024 的 best paper。 然而在时间序列预测领域,
    的头像 发表于 01-03 14:05 ?967次阅读
    基于移动自回归的时序扩散预测<b class='flag-5'>模型</b>

    微软科技2025年的新年祝福

    2024即将画上句号,在过去的一年里,很微软 AI持续创新和突破,并取得了瞩目的成就。
    的头像 发表于 01-02 09:09 ?615次阅读

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    取得了令人瞩目的效果。 阅读感悟 从传统的手动编程到借助大模型实现智能化、自主化,从单一模态的交互到多模态信息的深度融合,再到扩散模型的应用,机器人控制技术正在以惊人的速度进化。这不
    发表于 12-29 23:04

    国外科研团队在X射线科学领域取得了重大突破

    近日,据《自然·光子学》报道,欧洲X射线自由电子激光装置(XFEL)和德国电子同步加速器研究中心团队在X射线科学领域取得了重大突破。他们成功生成了前所未有的高功率、阿秒级硬X射线脉冲,且重复频率达到
    的头像 发表于 12-20 09:11 ?470次阅读

    当前主流的大模型对于底层推理芯片提出了哪些挑战

    随着大模型时代的到来,AI算力逐渐变成重要的战略资源,对现有AI芯片也提出了前所未有的挑战:大算力的需求、高吞吐量与低延时、高效内存管理、能耗等等。
    的头像 发表于 09-24 16:57 ?1249次阅读

    通义千问发布第二代视觉语言模型Qwen2-VL

    。Qwen2-VL系列模型在多模态处理领域取得了突破性进展,于多个权威测评中崭露头角,刷新了多项最佳成绩记录,展现出强大的视觉理解与语言交互能力。
    的头像 发表于 09-03 16:31 ?900次阅读

    华无风扇BOX PC搭载兆芯KX-6000G处理器

    近日,工控领导企业华基于兆芯开先KX-6000G高效能处理器打造的新一代多扩展无风扇BOX PC——ITA-166顺利上市。此前,华基于兆芯处理器已经成功开发出多款工业电脑,并取得了良好的市场反馈。
    的头像 发表于 08-28 11:19 ?1095次阅读

    摩尔线程正式开源音频理解大模型MooER

    近日,国内领先的GPU创新企业摩尔线程宣布了一项重大技术突破——正式开源其自主研发的音频理解大模型MooER(摩耳)。这一举动标志着我国在音频处理与理解领域迈出了坚实的一步,特别是在基于国产硬件的AI模型研发上取得了显著成就。
    的头像 发表于 08-27 15:24 ?965次阅读

    Google Gemma 2模型的部署和Fine-Tune演示

    Google 近期发布了最新开放模型 Gemma 2,目前与同等规模的开放模型相比,取得了明显的优势,同时在安全可控性上得到了显著的增强。
    的头像 发表于 08-09 17:04 ?1349次阅读
    Google Gemma 2<b class='flag-5'>模型</b>的部署和Fine-Tune演示