0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

介绍一种通用匹配对齐框架MAF

深度学习自然语言处理 ? 来源:知识工场 ? 作者:黄世洲 ? 2022-09-06 16:16 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

命名实体识别是NLP领域中的一项基础任务,在文本搜索、文本推荐、知识图谱构建等领域都起着至关重要的作用,一直是热点研究方向之一。多模态命名实体识别在传统的命名实体识别基础上额外引入了图像,可以为文本补充语义信息来进行消岐,近些年来受到人们广泛的关注。

尽管当前的多模态命名实体识别方法取得了成功,但仍然存在着两个问题:(1)当前大部分方法基于注意力机制来进行文本和图像间的交互,但由于不同模态的表示来自于不同的编码器,想要捕捉文本中token和图像中区域之间的关系是困难的。如下图所示,句子中的‘Rob’应该和图像中存在猫的区域(V5,V6,V9等)有着较高的相似度,但由于文本和图像的表示并不一致,在通过点积等形式计算相似度时,‘Rob’可能会和其它区域有着较高的相似度得分。因此,表示的不一致会导致模态之间难以建立起较好的关系。

7c7b002e-2d86-11ed-ba43-dac502259ad0.png

(2)当前的方法认为文本与其随附的图像是匹配的,并且可以帮助识别文本中的命名实体。然而,并不是所有的文本和图像都是匹配的,模型考虑这种不匹配的图像将会做出错误的预测。如下图所示,图片中没有任何与命名实体“Siri”相关的信息,如果模型考虑这张不匹配的图像,便会受图中“人物”的影响将“Siri”预测为PER(人)。而在只有文本的情况下,预训练模型(BERT等)通过预训练任务中学到的知识可以将“Siri”的类型预测为MISC(杂项)。

为了解决上述存在的问题,本文提出了MAF,一种通用匹配对齐框架(General Matching and Alignment Framework),将文本和图像的表示进行对齐并通过图文匹配的概率过滤图像信息 。由于该框架中的模块是插件式的,其可以很容易地被拓展到其它多模态任务上。

本文研究成果已被WSDM2022接收,

7cc4ec16-2d86-11ed-ba43-dac502259ad0.png7ce6e5e6-2d86-11ed-ba43-dac502259ad0.png

整体框架

本文框架如下图所示,由5个主要部分组成:

Input Representations

将原始的文本输入转为token序列的表示以及文本整体的表示,将原始的图像输入转为图像区域的表示以及图像整体的表示。

Cross-Modal Alignment Module

接收文本整体的表示和图像整体的表示作为输入,通过对比学习将文本和图像的表示变得更为一致。

Cross-Modal Interaction Module

接收token序列的表示以及图像区域的表示作为输入,使用注意力机制建立起文本token和图像区域之间的联系得到文本增强后的图像的表示。

Cross-Modal Matching Module

接收文本序列的表示和文本增强后的图像的表示作为输入,用于判断文本和图像匹配的概率,并用输出的概率对图像信息进行过滤。

Cross-Modal Fusion Module

将文本token序列的表示和最终图像的表示结合在一起输入到CRF层进行预测。

7cf10116-2d86-11ed-ba43-dac502259ad0.png7ce6e5e6-2d86-11ed-ba43-dac502259ad0.png

主要部分

Input Representations

pYYBAGMXAjyAfd_9AAIrPNeQE1s850.jpg

7d0aae22-2d86-11ed-ba43-dac502259ad0.png

pYYBAGMXAmiAViCiAAF8GHZxccw723.jpg
poYBAGMXAm-AZaj2AALcEY_MaGs226.jpg

7d2afa56-2d86-11ed-ba43-dac502259ad0.png

poYBAGMXAoyAAY87AAGwW_qDavA106.jpg

实验

主要结果

本文的方法在Twitter-2015和Twitter-2017数据集上效果均优于之前的方法。

7d4b855a-2d86-11ed-ba43-dac502259ad0.png

运行时间

本文的方法相比于之前的方法除了有着模态之间交互的模块(本文中为CI),还添加了对齐模态表示的CA以及判断图文是否匹配的CM,这可能会导致训练成本以及预测成本增加。但本文简化了模态之间交互的过程,因此整体训练和预测时间以及模型大小均由于之前的SOTA方法。

7d71210c-2d86-11ed-ba43-dac502259ad0.png

消融实验

本文进行了消融实验,验证了CA和CM的有效性。

7d8a1194-2d86-11ed-ba43-dac502259ad0.png

样例分析

本文还进行了样例分析来更加直观地展示CA和CM的有效性。

7da422a0-2d86-11ed-ba43-dac502259ad0.png



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3840

    浏览量

    138872
  • MLP
    MLP
    +关注

    关注

    0

    文章

    57

    浏览量

    4747

原文标题:用于多模态命名实体识别的通用匹配对齐框架

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    一种适用于动态环境的自适应先验场景-对象SLAM框架

    由于传统视觉SLAM在动态场景中容易会出现严重的定位漂移,本文提出了一种新颖的基于场景-对象的可靠性评估框架,该框架通过当前帧质量指标以及相对于可靠参考帧的场景变化,全面评估SLAM的稳定性。
    的头像 发表于 08-19 14:17 ?143次阅读
    <b class='flag-5'>一种</b>适用于动态环境的自适应先验场景-对象SLAM<b class='flag-5'>框架</b>

    介绍一种直流过压保护电路

    本篇博文将详细分析一种典型的过压保护电路,探讨其工作原理、元件选择及实际应用,帮助大家深入理解如何保护电子设备。
    的头像 发表于 07-05 11:06 ?425次阅读
    <b class='flag-5'>介绍</b><b class='flag-5'>一种</b>直流过压保护电路

    dhkey chcks不匹配怎么解决?

    \" 。 这是个随机问题,在配对和解除配对时观察到。 在执行此操作时,我们观察到在迭代 10 次配对和解除配对后,出现了密钥不
    发表于 07-01 06:36

    Allegro Skill布局功能--器件丝印过孔对齐介绍与演示

    Allegro系统虽然提供了基本的元件对齐功能,但其适用范围较为有限。相比之下,Fanyskill 的“对齐”命令在操作体验和功能性上更具优势:其界面设计更加直观易用,并支持多种元素的对齐操作,包括
    发表于 05-14 08:59 ?1390次阅读
    Allegro Skill布局功能--器件丝印过孔<b class='flag-5'>对齐</b><b class='flag-5'>介绍</b>与演示

    一种新型激光雷达惯性视觉里程计系统介绍

    针对具有挑战性的光照条件和恶劣环境,本文提出了LIR-LIVO,这是一种轻量级且稳健的激光雷达-惯性-视觉里程计系统。通过采用诸如利用深度与激光雷达点云关联实现特征的均匀深度分布等先进技术,以及利用
    的头像 发表于 04-28 11:18 ?497次阅读
    <b class='flag-5'>一种</b>新型激光雷达惯性视觉里程计系统<b class='flag-5'>介绍</b>

    一种实时多线程VSLAM框架vS-Graphs介绍

    针对现有VSLAM系统语义表达不足、地图可解释性差的问题,本文提出vS-Graphs,一种实时多线程VSLAM框架。该方案显著提升了重建地图的语义丰富度、可解释性及定位精度。实验表明
    的头像 发表于 04-19 14:07 ?469次阅读
    <b class='flag-5'>一种</b>实时多线程VSLAM<b class='flag-5'>框架</b>vS-Graphs<b class='flag-5'>介绍</b>

    一种多模态驾驶场景生成框架UMGen介绍

    端到端自动驾驶技术的快速发展对闭环仿真器提出了迫切需求,而生成式模型为其提供了一种有效的技术架构。然而,现有的驾驶场景生成方法大多侧重于图像模态,忽略了其他关键模态的建模,如地图信息、智能交通参与者等,从而限制了其在真实驾驶场景中的适用性。
    的头像 发表于 03-24 15:57 ?1084次阅读
    <b class='flag-5'>一种</b>多模态驾驶场景生成<b class='flag-5'>框架</b>UMGen<b class='flag-5'>介绍</b>

    Orcad绘制原理图的元器件对齐方法

    在使用Orcad软件绘制原理图的时候,为了使原理图绘制的美观些,有时候也希望像PCB设计样,将所有的器件都进行对齐,这里我们给大家介绍下,原理图器件
    的头像 发表于 02-07 10:33 ?1766次阅读
    Orcad绘制原理图的元器件<b class='flag-5'>对齐</b>方法

    AI开发框架集成介绍

    随着AI应用的广泛深入,单框架往往难以满足多样化的需求,因此,AI开发框架的集成成为了提升开发效率、促进技术创新的关键路径。以下,是对AI开发框架集成的
    的头像 发表于 01-07 15:58 ?650次阅读

    一种降低VIO/VSLAM系统漂移的新方法

    本文提出了一种新方法,通过使用点到平面匹配将VIO/VSLAM系统生成的稀疏3D点云与数字孪生体进行对齐,从而实现精确且全球致的定位,无需视觉数据关联。所提方法为VIO/VSLAM系
    的头像 发表于 12-13 11:18 ?808次阅读
    <b class='flag-5'>一种</b>降低VIO/VSLAM系统漂移的新方法

    KiCad的对齐工具不好用?

    “ ?不存在的。唯的原因是您还没有学会怎么用。 ? ” 对齐命令在哪里? KiCad的对齐命令(Align)藏得比较隐蔽,既不在菜单栏,也不在工具栏。右键的菜单中默认也不存在。只有当您 选中两个或
    的头像 发表于 12-04 18:15 ?1417次阅读
    KiCad的<b class='flag-5'>对齐</b>工具不好用?

    一种使用LDO简单电源电路解决方案

    本期我们介绍一种使用LDO简单电源电路解决方案,该方案可以处理12V/24V、多节锂离子电池和4节干电池等相对较高的输入电压。
    的头像 发表于 12-04 16:05 ?899次阅读
    <b class='flag-5'>一种</b>使用LDO简单电源电路解决方案

    一种面向飞行试验的数据融合框架

    天地气动数据致性,针对某外形飞行试验数据开展了典型对象的天地气动数据融合方法研究。结合数据挖掘的随机森林方法,本文提出了一种面向飞行试验的数据融合框架,通过引入地面风洞试验气动数据,实现了对复杂输入参数的特征
    的头像 发表于 11-27 11:34 ?948次阅读
    <b class='flag-5'>一种</b>面向飞行试验的数据融合<b class='flag-5'>框架</b>

    基于视觉语言模型的导航框架VLMnav

    本文提出了一种将视觉语言模型(VLM)转换为端到端导航策略的具体框架。不依赖于感知、规划和控制之间的分离,而是使用VLM在步中直接选择动作。惊讶的是,我们发现VLM可以作为一种无需任
    的头像 发表于 11-22 09:42 ?916次阅读

    I2S有左对齐,右对齐跟标准的I2S三格式,那么这三格式各有什么优点呢?

    大家好,关于I2S格式,有两个疑问请教下 我们知道I2S有左对齐,右对齐跟标准的I2S三格式,那么这三格式各有什么优点呢? 而且对于
    发表于 10-21 08:23