0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从BERT得到最强句子Embedding的打开方式

深度学习自然语言处理 ? 来源:夕小瑶的卖萌屋 ? 作者:夕小瑶的卖萌屋 ? 2020-12-31 10:10 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

你有尝试从 BERT 提取编码后的 sentence embedding 吗?很多小伙伴的第一反应是:不就是直接取顶层的[CLS] token的embedding作为句子表示嘛,难道还有其他套路不成?

nono,你知道这样得到的句子表示捕捉到的语义信息其实很弱吗?今天向大家介绍一篇来自于 CMU 和字节跳动合作,发表在 EMNLP2020 的 paper, 详尽地分析了从预训练模型得到 sentence embedding 的常规方式的缺陷和最佳打开方式,是一篇非常实用、轻松帮助大家用BERT刷分的文章。论文质量蛮高,分析和发现很有趣,通读之后感觉收获多多。

自2018年BERT惊艳众人之后,基于预训练模型对下游任务进行微调已成为炼丹的标配。然而近两年的研究却发现,没有经过微调,直接由BERT得到的句子表示在语义文本相似性方面明显薄弱,甚至会弱于GloVe得到的表示。此篇论文中首先从理论上探索了masked language model 跟语义相似性任务上的联系,并通过实验分析了BERT的句子表示,最后提出了BERT-Flow来解决上述问题。

为什么BERT的句子Embeddings表现弱?

由于Reimers等人之前已实验证明 context embeddings 取平均要优于[CLS] token的embedding。因而在文章中,作者都以最后几层文本嵌入向量的平均值来作为BERT句子的表示向量。

语义相似性与BERT预训练的联系

为了探究上述问题,作者首先将语言模型(LM)与掩盖语言模型(MLM) 统一为: 给定context(c)预测得到 token(x) 的概率分布,即

这里 是context的embedding, 表示 的word embedding。进一步,由于将 embedding 正则化到单位超球面时,两个向量的点积等价于它们的cosine 相似度,我们便可以将BERT句子表示的相似度简化为文本表示的相似度,即 。

另外,考虑到在训练中,当 c 与 w 同时出现时,它们对应的向量表示也会更接近。换句话说,context-context 的相似度可以通过 context-words 之间的相似度推出或加强。

各向异性嵌入空间

Jun Gao, Lingxiao Wang 等人在近几年的ICLR paper中有提到语言模型中最大似然目标的训练会产生各向异性的词向量空间,即向量各个方向分布并不均匀,并且在向量空间中占据了一个狭窄的圆锥体,如下图所示~

这种情况同样也存在于预训练好的基于Transformer的模型中,比如BERT,GPT-2。而在这篇paper中,作者通过实验得到以下两个发现:

词频率影响词向量空间的分布:文中通过度量BERT词向量表示与原点 l_2 距离的均值得到以下的图表。我们可以看到高频的词更接近原点。由于word embedding在训练过程中起到连接文本embedding的作用,我们所需的句子表示向量可能会相应地被单词频率信息误导,且其保留的语义信息可能会被破坏。

2c10abf8-4a92-11eb-8b86-12bb97331649.png

低频词分布偏向稀疏:文中度量了词向量空间中与K近邻单词的 l_2 距离的均值。我们可以看到高频词分布更集中,而低频词分布则偏向稀疏。然而稀疏性的分布会导致表示空间中存在很多“洞”,这些洞会破坏向量空间的“凸性”。考虑到BERT句子向量的产生保留了凸性,因而直接使用其句子embeddings会存在问题。

Flow-based 生成模型

那么,如何无监督情况下充分利用BERT表示中的语义信息?为了解决上述存在的问题,作者提出了一种将BERT embedding空间映射到一个标准高斯隐空间的方法(如下图所示),并称之为“BERT-flow”。而选择 Gaussian 空间的动机也是因为其自身的特点:

标准高斯分布满足各向同性

高斯分布区域没有“洞”,即不存在破坏“凸性”的情况

上图中 表示隐空间, 表示观测到的空间,f: 是可逆的变换。根据概率密度函数中变量替换的定理,我们可以得到观测变量的概率密度函数如下:

进一步,作者通过最大化BERT句子表示的边缘似然函数来学习基于流的生成模型,即通过如下的公式来训练flow的参数:

其中 表示数据集分布, 为神经网络。需要注意的是,在训练中,不需要任何人工标注!另外,BERT的参数保持不变,仅有流的参数进行优化更新。其次,在实验中,作者基于Glow (Dinh et al., 2015)的设计(多个可逆变换组合)进行改动,比如将仿射耦合(affine coupling)替换为了加法耦合(additive coupling)。

实验及结果

论文的实验部分在7个数据集上进行衡量语义文本相似性任务的效果。

实验步骤:

通过句子encoder得到每个句子的向量表示。

计算句子之间的cosine similarity 作为模型预测的相似度。

计算Spearman系数。

实验结果:

2f9febe4-4a92-11eb-8b86-12bb97331649.png

上图汇报了sentence embeddings的余弦相似度同多个数据集上真实标签之间的Spearman等级相关性得分(),其中flow-target 表示在完整的目标数据集(train+validation+test)上进行学习,flow-NLI 表示模型在NLI(natual language inference)任务的测试,绿色箭头表示相对于BERT的baseline,模型的效果有提升,红色反之。

我们可以注意到模型的改进对于效果的提升还是很显著滴!文章同样还在无监督问答任务证明模型的有效性,并将BERT-flow得到的语义相似度同词法相似度(通过编辑距离来衡量)进行对比,结果同样证明模型在引入流的可逆映射后减弱了语义相似性与词法相似性之间的联系!具体信息大家可查阅paper~

小结

总之,这篇paper探究了BERT句子表示对于语义相似性上潜在的问题,并提出了基于流的可逆映射来改进在对应任务上的表现。想多了解的童鞋可以看看原文,相信你们也会喜欢上这篇paper!

原文标题:还在用[CLS]?从BERT得到最强句子Embedding的打开方式!

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    7679

    浏览量

    90987
  • 模型
    +关注

    关注

    1

    文章

    3531

    浏览量

    50571

原文标题:还在用[CLS]?从BERT得到最强句子Embedding的打开方式!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    短距离不用加?加了总没错?终端电阻的正确“打开方式

    前言 RS-485作为一种广泛应用于工业场景的差分信号通信标准,其通信效果的升级始终是工控领域人士不断探索的重要课题。 在RS-485通信系统的实际应用中,一个备受关注且极具探讨价值的问题是:是否需要使用终端电阻?今天,我们就围绕这一话题展开交流。 想象一下,你在一条长长的走廊里大声喊话,如果没有任何缓冲,声音会在两端来回反射,变成一片嘈杂的回音。这就是没有终端电阻的总线通信环境——信号反射严重,数据传输失真。这种反射
    的头像 发表于 06-09 16:35 ?386次阅读
    短距离不用加?加了总没错?终端电阻的正确“<b class='flag-5'>打开方式</b>”

    CSG船用隔离变压器真是船舶电气系统的“隐形守护者”?这些真相你必须知道! 开头

    。今天,我们就用三个真实场景,揭秘CSG船用隔离变压器的正确打开方式。核心分析场景一:抗干扰≠堆砌滤波器,接地设计才是根本某近海支援船在安装CSG船用隔离变压器后,
    的头像 发表于 06-09 09:29 ?265次阅读
    CSG船用隔离变压器真是船舶电气系统的“隐形守护者”?这些真相你必须知道! 开头

    岳信仪器告诉你榨汁机气密性检测仪的正确打开方式

    在榨汁机生产过程中,气密性是一项关键指标。而榨汁机气密性检测仪则是确保产品气密性达标的重要工具。那么,该如何正确使用它呢?下面就为大家详细介绍榨汁机气密性检测仪的正确打开方式。(1)检测前的准备工作
    的头像 发表于 05-29 15:52 ?171次阅读
    岳信仪器告诉你榨汁机气密性检测仪的正确<b class='flag-5'>打开方式</b>

    选型不迷茫!PCB分板机主轴的正确打开方式

    在电子制造领域,PCB(印刷电路板)分板机是实现高效、精准切割的关键设备。作为分板机的"心脏",主轴系统的性能直接影响加工效率、切割精度及设备寿命。德国Sycotec,作为高速电主轴的老品牌企业,凭借其百年技术积淀与持续创新,已成为全球高端分板机主轴的首选品牌。多年来持续生产研发出多款高速、高精度、高效的PCB分板机主轴,一起了解看看。Sycotec用于PC
    的头像 发表于 05-12 13:31 ?234次阅读
    选型不迷茫!PCB分板机主轴的正确<b class='flag-5'>打开方式</b>

    3分钟看懂锡膏在回流焊的正确打开方式

    本文揭秘锡膏在回流焊核心工艺:预热区“热身”(150-180℃)到回流区“巅峰熔融”(230-250℃),锡膏经历四段精密温控旅程,助焊剂活化、冶金反应、晶格定型的每一步都暗藏工艺玄机。文章以
    的头像 发表于 04-07 18:03 ?610次阅读
    3分钟看懂锡膏在回流焊的正确<b class='flag-5'>打开方式</b>

    一种很新的“工厂”打开方式---智慧工厂

    ? ? ? ?随着信息技术的不断进步,特别是数字化、网络化、智能化技术的快速发展,传统的工厂管理模式已经难以满足现代企业对于生产效率、安全管理以及决策支持等方面的需求,智能制造已成为全球制造业发展的主流趋势。 ? ? ? ?由于工厂实时数据的多样性、复杂性,包括数字化的传感器读数、机器和设备的操作状态、温度、湿度、压力等环境指标,以及生产计划、工作流程和相关人员信息等,因此需要深度结合客户场景,对工厂各个环节的数
    的头像 发表于 03-20 08:45 ?279次阅读

    接入AI大模型!利尔达蜂窝模组让设备秒变“机灵小话痨”

    各显神通。本期我们就来分享下应用平台对接大模型的秘籍,它具备高兼容性、低部署成本及灵活的多模态扩展能力等优势。下期将解锁更多"打开方式"——毕竟在AI应用生态里,通往罗
    的头像 发表于 02-12 19:05 ?531次阅读
    接入AI大模型!利尔达蜂窝模组让设备秒变“机灵小话痨”

    Giada杰和科技ISE展会直击|在巴塞罗那,遇见视听未来的N种打开方式

    欧洲专业视听设备与信息系统集成技术展览会当地时间2月7日,欧洲专业视听设备与信息系统集成技术展览会(以下简称ISE)在西班牙巴塞罗那落下帷幕。ISE是欧洲举办最成功的、全球观众人数最多的专业视听展览会,素有视听行业“风向标”之称。今年,杰和科技如约而至,连续第15年参展,再次携多款AI驱动、智能零售及工业级计算解决方案亮相,以硬核技术实力与场景化应用方案,向
    的头像 发表于 02-10 10:33 ?372次阅读
    Giada杰和科技ISE展会直击|在巴塞罗那,遇见视听未来的N种<b class='flag-5'>打开方式</b>

    【「基于大模型的RAG应用开发与优化」阅读体验】+Embedding技术解读

    理和理解这些数据。在自然语言处理中,Embedding常用于将文本数据中的单词、句子或文档映射为固定长度的实数向量,这些向量包含了丰富的语义信息。RAG技术是一种结合信息检索与文本生成能力的技术,它通过
    发表于 01-17 19:53

    掌握压铸铝件气密性检测设备的正确打开方式-岳信仪器

    气密性检测是保证压铸铝件生产过程中产品质量的关键环节。压铸铝件气密性检测设备的正确开启和使用,不仅可以提高检测效率,而且可以保证检测结果的准确性。下面将详细介绍如何正确开启和使用压铸铝件气密性检测设备。首先,确保设备的适当使用环境。设备应放置在避免阳光直射、无强磁场和腐蚀性物品的地方。同时,要保证电源和气源稳定、干净、无杂质,尽可能干燥气源,避免与其他气动元
    的头像 发表于 10-14 15:10 ?431次阅读
    掌握压铸铝件气密性检测设备的正确<b class='flag-5'>打开方式</b>-岳信仪器

    嵌入式学习-飞凌嵌入式ElfBoard ELF 1板卡 -通用文件I/O模型之open

    打开的文件; flags为打开文件的标志位,控制打开方式; mode为可选参数,用于指定新创建文件的权限模式。 如果指定的文件不存在,则可以通过在flags中指定O_CREAT,然后open()即可创建
    发表于 10-11 08:56

    飞凌嵌入式ElfBoard ELF 1板卡-通用文件I/O模型之open

    的文件;flags为打开文件的标志位,控制打开方式;mode为可选参数,用于指定新创建文件的权限模式。如果指定的文件不存在,则可以通过在flags中指定O_CREAT,然后open()即可创建。flags
    发表于 10-10 09:09

    换热设备清洗的正确打开方式,不仅清洗效果好,而且安全无腐蚀

    换热器目前常用的换热介质多为水或蒸汽,在热交换过程中,水或蒸汽中的盐类和污垢容易析出导致结垢,产生的这些污垢会使设备和管道线路失效,装置系统会发生生产下降,能耗、物耗增加等不良情况,污垢腐蚀特别严重时还会使流程中断,装置系统被迫停产,直接造成各种经济损失,甚至还有可能发生恶性生产事故。
    的头像 发表于 08-12 15:33 ?1081次阅读
    换热设备清洗的正确<b class='flag-5'>打开方式</b>,不仅清洗效果好,而且安全无腐蚀

    AWG和BERT常见问题解答

    随着信号的速率越来越高,调制格式越来越复杂,对测试仪器的性能要求也越来越高。是德科技也一直在推出业界领先的高带宽、高采样率的AWG和高性能的BERT
    的头像 发表于 08-06 17:27 ?1335次阅读