0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌将AutoML应用于Transformer架构,翻译结果飙升!

DPVg_AI_era ? 来源:YXQ ? 2019-06-16 11:29 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

为了探索AutoML在序列域中的应用是否能够取得的成功,谷歌的研究团队在进行基于进化的神经架构搜索(NAS)之后,使用了翻译作为一般的序列任务的代理,并找到了Evolved Transformer这一新的Transformer架构。Evolved Transformer不仅实现了最先进的翻译结果,与原始的Transformer相比,它还展示了语言建模的改进性能。

自几年前推出以来,Google的Transformer架构已经应用于从制作奇幻小说到编写音乐和声的各种挑战。重要的是,Transformer的高性能已经证明,当应用于序列任务(例如语言建模和翻译)时,前馈神经网络可以与递归神经网络一样有效。虽然用于序列问题的Transformer和其他前馈模型越来越受欢迎,但它们的架构几乎完全是手动设计的,与计算机视觉领域形成鲜明对比。AutoML方法已经找到了最先进的模型,其性能优于手工设计的模型。当然,我们想知道AutoML在序列域中的应用是否同样成功。

在进行基于进化的神经架构搜索(NAS)之后,我们使用翻译作为一般的序列任务的代理,我们找到了Evolved Transformer,这是一种新的Transformer架构,它展示了对各种自然语言处理(NLP)任务的有希望的改进。Evolved Transformer不仅实现了最先进的翻译结果,而且与原始的Transformer相比,它还展示了语言建模的改进性能。我们是将此新模型作为Tensor2Tensor的部分发布,它可用于任何序列问题。

开发技术

要开始进化NAS,我们有必要开发新技术,因为用于评估每个架构的“适应性”的任务——WMT'14英语-德语翻译——计算量很大。这使得搜索比在视觉领域中执行的类似搜索更加昂贵,这可以利用较小的数据集,如CIFAR-10。

这些技术中的第一种是温启动——在初始进化种群中播种Transformer架构而不是随机模型。这有助于在我们熟悉的搜索空间区域中进行搜索,从而使其能够更快地找到更好的模型。

第二种技术是我们开发的一种称为渐进动态障碍(PDH)(Progressive Dynamic Hurdles)的新方法,这种算法增强了进化搜索,以便为最强的候选者分配更多的资源,这与先前的工作相反,其中NAS的每个候选模型被分配相同的评估时的资源量。如果模型明显不好,PDH允许我们提前终止对模型的评估,从而使有前途的架构获得更多资源。

Evolved Transformer简介

使用这些方法,我们在翻译任务上进行了大规模的NAS,并发现了Evolved Transformer(ET)。与大多数序列到序列(seq2seq)神经网络体系结构一样,它有一个编码器,将输入序列编码为嵌入,解码器使用这些嵌入构造输出序列;在翻译的情况下,输入序列是要翻译的句子,输出序列是翻译。

演化变压器最有趣的特征是其编码器和解码器模块底部的卷积层,在两个地方都以类似的分支模式添加(即输入在加到一起之前通过两个单独的卷积层)。

Evolved Transformer与原始Transformer编码器架构的比较。注意模块底部的分支卷积结构,它独立地在编码器和解码器中形成。

这一点特别有趣,因为在NAS期间编码器和解码器架构不共享,因此独立发现该架构对编码器和解码器都很有用,这说明了该设计的优势。虽然最初的Transformer完全依赖于自我关注,但Evolved Transformer是一种混合体,利用了自我关注和广泛卷积的优势。

对Evolved Transformer的评估

为了测试这种新架构的有效性,我们首先将它与我们在搜索期间使用的英语-德语翻译任务的原始Transformer进行了比较。我们发现在所有参数尺寸下,Evolved Transformer具有更好的BLEU和 perplexity performance,拥有最大增益与移动设备兼容(约700万个参数),证明了参数的有效使用。在更大的尺寸上,Evolved Transformer在WMT'14 En-De上达到了最先进的性能,BLEU得分为29.8,SacreBLEU得分为29.2。

不同尺寸的WMT'14 En-DeEvolved Transformer与原Transformer的比较。性能的最大提高发生在较小的尺寸上,而ET在较大的尺寸上也显示出强度,优于最大的Transformer,参数减少37.6%(要比较的模型用绿色圈出)。

为了测试普遍性,我们还在其他NLP任务上将ET与Transformer进行了比较。首先,我们研究了使用不同语言对的翻译,发现ET表现提升,其边缘与英语-德语相似;再次,由于其有效使用参数,对于中型模型观察到了最大的提升。我们还比较了使用LM1B进行语言建模的两种模型的解码器,并且看到性能提升近2个perplexity。

未来工作

这些结果是探索体系结构搜索在前馈序列模型中应用的第一步。Evolved Transformer作为Tensor2Tensor的一部分已开源,在那里它可以用于任何序列问题。为了提高可重复性,我们还开源了我们用于搜索的搜索空间,以及实施渐进动态障碍的Colab。我们期待着看到研究团体用新模型做了什么,并希望其他人能够利用这些新的搜索技术!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6233

    浏览量

    108612
  • 开源
    +关注

    关注

    3

    文章

    3784

    浏览量

    44147

原文标题:谷歌将AutoML应用于Transformer架构,翻译结果飙升,已开源!

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 ?2052次阅读
    自动驾驶中<b class='flag-5'>Transformer</b>大模型会取代深度学习吗?

    Transformer在端到端自动驾驶架构中是何定位?

    典型的Transformer架构已被用于构建“感知-规划-控制统一建模”的方案。如Waymo和小马智行正在研发的多模态大模型(MultimodalLargeModels,MLLMs),将来自摄像头
    的头像 发表于 08-03 11:03 ?658次阅读

    Transformer架构中编码器的工作流程

    编码器是Transformer体系结构的基本组件。编码器的主要功能是输入标记转换为上下文表示。与早期独立处理token的模型不同,Transformer编码器根据整个序列捕获每个token的上下文。
    的头像 发表于 06-10 14:27 ?443次阅读
    <b class='flag-5'>Transformer</b><b class='flag-5'>架构</b>中编码器的工作流程

    Transformer架构概述

    由于Transformer模型的出现和快速发展,深度学习领域正在经历一场翻天覆地的变化。这些突破性的架构不仅重新定义了自然语言处理(NLP)的标准,而且拓宽了视野,彻底改变了AI的许多方面。
    的头像 发表于 06-10 14:24 ?470次阅读
    <b class='flag-5'>Transformer</b><b class='flag-5'>架构</b>概述

    如何使用MATLAB构建Transformer模型

    LanguageProcessing, NLP)中的序列到序列任务,如机器翻译Transformer 通过引入自注意力机制使得处理长距离依赖关系时变得高效。因此 Vaswani 等人的论文强调“注意力是所需的一切”。
    的头像 发表于 02-06 10:21 ?4522次阅读
    如何使用MATLAB构建<b class='flag-5'>Transformer</b>模型

    AI助力实时翻译耳机

    是一种能够实时一种语言翻译成另一种语言的耳机设备。它通常由一个耳机和一个配套的应用程序组成,用户可以通过应用程序选择需要翻译的语言,并通过耳机听到翻译
    的头像 发表于 01-24 11:14 ?2037次阅读
    AI助力实时<b class='flag-5'>翻译</b>耳机

    transformer专用ASIC芯片Sohu说明

    2022年,我们打赌说transformer会统治世界。 我们花了两年时间打造Sohu,这是世界上第一个用于transformer(ChatGPT中的“T”)的专用芯片。
    的头像 发表于 01-06 09:13 ?1305次阅读
    <b class='flag-5'>transformer</b>专用ASIC芯片Sohu说明

    LLMWorld上线代码翻译新工具——问丫·码语翻译侠,快来体验!

    应用案例 aicode.llmworld.net 案例一 阅读复杂算法,将计算机语言翻译成自然语言和伪代码,快速帮助用户理解算法实现逻辑。 Input(C++): 正弦波信号进行傅里叶变换,并输出其频域结果的C++
    的头像 发表于 12-09 11:11 ?1143次阅读
    LLMWorld上线代码<b class='flag-5'>翻译</b>新工具——问丫·码语<b class='flag-5'>翻译</b>侠,快来体验!

    Transformer是机器人技术的基础吗

    生成式预训练Transformer(GPT)被吹捧为彻底改变机器人技术。但实际应用中,GPT需要庞大且昂贵的计算资源、冗长的训练时间以及(通常)非机载无线控制,诸多限制之下,GPT技术真的
    的头像 发表于 12-05 10:54 ?743次阅读
    <b class='flag-5'>Transformer</b>是机器人技术的基础吗

    Transformer模型的具体应用

    如果想在 AI 领域引领一轮新浪潮,就需要使用到 Transformer
    的头像 发表于 11-20 09:28 ?1735次阅读
    <b class='flag-5'>Transformer</b>模型的具体应用

    SensiML开源了Analytics Studio AutoML引擎

    我们很高兴地宣布,我们的AutoML服务器应用程序Analytics Studio很快在开源许可下提供。我们还将推出一个新的开源项目网站,以联合一个致力于为 tinyML 模型开发创建全面的、与硬件无关的解决方案的开发人员社区。此次发布计划于初夏进行,我们正准备在您的支
    的头像 发表于 11-06 09:36 ?902次阅读
    SensiML开源了Analytics Studio <b class='flag-5'>AutoML</b>引擎

    英伟达推出归一化Transformer,革命性提升LLM训练速度

    了新的突破。 相较于传统的Transformer架构,nGPT在保持原有精度的同时,直接大型语言模型(LLM)的训练速度提升了高达20倍。这一显著的性能提升,无疑极大地推动AI技术
    的头像 发表于 10-23 11:30 ?961次阅读

    UCC3570电压模式PWM控制器应用于离线AND DC/DC转换器设计

    电子发烧友网站提供《UCC3570电压模式PWM控制器应用于离线AND DC/DC转换器设计.pdf》资料免费下载
    发表于 10-23 09:18 ?1次下载
    <b class='flag-5'>将</b>UCC3570电压模式PWM控制器<b class='flag-5'>应用于</b>离线AND DC/DC转换器设计

    TI TSC应用于各种和多种功能

    电子发烧友网站提供《TI TSC应用于各种和多种功能.pdf》资料免费下载
    发表于 10-22 10:15 ?0次下载
    <b class='flag-5'>将</b>TI TSC<b class='flag-5'>应用于</b>各种和多种功能

    如何 THVD8000 应用于星型网络系统

    电子发烧友网站提供《如何 THVD8000 应用于星型网络系统.pdf》资料免费下载
    发表于 09-12 10:36 ?0次下载
    如何<b class='flag-5'>将</b> THVD8000 <b class='flag-5'>应用于</b>星型网络系统