0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Transformer架构中解码器的工作流程

SSDFans ? 来源:SSDFans ? 2025-06-10 14:32 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

解码器的作用主要是制作文本序列。与编码器类似,解码器也配备了一组类似的子层。它具有两个Multi-Headattention层,一个点前馈层,并且在每个子层之后都包含剩余连接和层归一化。

372edd92-458e-11f0-b715-92fbcf53809c.png

这些组件的功能类似于编码器的层,但有所不同:解码器中的每个Multi-Headattention层都有其独特的任务。

解码器的最后一个过程包括一个线性层,作为分类器,顶部是一个softmax函数来计算不同单词的概率。

Transformer解码器具有专门设计用于通过逐步解码编码信息来生成此输出的结构。

重要的是解码器以自回归的方式运行,用开始token启动其进程。它巧妙地使用先前生成的输出列表作为输入,与编码器的输出串联,编码器的输出包含来自初始输入的丰富的attention信息。

这种连续的解码一直持续到解码器到达关键时刻:生成标志其输出创建结束的token。

步骤1 -输出嵌入

在解码器的起跑线上,这个过程反映了编码器的过程。这里,输入首先通过嵌入层。

步骤2 -位置编码

在嵌入之后,再次像解码器一样,输入经过位置编码层。这个序列被设计用来产生位置嵌入。

然后将这些位置嵌入引入解码器的第一个Multi-Head attention层,在那里精心计算特定于解码器输入的注意分数。

步骤3 -解码器层堆栈

解码器由一堆相同的层组成(在原来的Transformer模型中是6层)。每一层有三个主要的子组件:

步骤3.1Masked Self-Attention机制

这类似于编码器中的Self-Attention机制,但有一个关键的区别:它防止位置关注后续位置,这意味着序列中的每个单词都不受未来标记的影响。

例如,当计算单词“are”的attention得分时,重要的是“are”不会偷看到序列中后面的单词“you”。

373cdd66-458e-11f0-b715-92fbcf53809c.png

这种屏蔽确保了对特定位置的预测只能依赖于在它之前位置的已知输出。

步骤3.2 -编码器-解码器Multi-Head attention或交叉attention

在解码器的第二个Multi-Head attention层中,我们看到编码器和解码器组件之间的独特相互作用。在这里,编码器的输出充当查询和键的角色,而解码器的第一个Multi-Head attention层的输出充当值。

这种设置有效地将编码器的输入与解码器的输入对齐,使解码器能够识别并强调编码器输入中最相关的部分。

在此之后,来自第二层Multi-Head attention的输出然后通过点前馈层进行细化,进一步增强处理。

37e7c6ea-458e-11f0-b715-92fbcf53809c.png

在这个子层中,查询来自前一个解码器层,键和值来自编码器的输出。这允许解码器中的每个位置参与输入序列中的所有位置,从而有效地将来自编码器的信息与解码器中的信息集成在一起。

步骤3.3前馈神经网络

与编码器类似,每个解码器层包括一个完全连接的前馈网络,分别并相同地应用于每个位置。

步骤4线性分类器和Softmax用于生成输出概率

数据通过Transformer模型的旅程在其通过最终的线性层时达到高潮,该线性层的功能是分类器。

这个分类器的大小对应于所涉及的类的总数(词汇表中包含的单词数)。例如,在一个有1000个不同的类代表1000个不同单词的场景中,分类器的输出将是一个有1000个元素的数组。

然后将该输出引入softmax层,该层将其转换为概率分数的范围,每个分数位于0到1之间。这些概率得分中最高的是key,它对应的索引直接指向模型预测的序列中的下一个单词。

37f8b810-458e-11f0-b715-92fbcf53809c.png

归一化和剩余连接

每个子层(Masked Self-Attention、编码器-解码器attention、前馈网络)之后是一个归一化步骤,每个子层周围还包括一个残余连接。

解码器的输出

最后一层的输出被转换成一个预测序列,通常是通过一个线性层,然后是一个softmax来生成词汇表的概率。

解码器在其操作流程中,将新生成的输出合并到其不断增长的输入列表中,然后继续进行解码过程。这个循环不断重复,直到模型预测到一个特定的token,表示完成。

预测概率最高的token被分配为结束类,通常由结束token表示。

再次记住,解码器并不局限于单层。它可以由N层组成,每一层都建立在从编码器及其前一层接收的输入上。这种分层架构允许模型分散其焦点,并在其attention head中提取不同的attention模式。

这种多层次的方法可以显著提高模型的预测能力,因为它对不同的attention组合有了更细致的理解。

最终的架构是类似于这样的(来自原始论文)

38096ec6-458e-11f0-b715-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1190

    浏览量

    42073
  • 模型
    +关注

    关注

    1

    文章

    3531

    浏览量

    50566
  • Transformer
    +关注

    关注

    0

    文章

    152

    浏览量

    6551

原文标题:Transformer架构详细解析——解码器

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    大众控为什么改家用需要解码器解码器是什么# 硬声创作季

    解码器电工技术控系统电路维修
    电子学习
    发布于 :2022年11月13日 19:09:36

    如何去制作红外遥控解码器

    红外遥控解码器的电路原理是什么?如何去制作红外遥控解码器?其步骤流程是怎样的?
    发表于 04-19 07:00

    网格环境基于移动Agent的工作流架构研究

    传统的工作流架构有很多弱点,比如架构严重降低了系统性能,在动态环境缺少灵活性。本文提出了一个集成了Web Services,网格,工作流
    发表于 08-18 08:31 ?17次下载

    基于DTMF的解码器设计

    本文介绍了DTMF 解码芯片MT8870 的功能和特点,给出了在解码器与89C51 单片机的接口电路,说明了解码器工作原理抗干扰措施。关
    发表于 08-19 08:20 ?71次下载

    基于DTMF的解码器设计

    本文介绍了DTMF 解码芯片MT8870 的功能和特点,给出了在解码器与89C51 单片机的接口电路,说明了解码器工作原理抗干扰措施。关
    发表于 08-21 09:42 ?34次下载

    解码器工作原理

    解码器就如同一台笔记本一样,通过解码器上的数据线,与汽车相关的接口对接,从而对汽车各系统进行全方位的身体检测。而且,解码器可以在接收到车主控钥匙发出的信号之后,将
    的头像 发表于 12-10 16:35 ?2.9w次阅读
    <b class='flag-5'>解码器</b>的<b class='flag-5'>工作</b>原理

    工作流程图怎么用?有哪些绘制工作流程图的软件

    工作流程图是清晰地展示工作中各个环节的流程图图示,主要用于工作活动和效率的管理。工作流程图这种图示方法具有直观描述性、简洁性、可操作性和指导
    的头像 发表于 07-28 14:22 ?3963次阅读

    PyTorch教程10.6之编码-解码器架构

    电子发烧友网站提供《PyTorch教程10.6之编码-解码器架构.pdf》资料免费下载
    发表于 06-05 18:12 ?0次下载
    PyTorch教程10.6之编码<b class='flag-5'>器</b>-<b class='flag-5'>解码器</b><b class='flag-5'>架构</b>

    PyTorch教程-10.6. 编码-解码器架构

    10.6. 编码-解码器架构? Colab [火炬]在 Colab 打开笔记本 Colab [mxnet] Open the notebook in Colab Col
    的头像 发表于 06-05 15:44 ?1200次阅读
    PyTorch教程-10.6. 编码<b class='flag-5'>器</b>-<b class='flag-5'>解码器</b><b class='flag-5'>架构</b>

    基于transformer的编码-解码器模型的工作原理

    与基于 RNN 的编码-解码器模型类似,基于 transformer 的编码-解码器模型由一个编码
    发表于 06-11 14:17 ?2892次阅读
    基于<b class='flag-5'>transformer</b>的编码<b class='flag-5'>器</b>-<b class='flag-5'>解码器</b>模型的<b class='flag-5'>工作</b>原理

    基于 RNN 的解码器架构如何建模

    ? Vaswani 等人在其名作 Attention is all you need 首创了?基于 transformer?的编码-解码器模型,如今已成为自然语言处理 (natur
    的头像 发表于 06-12 17:08 ?1215次阅读
    基于 RNN 的<b class='flag-5'>解码器</b><b class='flag-5'>架构</b>如何建模

    基于 Transformers 的编码-解码器模型

    基于 transformer 的编码-解码器模型是 表征学习 和 模型架构 这两个领域多年研究成果的结晶。本文简要介绍了神经编码-
    的头像 发表于 06-16 16:53 ?1331次阅读
    基于 Transformers 的编码<b class='flag-5'>器</b>-<b class='flag-5'>解码器</b>模型

    神经编码-解码器模型的历史

    基于 transformer 的编码-解码器模型是 表征学习 和 模型架构 这两个领域多年研究成果的结晶。本文简要介绍了神经编码-
    的头像 发表于 06-20 15:42 ?1235次阅读
    神经编码<b class='flag-5'>器</b>-<b class='flag-5'>解码器</b>模型的历史

    NX CAD软件:数字化工作流程解决方案(CAD工作流程)

    NXCAD——数字化工作流程解决方案(CAD工作流程)使用西门子领先的产品设计软件NXCAD加速执行基于工作流程的解决方案。我们在了解行业需求方面累积了多年的经验,并据此针对各个行业的具体需求提供
    的头像 发表于 02-06 18:15 ?495次阅读
    NX CAD软件:数字化<b class='flag-5'>工作流程</b>解决方案(CAD<b class='flag-5'>工作流程</b>)

    Transformer架构编码工作流程

    编码Transformer体系结构的基本组件。编码的主要功能是将输入标记转换为上下文表示。与早期独立处理token的模型不同,Transformer编码
    的头像 发表于 06-10 14:27 ?389次阅读
    <b class='flag-5'>Transformer</b><b class='flag-5'>架构</b><b class='flag-5'>中</b>编码<b class='flag-5'>器</b>的<b class='flag-5'>工作流程</b>