Transformer介绍#

transformer的结构如下:

重点关注这几个概念:
  • Tokenization 分词器

  • Embedding 词嵌入

  • Positional Encoding 位置编码

  • Self-attention 自注意力机制

  • Multi-head attention 多头注意力与采用掩码机制的多头注意力

  • Batch Norm & Layer Norm 批标准化/层标准化 llama用的是RMSNorm

  • ResNet 残差网络

  • Linear 线性层

  • Feed Forward 前馈神经网络

下面是来自沐神的图

Encoder-Decoder 架构#

Encoder-Decoder 是一种神经网络架构,用来处理输入序列并生成输出序列。它包括两个主要部分:

  • Encoder(编码器):将输入序列转换为固定长度的表示向量(通常称为上下文向量或隐藏状态)。这个表示捕获了输入序列的信息。

  • Decoder(解码器):基于编码器生成的表示向量,逐步生成输出序列。

简单的运行逻辑为:

Encoder-Decoder 是一种广义的框架,可以看作一种通用的思想

Encoder-Decoder框架可以看作是一种深度学习领域的研究模式,应用场景异常广泛。图2是文本处理领域里常用的Encoder-Decoder框架最抽象的一种表示。

四种Encoder-Decoder模式#