Transformer介绍

Contents

Transformer介绍#

transformer的结构如下：

重点关注这几个概念：

Tokenization 分词器
Embedding 词嵌入
Positional Encoding 位置编码
Self-attention 自注意力机制
Multi-head attention 多头注意力与采用掩码机制的多头注意力
Batch Norm & Layer Norm 批标准化/层标准化 llama用的是RMSNorm
ResNet 残差网络
Linear 线性层
Feed Forward 前馈神经网络

下面是来自沐神的图

Encoder-Decoder 架构#

Encoder-Decoder 是一种神经网络架构，用来处理输入序列并生成输出序列。它包括两个主要部分：

Encoder（编码器）：将输入序列转换为固定长度的表示向量（通常称为上下文向量或隐藏状态）。这个表示捕获了输入序列的信息。
Decoder（解码器）：基于编码器生成的表示向量，逐步生成输出序列。

简单的运行逻辑为：

Encoder-Decoder 是一种广义的框架，可以看作一种通用的思想

Encoder-Decoder框架可以看作是一种深度学习领域的研究模式，应用场景异常广泛。图2是文本处理领域里常用的Encoder-Decoder框架最抽象的一种表示。

四种Encoder-Decoder模式#