Transformer介绍#
transformer的结构如下:

Tokenization 分词器
Embedding 词嵌入
Positional Encoding 位置编码
Self-attention 自注意力机制
Multi-head attention 多头注意力与采用掩码机制的多头注意力
Batch Norm & Layer Norm 批标准化/层标准化 llama用的是RMSNorm
ResNet 残差网络
Linear 线性层
Feed Forward 前馈神经网络
下面是来自沐神的图
Encoder-Decoder 架构#
Encoder-Decoder 是一种神经网络架构,用来处理输入序列并生成输出序列。它包括两个主要部分:
Encoder(编码器):将输入序列转换为固定长度的表示向量(通常称为上下文向量或隐藏状态)。这个表示捕获了输入序列的信息。
Decoder(解码器):基于编码器生成的表示向量,逐步生成输出序列。
简单的运行逻辑为:

Encoder-Decoder 是一种广义的框架,可以看作一种通用的思想
Encoder-Decoder框架可以看作是一种深度学习领域的研究模式,应用场景异常广泛。图2是文本处理领域里常用的Encoder-Decoder框架最抽象的一种表示。
四种Encoder-Decoder模式#
