堆叠多层

堆叠多层#

由于我们传入的\(X\)经过自注意机制后最终会得到\(r_1\)，这个\(r_1\)也是一个向量，我们就可以依旧使用上面的方式进行堆叠相同的方式进行处理，这样可以使特征更明显

如果考虑上面两个堆叠在一起就是这样的

编码器首先处理输入序列，顶部编码器的输出被转换为一组注意力向量\(K\)和\(V\)，给到解码器后通过与解码器中的\(Q\)结合运算出结果

以下步骤重复该过程，直到到达表示变压器解码器已完成其输出的特殊符号。

解码器堆栈输出浮点数向量。我们如何把它变成一个词？这就是最后一个 Linear 层的工作，后面是 Softmax 层