Seq2Seq 模型

Seq2Seq 模型#

Seq2Seq 是具体使用 Encoder-Decoder 架构的模型。它特别适合处理输入和输出都是序列的任务。其主要流程如下:

  • 输入序列首先通过编码器,被编码为一个固定大小的上下文向量。

  • 然后,解码器根据这个上下文向量生成输出序列。解码器可以是一个循环神经网络(RNN)、长短期记忆网络(LSTM)或门控循环单元(GRU)。

Encoder-Decoder框架可以看作是一种深度学习领域的研究模式,应用场景异常广泛。图2是文本处理领域里常用的Encoder-Decoder框架最抽象的一种表示。

什么是 Seq2Seq?#

Seq2Seq(是 Sequence-to-sequence 的缩写),就如字面意思,输入一个序列,输出另一个序列。这种结构最重要的地方在于输入序列和输出序列的长度是可变的。例如下图: