Skip to content

Transformer

论文

https://arxiv.org/abs/1706.03762

https://arxiv.org/html/1706.03762v7

模型架构

请参阅标题

Encoder-Decoder架构是Transformer模型的基础,主要用于处理序列到序列的建模任务

该架构通过编码器(Encoder)和解码器(Decoder)的配合,将输入序列转换为中间表示,再将中间表示解码为目标序列。

编码器的功能:将输入序列转换为固定长度的高维表示,这种表示包含输入序列中的语义和上下文信息。

解码器的功能:根据编码器生成的中间表示及目标序列的历史信息,生成目标序列中的下一个输出

这种架构特别适用于机器翻译、文本生成等任务,例如将一种语言的句子翻译为另一种语言时,编码器可以提取源语言的特征,而解码器则可以生成目标语言的内容。