主题
Transformer
论文
https://arxiv.org/abs/1706.03762
https://arxiv.org/html/1706.03762v7
模型架构

Encoder-Decoder架构是Transformer模型的基础,主要用于处理序列到序列的建模任务
。
该架构通过编码器(Encoder)和解码器(Decoder)的配合,将输入序列转换为中间表示,再将中间表示解码为目标序列。
编码器的功能:将输入序列转换为固定长度的高维表示
,这种表示包含输入序列中的语义和上下文信息。
解码器的功能:根据编码器生成的中间表示及目标序列的历史信息,生成目标序列中的下一个输出
。
这种架构特别适用于机器翻译、文本生成等任务,例如将一种语言的句子翻译为另一种语言时,编码器可以提取源语言的特征,而解码器则可以生成目标语言的内容。