终于来学习transformer了 seq2seq就是一种实现。这里的区别是: * seq2seq特指 encoder/decoder的架构,先encoder编码成一个vector,再用decoder生成输出 * transformer就是这种 * Transduction Model 不仅限于编码器-解码器架构,还可以包括其他形式的序列转换方法。 - 例如,基于规则的系统、统计模型或端到端的神经网络模型。 attention的作用是用来捕获长距离依赖关系,这里再来解释一下: To the best of our …