0.引言 我们发现传统的(如前向网络等)非循环的NN都是假设样本之间无依赖关系(至少时间和顺序上是无依赖关系),而许多学习任务却都涉及到处理序列数据,如image captioning,speech synthesis,music generation是基于模型输出序列数据:如time series prediction,video analysis,musical information retrieval是基于模型输入需要序列数据:而如translating natural language…