0.背景 RNN模型,特别是包含着门控制的如LSTM等模型,近年来成了深度学习解决序列任务的标准结构.RNN层不但可以解决变长输入的问题,还能通过多层堆叠来增加网络的深度,提升表征能力和提升准确度.然而,标准的RNN(包括LSTM)受限于无法处理那些具有非常长的序列问题,例如文档分类或者字符级别的机器翻译:同样的,其也无法并行化的计算特征或者说,也无法同时针对文档不同部分状态进行计算. CNN模型,特别适合处理图片数据,可是近年来也用在处理序列编码任务了(如文献1).通过应用时间不变性的过滤器函…