本篇带来XL-Net和它的基础结构Transformer-XL.在讲解XL-Net之前需要先了解Transformer-XL,Transformer-XL不属于预训练模型范畴,而是Transformer的扩展版,旨在解决Transformer的捕获长距离依赖信息的上限问题.接下来我们详细的介绍Transformer-XL和XL-Net. 一,Transformer-XL 论文:TRANSFORMER-XL: LANGUAGE MODELING WITH LONGER-TERM DEPENDENC