本篇带来XL-Net和它的基础结构Transformer-XL.在讲解XL-Net之前需要先了解Transformer-XL,Transformer-XL不属于预训练模型范畴,而是Transformer的扩展版,旨在解决Transformer的捕获长距离依赖信息的上限问题.接下来我们详细的介绍Transformer-XL和XL-Net. 一,Transformer-XL 论文:TRANSFORMER-XL: LANGUAGE MODELING WITH LONGER-TERM DEPENDENC
目录前言源码解析模型配置参数BertModelword embeddingembedding_postprocessorTransformerself_attention模型应用前言BERT的模型主要是基于Transformer架构(论文:Attention is all you need).它抛开了RNN等固有模式,直接用注意力机制处理Seq2Seq问题,体现了大道至简的思想.网上对此模型解析的资料有很多,但大都千篇一律.这里推荐知乎的一篇<Attention is all you need>
论文题目<Spatial-Spectral T ransformer for Hyperspectral Image Classification> 论文作者:Xin He 1 , Yushi Chen 1,* and Zhouhan Lin 2 论文发表年份:2021 模型简称:SST 发表期刊:Remote Sensing Motivation 基于cnn的方法具有空间特征提取的优点,但它们难以处理带有序列的数据,且不善于建模远程依赖关系.而HSI的光谱是一种序列数据,通常包含数百个波段.