译者 | Arno 来源 | Medium XLNet是一种新的预训练模型,在20项任务中表现优于BERT,且有大幅度的提升. 这是什么原因呢? 在不了解机器学习的情况下,不难估计我们捕获的上下文越多,预测就越准确. 因此,模型能够深入而有效地捕获大多数上下文的能力是其提升的原因. 让我们玩一个游戏,在下面的上下文中,[Guess1]和[Guess2]分别是什么呢? ['Natural', 'language', 'processing', 'is', 'a', 'marriage', 'of'…