3分钟了解GPT Bert与XLNet的差异

译者 | Arno

来源 | Medium

XLNet是一种新的预训练模型，在20项任务中表现优于BERT，且有大幅度的提升。

这是什么原因呢？

在不了解机器学习的情况下，不难估计我们捕获的上下文越多，预测就越准确。

因此，模型能够深入而有效地捕获大多数上下文的能力是其提升的原因。

让我们玩一个游戏,在下面的上下文中，[Guess1]和[Guess2]分别是什么呢？

[‘Natural’, ‘language’, ‘processing’, ‘is’, ‘a’, ‘marriage’, ‘of’, [Guess1], [Guess2], ‘and’, ‘linguistics’]

考虑到3分钟的限制，我就直接揭示答案了。

答案: [‘Natural’, ‘language’, ‘processing’, ‘is’, ‘a’, ‘marriage’, ‘of’, ‘machine’,‘learning’, ‘and’, ‘linguistics’]

我们使用符号Pr（Guess | Context） 代表一个基于上下文词的猜测概率。

GPT中，我们从左到右阅读，因此我们不知道 ‘machine’, ‘learning’各自后面的下文：

Pr (‘machine’ | [‘Natural’, ‘language’, ‘processing’, ‘is’, ‘a’, ‘marriage’, ‘of’])

Pr (‘learning’ | [‘Natural’, ‘language’, ‘processing’, ‘is’, ‘a’, ‘marriage’, ‘of’, ‘machine’])

知道‘machine’实际上可以帮助你猜‘learning’，因为‘learning’经常跟随‘machine’，而‘machine learning’是现在很火热的术语。

BERT中，与GPT对比，我们能知道预测单词前向和后向上下文，但我们在猜测 ‘machine’和 ‘learning’时都是基于相同的上下文：

Pr (‘machine’ | [‘Natural’, ‘language’, ‘processing’, ‘is’, ‘a’, ‘marriage’, ‘of’, ‘and’, ‘linguistics’])

Pr (‘learning’ | [‘Natural’, ‘language’, ‘processing’, ‘is’, ‘a’, ‘marriage’, ‘of’, ‘and’, ‘linguistics’])

拥有‘linguistics’实际上可以帮助你猜测‘machine’ ‘learning’ ，因为你知道自然语言处理是机器学习和语言学的完美结合。即使你不知道，有了‘linguistics’的存在，你至少知道预测单词不是 ‘linguistics’。

你可以看到BERT的明显缺点是，它无法知道 ‘machine’ 和 ‘learning’之间的联系。

那么我们如何结合GPT和BERT的优点呢？

XLNet

排列！排列的作用是即使我们只从左到右阅读，排列也允许我们捕捉前向和后向上下文（从左到右阅读，从右到左阅读）。

其中一种排列可以让我们捕捉到前向和后向上下文：

[‘Natural’, ‘language’, ‘processing’, ‘is’, ‘a’, ‘marriage’, ‘of’, ‘and’, ‘linguistics’, ‘machine’, ‘learning’]

Pr (‘machine’ | [‘Natural’, ‘language’, ‘processing’, ‘is’, ‘a’, ‘marriage’, ‘of’, ‘and’, ‘linguistics’])

Pr(‘learning’ | [‘Natural’, ‘language’, ‘processing’, ‘is’, ‘a’, ‘marriage’, ‘of’, ‘and’, ‘linguistics’, ‘machine’])

这一次，你拥有完整的上下文，在猜测 ‘machine’之后，你可以立即猜测‘learning’。

你可以清楚地看到XLNet结合了GPT和BERT的优点。

当然，如果你想了解更多细节，请阅读XLNet论文[1]。

[1]: https://arxiv.org/pdf/1906.08237.pdf

欢迎关注磐创博客资源汇总站：

http://docs.panchuang.net/

欢迎关注PyTorch官方中文教程站：

http://pytorch.panchuang.net/

3分钟了解GPT Bert与XLNet的差异的更多相关文章

预训练语言模型整理（ELMo/GPT/BERT...）
目录简介预训练任务简介自回归语言模型自编码语言模型预训练模型的简介与对比 ELMo 细节 ELMo的下游使用 GPT/GPT2 GPT 细节微调 GPT2 优缺点 BERT BERT的预训 ...
百度ERNIE 2.0强势发布！16项中英文任务表现超越BERT和XLNet
2019年3月,百度正式发布NLP模型ERNIE,其在中文任务中全面超越BERT一度引发业界广泛关注和探讨. 今天,经过短短几个月时间,百度ERNIE再升级.发布持续学习的语义理解框架ERNIE 2. ...
Transformer 和 Transformer-XL——从基础框架理解BERT与XLNet
目录写在前面1. Transformer1.1 从哪里来?1.2 有什么不同?1.2.1 Scaled Dot-Product Attention1.2.2 Multi-Head Attention1 ...
1分钟了解MyISAM与InnoDB的索引差异
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/z50L2O08e2u4afToR9A/article/details/82111747 <数据 ...
XLNet：运行机制及和Bert的异同比较
这两天,XLNet貌似也引起了NLP圈的极大关注,从实验数据看,在某些场景下,确实XLNet相对Bert有很大幅度的提升.就像我们之前说的,感觉Bert打开两阶段模式的魔法盒开关后,在这条路上,会有越 ...
GPT and BERT
目录概主要内容 GPT BERT Radford A., Narasimhan K., Salimans T. and Sutskever I. Improving language unders ...
2.69分钟完成BERT训练！新发CANN 5.0加持
摘要:快,着实有点快. 现在,经典模型BERT只需2.69分钟.ResNet只需16秒. 啪的一下,就能完成训练! 本文分享自华为云社区<这就是华为速度:2.69分钟完成BERT训练!新发CAN ...
XLNet看这篇文章就足以！
文章链接:https://arxiv.org/pdf/1906.08237.pdf 代码链接:英文--https://github.com/zihangdai/xlnet 中文--https ...
预训练语言模型的前世今生 - 从Word Embedding到BERT
预训练语言模型的前世今生 - 从Word Embedding到BERT 本篇文章共 24619 个词,一个字一个字手码的不容易,转载请标明出处:预训练语言模型的前世今生 - 从Word Embeddi ...

随机推荐

【原创】从零开始搭建Electron+Vue+Webpack项目框架（五）预加载和Electron自动更新
导航: (一)Electron跑起来(二)从零搭建Vue全家桶+webpack项目框架(三)Electron+Vue+Webpack,联合调试整个项目(四)Electron配置润色(五)预加载及自动更 ...
HTTP协议有这篇文章足够了
HTTP 协议详解 HTTP(HyperText Transfer Protocol)超文本传输协议.其最初的设计目的是为了提供一种发布和接收HTML页面的方法. HTTP是一个客户端(用户)和服务端 ...
最通俗易懂的 Java 11 新特性讲解
大多数开发者还是沉浸在 Java 8 中,而 Java 14 将要在 2020 年 3 月 17 日发布了,而我还在写着 Java 11 的新特性.Java 11 是 Java 8 之后的第一个 LT ...
Python学习笔记--装饰器的实验
装饰器既然可以增加原来函数的功能,那能不能改变传给原函数的参数呢? 我们实验一下,先上代码: #!/usr/bin/env python # -*- coding: utf-8 -*- # @Date ...
原型模式故事链(3)--JS的数据类型、以及区别、区分、转化
上一章--原型链讲解:传送门:https://segmentfault.com/a/11... 在上一章讲解原型链时提到了:所有的引用类型都有一个_proto_属性,称之为隐式原型.那么引用类型是什么 ...
CSS实现响应式布局
用CSS实现响应式布局响应式布局感觉很高大上,很难,但实际上只用CSS也能实现响应式布局要用的就是CSS中的没接查询,下面就介绍一下怎么运用: 使用@media 的三种方法 1.直接在CSS文件中使 ...
前端每日实战：39# 视频演示如何用纯 CSS 创作一个表达怀念童年心情的条纹彩虹心特效
效果预览按下右侧的"点击预览"按钮可以在当前页面预览,点击链接可以全屏预览. https://codepen.io/comehope/pen/QxbmxJ 可交互视频教程此视频 ...
C#爬取微博文字、图片、视频（不使用Cookie）
前两天在网上偶然看到一个大佬OmegaXYZ写的文章,Python爬取微博文字与图片(不使用Cookie) 于是就心血来潮,顺手撸一个C#版本的. 其实原理也很简单,现在网上大多数版本都需要Cooki ...
JZOJ 5230. 【NOIP2017模拟A组模拟8.5】队伍统计
5230. [NOIP2017模拟A组模拟8.5]队伍统计 (File IO): input:count.in output:count.out Time Limits: 1500 ms Memory ...
关于org.apache.ibatis.binding.BindingException: Invalid bound statement (not found): com.atguigu.crud.dao.DepartmentMapper.insertSelective的错误
今天我在使用mybatis逆向工程的时候,由于一个疏忽字打错了..结果花了一早上才把错误找全..广大小伙伴们一定要小心啊(能复制粘贴就别手打) 关于org.apache.ibatis.binding. ...

3分钟了解GPT Bert与XLNet的差异

3分钟了解GPT Bert与XLNet的差异的更多相关文章

随机推荐

热门专题