自然语言处理（NLP） - 前预训练时代的自监督学习

前预训练时代的自监督学习自回归、自编码预训练的前世

神经网络(Neural Network, NN)

损失函数，度量神经网络的预测结果和真实结果相差多少

平方差损失（欧式距离角度）预测概率分部和实际标签概率的欧式距离
交叉熵损失（信息量角度）预测概率分部和真实概率分部的差异，指导神经网络学习时，更加稳定

对参数W更新损失的负梯度

One-hot 人为规定，不需要学习，在推荐里有非常多的用处，（可以理解成完全命中）

词向量需要学习，可以很好的泛化结果，泛化性能比 one-hot 更好（可以理解成泛化关系的建模）

评估模型的好坏：有全体指标，以及一些公开的数据集，去评估词向量的相关性

Skip-gram：给定一个中间值，预测上下文窗口中的一个词

CBoW：给定一个上下文词，预测中间值

RNN 抛开马尔科夫假设，

Self-Attention：每个单词和整句所有话进行匹配，来获取当前单词对每个单词的重视程度，利用这个重视程序，对整句话的每个单词进行加权，加权的结果用于表示当前这个单词

Self-Attention：也是非常流行的 Transformer 的核心模块，

Seft-Attention 没有考虑单词的顺序，所以为了更精装的表示位置信息，需要对句子的输入加个位置的序号 Positional Embedding

残差连接，很好的缓解梯度消失的问题，包括映射和直连接部分

https://aistudio.baidu.com/aistudio/education/lessonvideo/1451160

自然语言处理（NLP） - 前预训练时代的自监督学习的更多相关文章

NLP之预训练
内容是结合:https://zhuanlan.zhihu.com/p/49271699 可以直接看原文预训练一般要从图像处理领域说起:可以先用某个训练集合比如训练集合A或者训练集合B对这个网络进行预 ...
学习AI之NLP后对预训练语言模型——心得体会总结
一.学习NLP背景介绍: 从2019年4月份开始跟着华为云ModelArts实战营同学们一起进行了6期关于图像深度学习的学习,初步了解了关于图像标注.图像分类.物体检测,图像都目标物体检测等 ...
【中文版 | 论文原文】BERT：语言理解的深度双向变换器预训练
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding 谷歌AI语言组论文<BERT:语言 ...
预训练中Word2vec,ELMO,GPT与BERT对比
预训练先在某个任务(训练集A或者B)进行预先训练,即先在这个任务(训练集A或者B)学习网络参数,然后存起来以备后用.当我们在面临第三个任务时,网络可以采取相同的结构,在较浅的几层,网络参数可以直接加 ...
BERT总结：最先进的NLP预训练技术
BERT(Bidirectional Encoder Representations from Transformers)是谷歌AI研究人员最近发表的一篇论文:BERT: Pre-training o ...
最强 NLP 预训练模型库 PyTorch-Transformers 正式开源：支持 6 个预训练框架，27 个预训练模型
先上开源地址: https://github.com/huggingface/pytorch-transformers#quick-tour 官网: https://huggingface.co/py ...
PyTorch在NLP任务中使用预训练词向量
在使用pytorch或tensorflow等神经网络框架进行nlp任务的处理时,可以通过对应的Embedding层做词向量的处理,更多的时候,使用预训练好的词向量会带来更优的性能.下面分别介绍使用ge ...
NLP中的预训练语言模型（五）—— ELECTRA
这是一篇还在双盲审的论文,不过看了之后感觉作者真的是很有创新能力,ELECTRA可以看作是开辟了一条新的预训练的道路,模型不但提高了计算效率,加快模型的收敛速度,而且在参数很小也表现的非常好. 论文: ...
NLP中的预训练语言模型（一）—— ERNIE们和BERT-wwm
随着bert在NLP各种任务上取得骄人的战绩,预训练模型在这不到一年的时间内得到了很大的发展,本系列的文章主要是简单回顾下在bert之后有哪些比较有名的预训练模型,这一期先介绍几个国内开源的预训练模型 ...
NLP中的预训练语言模型（二）—— Facebook的SpanBERT和RoBERTa
本篇带来Facebook的提出的两个预训练模型——SpanBERT和RoBERTa. 一,SpanBERT 论文:SpanBERT: Improving Pre-training by Represe ...

随机推荐

Zab（Zookeeper Atomic Broadcast）协议
更多内容,前往IT-BLOG 一.什么是 Zab协议 Zab( Zookeeper Atomic Broadcast:Zookeeper原子广播)Zookeeper 通过 Zab 协议保证分布式事务的 ...
C#中的数据字典Dictionary
前言今天上午和往常一样在网上冲浪,看到码甲哥微信群里面在聊一个面试题,比较有意思,这里简单分享下结论中的Dictionary字典. 有50w个int类型的数字,现在需要判断一下里面是否存在重复的数字 ...
怎么在php7项目中安装event扩展
今天就跟大家聊聊有关怎么在php7项目中安装event扩展,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获. 安装支持库libevent wget ...
[MySQL]set autocommit=0与start transaction的区别[转载]
set autocommit=0指事务非自动提交,自此句执行以后,每个SQL语句或者语句块所在的事务都需要显示"commit"才能提交事务. 1.不管autocommit 是1还是 ...
python：生成半年内的巡检日报execl
问题描述:使用脚本来生成半年内的数据,数据内容大概为每天的数据库巡检日报,临时抱佛脚.数据不可能是真实的,都是随机生成的,想要使用真实的数据后面直连操作系统或者数据库.后期可以慢慢实现自动化生成每天的 ...
windows10设置共享目录
win10设置目录局域网内共享 1.右键点击文件属性,点击共享 2.选择与其共享的用户 3.点击共享,选择everyone,可以让在同一局域网下的用户访问 4.显示你的文件夹已共享 5.在同一局域网的 ...
【书籍阅读】【Spring实战】二装配Bean
Spring配置的可选方案 ①自动化装配Bean:@Component ②Java代码装配Bean:@Bean ③XML装配Bean 自动化装配Bean Spring从两个角度实现对 @Compone ...
LAL v0.35.4发布，OBS支持RTMP H265推流，我跟了
Go语言流媒体开源项目 LAL 今天发布了v0.35.4版本. LAL 项目地址:https://github.com/q191201771/lal 老规矩,简单介绍一下: ▦ 一. OBS支持RTM ...
Springboot3整合使用ja-captcha行为验证码解决方案
截止到目前,Springboot最新稳定版本已经迭代到3.0.5,而我们项目中使用的行为验证码框架ja-captcha还没有适配Springboot3,码云上类似的请求也没有得到过回应,于是决定自己动 ...
用C++编写一个简单的发布者和订阅者
摘要:节点(Node)是通过 ROS 图进行通信的可执行进程. 本文分享自华为云社区<编写一个简单的发布者和订阅者>,作者: MAVER1CK . @[toc] 参考官方文档:Writin ...

自然语言处理（NLP） - 前预训练时代的自监督学习

自然语言处理（NLP） - 前预训练时代的自监督学习的更多相关文章

随机推荐

热门专题