深度学习之Transformer网络】的更多相关文章

写在前面: 一直没有整理的习惯,导致很多东西会有所遗忘,遗漏.借着这个机会,养成一个习惯. 对现有东西做一个整理.记录,对新事物去探索.分享. 因此博客主要内容为我做过的,所学的整理记录以及新的算法.网络框架的学习.基本上是深度学习.机器学习方面的东西. 第一篇首先是深度学习图像分割——U-net网络方面的内容.后续将会尽可能系统的学习深度学习并且记录. 更新频率为每周大于等于一篇. 深度学习的图像分割来源于分类,分割即为对像素所属区域的一个分类. 有别于机器学习中使用聚类进行的图像分割,深度学…
Auto-Keras 是一个开源的自动机器学习库.Auto-Keras 的终极目标是允许所有领域的只需要很少的数据科学或者机器学习背景的专家都可以很容易的使用深度学习.Auto-Keras 提供了一系列函数来自动搜索深度学习模型的网络和超参数. 安装: pip install autokeras 样例: import autokeras as ak clf = ak.ImageClassifier() clf.fit(x_train, y_train) results = clf.predict…
深度学习|基于LSTM网络的黄金期货价格预测 前些天看到一位大佬的深度学习的推文,内容很适用于实战,争得原作者转载同意后,转发给大家.之后会介绍LSTM的理论知识. 我把code先放在我github上,大家有需要的自行下载,等原作者上传相关code时,我再告诉大家.欢迎大家关注大佬的公众号. https://github.com/RankXiaoLong/PythonVisualization import pandas as pd import datetime import matplotl…
介绍 Resnet分类网络是当前应用最为广泛的CNN特征提取网络. 我们的一般印象当中,深度学习愈是深(复杂,参数多)愈是有着更强的表达能力.凭着这一基本准则CNN分类网络自Alexnet的7层发展到了VGG的16乃至19层,后来更有了Googlenet的22层.可后来我们发现深度CNN网络达到一定深度后再一味地增加层数并不能带来进一步地分类性能提高,反而会招致网络收敛变得更慢,test dataset的分类准确率也变得更差.排除数据集过小带来的模型过拟合等问题后,我们发现过深的网络仍然还会使分…
1.GRU概述 GRU是LSTM网络的一种效果很好的变体,它较LSTM网络的结构更加简单,而且效果也很好,因此也是当前非常流形的一种网络.GRU既然是LSTM的变体,因此也是可以解决RNN网络中的长依赖问题. 在LSTM中引入了三个门函数:输入门.遗忘门和输出门来控制输入值.记忆值和输出值.而在GRU模型中只有两个门:分别是更新门和重置门.具体结构如下图所示: 图中的zt和rt分别表示更新门和重置门.更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带…
生成对抗网络(GAN)由2个重要的部分构成: 生成器G(Generator):通过机器生成数据(大部分情况下是图像),目的是“骗过”判别器 判别器D(Discriminator):判断这张图像是真实的还是机器生成的,目的是找出生成器做的“假数据” 生成对抗网络的工作过程: 第一阶段:固定判别器D,训练生成器G 初始化判别器D,让一个生成器G不断生成“假数据”,然后给这个判别器D去判断. 一开始,生成器G还很弱,所以很容易被判断出是假的. 但是随着不断的训练,生成器G技能不断提升,最终骗过了判别器…
论文链接:https://arxiv.org/pdf/1803.01271.pdf TCN(Temporal Convolutional Networks) TCN特点: 可实现接收任意长度的输入序列作为输入,同时将其映射为等长的输出序列,这方面比较像RNN. 计算是layer-wise的,即每个时刻被同时计算,而非时序上串行. 其卷积网络层层之间是有因果关系的,意味着不会有"漏接"的历史信息或是未来数据的情况发生,即便 LSTM 它有记忆门,也无法完完全全的记得所有的历史信息,更何况…
知识点 """ 机器翻译: 历史: 1.逐字翻译 2.基于统计学的机器翻译 3.循环网络和编码 翻译过程: 输入 -- > encoder -->向量 --> decoder -->output (RNN) (RNN) seq_seq应用:文本摘要.聊天机器人.机器翻译 seq_seq存在的问题: 1.压缩损失的信息 2.长度限制(一般10-20最好) 解决方法: Attention机制:高分辨率聚焦再图片的某个特定区域,并以低分辨率感知图像的周围区域…
from:https://www.zhihu.com/question/49346370   Harick     梯度爆炸了吧. 我的解决办法一般以下几条:1.数据归一化(减均值,除方差,或者加入normalization,例如BN.L2 norm等):2.更换参数初始化方法(对于CNN,一般用xavier或者msra的初始化方法):3.减小学习率.减小batch size:4.加入gradient clipping: 发布于 2016-09-04   仁孟     说明训练不收敛了, 学习率…
深度学习 严恩·乐库  约书亚•本吉奥  杰弗里·希尔顿 摘要深度学习是计算模型,是由多个处理层学习多层次抽象表示的数据.这些方法极大地提高了语音识别.视觉识别.物体识别.目标检测和许多其他领域如药物发现和基因组学的最高水平.深学习发现复杂的结构,在大数据集,通过使用反向传播算法来说明如何一台机器应改变其内部参数,用于计算每个层中表示从前一层的表示.深度卷积网络在处理图像.视频.语音等方面都带来了新的突破,而递归网络在连续的数据,如文本和语音有更出彩的表现.引言机器学习技术增强了现代社会的许多方…