两派 1. 新的卷机计算方法 这种是直接提出新的卷机计算方式,从而减少参数,达到压缩模型的效果,例如SqueezedNet,mobileNet SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size 修改网络结构,类似于mobileNet MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Appli…
目录 时间序列深度学习:seq2seq 模型预测太阳黑子 学习路线 商业中的时间序列深度学习 商业中应用时间序列深度学习 深度学习时间序列预测:使用 keras 预测太阳黑子 递归神经网络 设置.预处理与探索 所用的包 数据 探索性数据分析 回测:时间序列交叉验证 LSTM 模型 数据准备 用 recipe 做数据预处理 调整数据形状 构建 LSTM 模型 在所有分割上回测模型 时间序列深度学习:seq2seq 模型预测太阳黑子 本文翻译自<Time Series Deep Learning,…
前面我们学习过深度学习中用于加速网络训练.提升网络泛化能力的两种策略:Batch Normalization(Batch Normalization)和Layer Normalization(LN).今天讨论另一种与它们类似的策略:Weight Normalization(Weight Normalization).Weight Normalization是Batch Normalization的一种变体,与Batch Normalization最大不同点:对神经网络的权值向量W进行参数重写Re…
[caffe]深度学习之图像分类模型AlexNet解读 原文地址:http://blog.csdn.net/sunbaigui/article/details/39938097   本文章已收录于:  深度学习知识库  分类: deep learning(28)  版权声明:本文为博主原创文章,未经博主允许不得转载. 在imagenet上的图像分类challenge上Alex提出的alexnet网络结构模型赢得了2012届的冠军.要研究CNN类型DL网络模型在图像分类上的应用,就逃不开研究ale…
深度学习 vs. 概率图模型 vs. 逻辑学 摘要:本文回顾过去50年人工智能(AI)领域形成的三大范式:逻辑学.概率方法和深度学习.文章按时间顺序展开,先回顾逻辑学和概率图方法,然后就人工智能和机器学习的未来走向做些预测. [编者按]在上个月发表博客文章<深度学习 vs. 机器学习 vs. 模式识别>之后,CMU博士.MIT博士后及vision.ai联合创始人Tomasz Malisiewicz这一次带领我们回顾50年来人工智能领域三大范式(逻辑学.概率方法和深度学习)的演变历程.通过本文我…
from:https://baijiahao.baidu.com/s?id=1584177164196579663&wfr=spider&for=pc seq2seq模型是以编码(Encode)和解码(Decode)为代表的架构方式,seq2seq模型是根据输入序列X来生成输出序列Y,在翻译,文本自动摘要和机器人自动问答以及一些回归预测任务上有着广泛的运用.以encode和decode为代表的seq2seq模型,encode意思是将输入序列转化成一个固定长度的向量,decode意思是将输入…
一.简单介绍 vgg和googlenet是2014年imagenet竞赛的双雄,这两类模型结构有一个共同特点是go deeper.跟googlenet不同的是.vgg继承了lenet以及alexnet的一些框架.尤其是跟alexnet框架很像.vgg也是5个group的卷积.2层fc图像特征.一层fc分类特征,能够看做和alexnet一样总共8个part.依据前5个卷积group.每一个group中的不同配置,vgg论文中给出了A~E这五种配置.卷积层数从8到16递增. 从论文中能够看到从8到1…
深度学习笔记:优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam) 深度学习笔记(一):logistic分类 深度学习笔记(二):简单神经网络,后向传播算法及实现 深度学习笔记(三):激活函数和损失函数 深度学习笔记:优化方法总结 深度学习笔记(四):循环神经网络的概念,结构和代码注释 深度学习笔记(五):LSTM 深度学习笔记(六):Encoder-Decoder模型和Attention模型…
树莓派是国内比较流行的一款卡片式计算机,但是受限于其硬件配置,用树莓派玩深度学习似乎有些艰难.最近OPENAI为嵌入式设备推出了一款AI框架Tengine,其对于配置的要求相比传统框架降低了很多,我尝试着在树莓派上进行了搭建并成功运行了Mobilenet-SSD. Tengine简介 OAID/Tengine|github Tengine 是OPEN AI LAB 为嵌入式设备开发的一个轻量级.高性能并且模块化的引擎. Tengine在嵌入式设备上支持CPU,GPU,DLA/NPU,DSP异构计…
Chainer是一个专门为高效研究和开发深度学习算法而设计的开源框架. 这篇博文会通过一些例子简要地介绍一下Chainer,同时把它与其他一些框架做比较,比如Caffe.Theano.Torch和Tensorflow. 大多数现有的深度学习框架是在模型训练之前构建计算图. 这种方法是相当简单明了的,特别是对于结构固定且分层的神经网络(比如卷积神经网络)的实现. 然而,现在的复杂神经网络(比如循环神经网络或随机神经网络)带来了新的性能改进和新的应用.虽然现有的框架可以用于实现这些复杂神经网络,但是…
Predicting effects of noncoding variants with deep learning–based sequence model PDF Interpreting noncoding variants- 非常好的学习资料 这篇文章的第一个亮点就是直接从序列开始分析,第二就是使用深度学习获得了很好的预测效果. This is, to our knowledge, the first approach for prioritization of functional…
from:https://www.zhihu.com/question/49346370   Harick     梯度爆炸了吧. 我的解决办法一般以下几条:1.数据归一化(减均值,除方差,或者加入normalization,例如BN.L2 norm等):2.更换参数初始化方法(对于CNN,一般用xavier或者msra的初始化方法):3.减小学习率.减小batch size:4.加入gradient clipping: 发布于 2016-09-04   仁孟     说明训练不收敛了, 学习率…
之前参见了中国软件杯大赛,在大赛中用到了深度学习的相关算法,也训练了一些简单的模型.项目线上平台是用java编写的web应用程序,而深度学习使用的是python语言,这就涉及到了在java代码中调用python语言的方法. 为了能在java应用中使用python语言训练的算法模型,我在网上找了很久.我大概找到了三种方法 1. java代码可以直接调用python代码,只需要下载相应的jar包就行.这种方式我没有尝试,只是觉得这样做使得java应用太过于依赖python的环境了.还有网上也有将py…
前言 在训练深度学习模型时,常想一窥网络结构中的attention层权重分布,观察序列输入的哪些词或者词组合是网络比较care的.在小论文中主要研究了关于词性POS对输入序列的注意力机制.同时对比实验采取的是words的self-attention机制. 效果 下图主要包含两列:word_attention是self-attention机制的模型训练结果,POS_attention是词性模型的训练结果. 可以看出,相对于word_attention,POS的注意力机制不仅能够捕捉到评价的aspe…
机器学习的常见优化方法在最近的学习中经常遇到,但是还是不够精通.将自己的学习记录下来,以备不时之需 基础知识: 机器学习几乎所有的算法都要利用损失函数 lossfunction 来检验算法模型的优劣,同时利用损失函数来提升算法模型. 这个提升的过程就叫做优化(Optimizer) 下面这个内容主要就是介绍可以用来优化损失函数的常用方法 常用的优化方法(Optimizer): 1.SGD&BGD&Mini-BGD: SGD(stochastic gradient descent):随机梯度下…
在tensorflow中,有一个初始化函数:tf.contrib.layers.variance_scaling_initializer.Tensorflow 官网的介绍为: variance_scaling_initializer( factor=2.0, mode='FAN_IN', uniform=False, seed=None, dtype=tf.float32)1234567Returns an initializer that generates tensors without s…
RNN,LSTM,seq2seq等模型广泛用于自然语言处理以及回归预测,本期详解seq2seq模型以及attention机制的原理以及在回归预测方向的运用. 1. seq2seq模型介绍 seq2seq模型是以编码(Encode)和解码(Decode)为代表的架构方式,seq2seq模型是根据输入序列X来生成输出序列Y,在翻译,文本自动摘要和机器人自动问答以及一些回归预测任务上有着广泛的运用.以encode和decode为代表的seq2seq模型,encode意思是将输入序列转化成一个固定长度的…
在imagenet上的图像分类challenge上Alex提出的alexnet网络结构模型赢得了2012届的冠军.要研究CNN类型DL网络模型在图像分类上的应用,就逃不开研究alexnet.这是CNN在图像分类上的经典模型(DL火起来之后). 在DL开源实现caffe的model例子中.它也给出了alexnet的复现.详细网络配置文件例如以下https://github.com/BVLC/caffe/blob/master/models/bvlc_reference_caffenet/train…
出现Nan : 说法1: 说法2:说法3:     震荡 : 分析原因:  1:训练的batch_size太小 1.  当数据量足够大的时候可以适当的减小batch_size,由于数据量太大,内存不够.但盲目减少会导致无法收敛,batch_size=1时为在线学习. 2.  batch的选择,首先决定的是下降方向,如果数据集比较小,则完全可以采用全数据集的形式.这样做的好处有两点, 1)全数据集的方向能够更好的代表样本总体,确定其极值所在. 2)由于不同权重的梯度值差别巨大,因此选取一个全局的学…
训练网络时,通常先对网络的初始权值按照某种分布进行初始化,如:高斯分布.初始化权值操作对最终网络的性能影响比较大,合适的网络初始权值能够使得损失函数在训练过程中的收敛速度更快,从而获得更好的优化结果.但是按照某类分布随机初始化网络权值时,存在一些不确定因素,并不能保证每一次初始化操作都能使得网络的初始权值处在一个合适的状态.不恰当的初始权值可能使得网络的损失函数在训练过程中陷入局部最小值,达不到全局最优的状态.因此,如何消除这种不确定性,是训练深度网络是必须解决的一个问题. momentum 动…
Error | 误差 Bias | 偏差 – 衡量准确性 Variance | 方差 – 衡量稳定性 首先我们通常在实际操作中会直接用错误率或者与之对应的准确率来衡量一个模型的好坏,但是更加准确的做法是误差衡量时综合考虑偏差和方差的共同作用. 所谓偏差Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度.Variance反映的是模型每一次输出结果与模型输出期望值之间的误差,即模型的稳定性. 举个例子,对于一个二分类问题,比如测试图片是不是猫,是猫的话就是1,不是猫就是2. 现…
http://www.mooc.ai/course/353/learn?lessonid=2289&groupId=0#lesson/2289 1.AlexNet, VGGNet, GoogleNet, ResNet https://adeshpande3.github.io/adeshpande3.github.io/The-9-Deep-Learning-Papers-You-Need-To-Know-About.html 1.1 AlexNet: 图像输入224*224*3.11*11滤波…
方法处理器 可以用 v-on 指令监听 DOM 事件: <div id="app"> <button v-on:click = "greet">Greet</button> </div> Js代码 new Vue({ el: '#app', data: { message: '菜鸟教程!' }, methods:{ greet:function () { alert("OP"); } } }) 内联…
http://ethereon.github.io/netscope/#/editor 网址:http://ethereon.github.io/netscope/#/editor 将.prototxt中的内容输入到文本框中,然后按shift+enter键,就会得到可视化网络…
目前在计算机视觉中应用的数组维度最多有四维,可以表示为 (Batch_size, Row, Column, Channel) 以下将要从二维数组到四维数组进行代码的简单说明: Tips: 1) 在numpy中所有的index都是从0开始. 2) axis = 0 对Cloumn(Width)操作: axis = 1 对Row(Height)操作: axis = 2 or -1 对Channel(Depth)操作 1. 二维数组 (Row, Column) import numpy as np #…
1.tensorflow pip install tensorflow-gpu==1.14.0,具体安装哪一个版本,可以把1.14.0随便填写一个数字,系统会提示可以有哪些版本可以安装 2.pytorch conda install pytorch torchvision cudatoolkit=9.0 -c pytorch,这样会安装cuda版本是9.0对应的pytorch 注意事项: 通过pip安装python包时,确定不同的python对应的pip,比如:python3.5 需要使用pip…
http://product.dangdang.com/25207334.html 内容 简 介 本书总的指导思想是在掌握深度学习的基本知识和特性的基础上,培养使用TensorFlow进行实际编程以解决图像处理相关问题的能力.全书力求深入浅出,通过通俗易懂的语言和详细的程序分析,介绍TensorFlow的基本用法.高级模型设计和对应的程序编写. 本书共22章,内容包括Python类库的安装和使用.TensorFlow基本数据结构和使用.TensorFlow数据集的创建与读取.人工神经网络.反馈神…
一.CNN卷积神经网络的经典网络综述 下面图片参照博客:http://blog.csdn.net/cyh_24/article/details/51440344 二.LeNet-5网络 输入尺寸:32*32 卷积层:2个 降采样层(池化层):2个 全连接层:2个 输出层:1个.10个类别(数字0-9的概率) LeNet-5网络是针对灰度图进行训练的,输入图像大小为32*32*1,不包含输入层的情况下共有7层,每层都包含可训练参数(连接权重).注:每个层有多个Feature Map,每个Featu…
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/35 本文地址:http://www.showmeai.tech/article-detail/227 声明:版权所有,转载请联系平台与作者并注明出处 收藏ShowMeAI查看更多精彩内容 本系列为吴恩达老师<深度学习专业课程>学习与总结整理所得,对应的课程视频可以在这里查看. 引言 在ShowMeAI前一篇文章 自然语言处理与词嵌入 中我们对以下内容进行了介绍: 词嵌入与迁移学习/…
一.深度学习在小数据集的表现 深度学习在小数据集情况下获得好效果,可以从两个角度去解决: 1.降低偏差,图像平移等操作 2.降低方差,dropout.随机梯度下降 先来看看深度学习在小数据集上表现的具体观点,来源于<撕起来了!谁说数据少就不能用深度学习?这锅俺不背!> 原文:https://simplystatistics.org/2017/05/31/deeplearning-vs-leekasso/ 1.样本数量少于100个,最好不要使用深度学习 倘若你的样本数量少于100个,最好不要使用…