大纲

  1. 深度学习介绍
  2. 深度学习训练的技巧
  3. 神经网络的变体
  4. 展望

深度学习介绍

深度学习介绍

深度学习属于机器学习的一种。介绍深度学习之前,我们先大致了解一下机器学习。
机器学习,拿监督学习为例,其本质上是要找到一个函数映射:输入数据(也就是训练样本)通过函数映射(也就是我们的机器学习算法)到输出空间上(也就是目标值,如果是分类问题,映射到某一类上)。
\[Meachine Learning \approx LookingFor A Function.\]
那么我们如何从一个函数空间里找到目标函数呢?这里必然存在一个指标来评价映射函数的好坏,比如说:准确率,错误率等等。通过这个最优化数据指标我们就能找到 最好的映射函数,也就是机器学习里的算法模型。
所以,机器学习模型训练过程主要有三个阶段:

  1. 确定模型,从而确定函数映射空间;
  2. 将训练数据应用于函数空间,对模型进行训练;
  3. 找出最好的模型;之后,我们可以将训练好的模型应用到unseen data上(这也是我们最终的目的)。

这样,我们也可以大致推断出深度学习的构建过程:

神经网络

神经网络由一系列神经元通过相互连接而形成。因此,在深入理解神经网络之前,先了解一下什么是神经元?
神经元本质上是一个简单函数,其函数形式为:
\[f = \sigma(z);\]
\[z = a_1w_1+a_2w_2+a_iw_i+...+a_Kw_K+b;\]
其中,\(\sigma函数\)属于一个激活函数,\(z\)是一个线性函数,其结果可以是任意值,通过激活函数,给模型带来非线性因素,增加模型的表达能力;通常情况下,线性模型的表达能力不够。
神经元的\(w_i\)和\(b\)就是神经元模型的训练参数;参数不同,形成的神经元也不相同。

神经元的不同连接方式形成的网络架构也各不相同。神经网络的参数包括所有神经元的\(w_i(weights)\)和\(b(biases)\)。
如果说,一个神经元是一个简单函数\(function\),那么神经网络就是一个简单函数集\(a\,function\,set\).
深度学习中的“深度”是指神经网络的层数有很多。
神经网络可以用在识别手写数字。

FAQ:
Q:设计神经网络时,多少层合适?每层多少个神经元合适?
\[Trial\;and\;error + Intuition(随缘,多试)\]

评测模型好坏goodness of function

以手写数字识别为例,首先我们知道这是一个监督学习问题;其训练数据为实现收集的手写数字和标签;最终达到输入一个手写的数字能给出其所属的类别(0-9)。
之前我们定义的函数集合,如何评价这个函数集合(模型)表现如何呢?所以需要定义一个评价指标。这里定义的评价指标为Loss函数,指输出值和真实值之间的差距(可以通过计算两个值之间的距离来表示)。最终我们通过优化在所有数据上的总损失Loss来找到最优的模型!本质上就是通过最小化Loss函数来找到最合适的\(参数\theta^*\),从而确定最优化的模型。

怎么找到最优化的参数\(\theta^* pick the best function\)

最先引入脑海的方法就是穷举法,把所有可能的取值都试一次。这种方法肯定不可取!因为,通常情况下深度学习模型层数不止3层,而每层的神经元又有很多,导致最后要优化的参数也是一个非常大的数字。
方法一:Gradient Descent 梯度下降算法

这种方法存在的一个问题:最后求解出来的最小值,不是全局最小值,而是局部最小值。
同时,由于初始的权重系数\(w_i\)是随机选取的,导致最后的最优化结果也各不相同。
方法二:Backpropagation 反向传播算法
Caffe,TensorFlow等都支持的这种求解方法。

为什么模型总是越来越长,而不是越来越胖?

Deeper is Better.
一般而言,参数越多,模型表现效果越好。

实验数据来自:Seide, Frank, Gang Li, and Dong Yu. "Conversational Speech Transcription
Using Context-Dependent Deep Neural Networks." Interspeech. 2011

对于任意的连续函数\(f\),定义为:
\[f : R^N\to R^M\]
理论上来讲,这种能由深度学习解决的问题,也可以通过有一个隐藏层的网络模型来解决(给它足够多的神经元)。但是为什么不采用这种方法呢?

实验效果并不好?为什么不好?
论文:Learning Functions: When Is Deep Better Than
Shallow
(还没有看!)一种理由是说deep models可以抽取更多的特征相比于Fat models。

Deep Learning Tutorial 李宏毅(一)深度学习介绍的更多相关文章

  1. Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.1

    3.Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.1 http://blog.csdn.net/sunbow0 ...

  2. Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.2

    3.Spark MLlib Deep Learning Convolution Neural Network(深度学习-卷积神经网络)3.2 http://blog.csdn.net/sunbow0 ...

  3. Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.3

    3.Spark MLlib Deep Learning Convolution Neural Network(深度学习-卷积神经网络)3.3 http://blog.csdn.net/sunbow0 ...

  4. Deep Learning 教程(斯坦福深度学习研究团队)

    http://www.zhizihua.com/blog/post/602.html 说明:本教程将阐述无监督特征学习和深度学习的主要观点.通过学习,你也将实现多个功能学习/深度学习算法,能看到它们为 ...

  5. #Deep Learning回顾#之基于深度学习的目标检测(阅读小结)

    原文链接:https://www.52ml.net/20287.html 这篇博文主要讲了深度学习在目标检测中的发展. 博文首先介绍了传统的目标检测算法过程: 传统的目标检测一般使用滑动窗口的框架,主 ...

  6. 【Deep Learning读书笔记】深度学习中的概率论

    本文首发自公众号:RAIS,期待你的关注. 前言 本系列文章为 <Deep Learning> 读书笔记,可以参看原书一起阅读,效果更佳. 概率论 机器学习中,往往需要大量处理不确定量,或 ...

  7. 【deep learning】斯坦福CS231n—深度学习与计算机视觉(资料汇总)

    官网 链接:CS231n: Convolutional Neural Networks for Visual Recognition Notes: 链接:http://cs231n.github.io ...

  8. 深度学习材料:从感知机到深度网络A Deep Learning Tutorial: From Perceptrons to Deep Networks

    In recent years, there’s been a resurgence in the field of Artificial Intelligence. It’s spread beyo ...

  9. Deep Learning Tutorial - Classifying MNIST digits using Logistic Regression

    Deep Learning Tutorial 由 Montreal大学的LISA实验室所作,基于Theano的深度学习材料.Theano是一个python库,使得写深度模型更容易些,也可以在GPU上训 ...

随机推荐

  1. VUE入门准备------>ES6

    声明变量的方式:  var  let   const let  和 var的区别 var定义的变量是全局的会覆盖全局的定义 ; ;i<;i++){ console.log(i) } undefi ...

  2. 获取INET4与INET6的信息

    获取INET4与INET6的信息 参考书籍: 本人封装的源码: // // IPAddressInfo.h // YXNETWORK // // http://www.cnblogs.com/YouX ...

  3. Nodejs和npm入门使用

    目录 引子 何为node.js 和 npm 怎么使用node.js和npm 安装node.js & npm npm init 初始化项目(创建node.js模块) Package.json 属 ...

  4. 一、MySQL中的索引 二、MySQL中的函数 三、MySQL数据库的备份和恢复 四、数据库设计和优化(重点)

    一.MySQL中的索引###<1>索引的概念 索引就是一种数据结构(高效获取数据),在mysql中以文件的方式存在.存储建立了索引列的地址或者指向. 文件 :(以某种数据 结构存放) 存放 ...

  5. 设计模式之——单例模式(Singleton)的常见应用场景(转):

    单例模式(Singleton)也叫单态模式,是设计模式中最为简单的一种模式,甚至有些模式大师都不称其为模式,称其为一种实现技巧,因为设计模式讲究对象之间的关系的抽象,而单例模式只有自己一个对象,也因此 ...

  6. 【原创】python __all__ 的用法

    1.  写自己的module或者package的时候需要控制向外暴露的名字, 这个很有用, 防止名字污染

  7. 使用 libffi 实现 AOP

    核心还是利用oc消息的查找派发机制,进行类结构的动态修改,用新函数替换老函数,然后再调用老函数. 前言     众所周知,使用runtime的提供的接口,我们可以设定原方法的IMP,或交换原方法和目标 ...

  8. linux centos 7.5下 源码编译安装 lua环境

    lua 5.3.5 下载安装时发现缺少库 readline 需要添加依赖 yum search readline 看有哪些包 安装带有 devel 字样的 安装无 devel 的非开发包,通常不会自动 ...

  9. sed 以及 awk用法

    sed 格式 sed[options] "script" FILE.... 选项: -n:静默模式,不输出模式空间内的内容:默认打印空间模式的内容 -r:扩展的正则表达式 -f 文 ...

  10. jQuery文字“橡皮圈“特效

    <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...