Deep Learning Tutorial 李宏毅(一)深度学习介绍
大纲
- 深度学习介绍
- 深度学习训练的技巧
- 神经网络的变体
- 展望
深度学习介绍
深度学习介绍
深度学习属于机器学习的一种。介绍深度学习之前,我们先大致了解一下机器学习。
机器学习,拿监督学习为例,其本质上是要找到一个函数映射:输入数据(也就是训练样本)通过函数映射(也就是我们的机器学习算法)到输出空间上(也就是目标值,如果是分类问题,映射到某一类上)。
\[Meachine Learning \approx LookingFor A Function.\]
那么我们如何从一个函数空间里找到目标函数呢?这里必然存在一个指标来评价映射函数的好坏,比如说:准确率,错误率等等。通过这个最优化数据指标我们就能找到 最好的映射函数,也就是机器学习里的算法模型。
所以,机器学习模型训练过程主要有三个阶段:
- 确定模型,从而确定函数映射空间;
- 将训练数据应用于函数空间,对模型进行训练;
- 找出最好的模型;之后,我们可以将训练好的模型应用到unseen data上(这也是我们最终的目的)。
这样,我们也可以大致推断出深度学习的构建过程:
神经网络
神经网络由一系列神经元通过相互连接而形成。因此,在深入理解神经网络之前,先了解一下什么是神经元?
神经元本质上是一个简单函数,其函数形式为:
\[f = \sigma(z);\]
\[z = a_1w_1+a_2w_2+a_iw_i+...+a_Kw_K+b;\]
其中,\(\sigma函数\)属于一个激活函数,\(z\)是一个线性函数,其结果可以是任意值,通过激活函数,给模型带来非线性因素,增加模型的表达能力;通常情况下,线性模型的表达能力不够。
神经元的\(w_i\)和\(b\)就是神经元模型的训练参数;参数不同,形成的神经元也不相同。
神经元的不同连接方式形成的网络架构也各不相同。神经网络的参数包括所有神经元的\(w_i(weights)\)和\(b(biases)\)。
如果说,一个神经元是一个简单函数\(function\),那么神经网络就是一个简单函数集\(a\,function\,set\).
深度学习中的“深度”是指神经网络的层数有很多。
神经网络可以用在识别手写数字。
FAQ:
Q:设计神经网络时,多少层合适?每层多少个神经元合适?
\[Trial\;and\;error + Intuition(随缘,多试)\]
评测模型好坏goodness of function
以手写数字识别为例,首先我们知道这是一个监督学习问题;其训练数据为实现收集的手写数字和标签;最终达到输入一个手写的数字能给出其所属的类别(0-9)。
之前我们定义的函数集合,如何评价这个函数集合(模型)表现如何呢?所以需要定义一个评价指标。这里定义的评价指标为Loss函数,指输出值和真实值之间的差距(可以通过计算两个值之间的距离来表示)。最终我们通过优化在所有数据上的总损失Loss来找到最优的模型!本质上就是通过最小化Loss函数来找到最合适的\(参数\theta^*\),从而确定最优化的模型。
怎么找到最优化的参数\(\theta^* pick the best function\)
最先引入脑海的方法就是穷举法,把所有可能的取值都试一次。这种方法肯定不可取!因为,通常情况下深度学习模型层数不止3层,而每层的神经元又有很多,导致最后要优化的参数也是一个非常大的数字。
方法一:Gradient Descent 梯度下降算法
这种方法存在的一个问题:最后求解出来的最小值,不是全局最小值,而是局部最小值。
同时,由于初始的权重系数\(w_i\)是随机选取的,导致最后的最优化结果也各不相同。
方法二:Backpropagation 反向传播算法
Caffe,TensorFlow等都支持的这种求解方法。
为什么模型总是越来越长,而不是越来越胖?
Deeper is Better.
一般而言,参数越多,模型表现效果越好。
实验数据来自:Seide, Frank, Gang Li, and Dong Yu. "Conversational Speech Transcription
Using Context-Dependent Deep Neural Networks." Interspeech. 2011
对于任意的连续函数\(f\),定义为:
\[f : R^N\to R^M\]
理论上来讲,这种能由深度学习解决的问题,也可以通过有一个隐藏层的网络模型来解决(给它足够多的神经元)。但是为什么不采用这种方法呢?
实验效果并不好?为什么不好?
论文:Learning Functions: When Is Deep Better Than
Shallow(还没有看!)一种理由是说deep models可以抽取更多的特征相比于Fat models。
Deep Learning Tutorial 李宏毅(一)深度学习介绍的更多相关文章
- Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.1
3.Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.1 http://blog.csdn.net/sunbow0 ...
- Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.2
3.Spark MLlib Deep Learning Convolution Neural Network(深度学习-卷积神经网络)3.2 http://blog.csdn.net/sunbow0 ...
- Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.3
3.Spark MLlib Deep Learning Convolution Neural Network(深度学习-卷积神经网络)3.3 http://blog.csdn.net/sunbow0 ...
- Deep Learning 教程(斯坦福深度学习研究团队)
http://www.zhizihua.com/blog/post/602.html 说明:本教程将阐述无监督特征学习和深度学习的主要观点.通过学习,你也将实现多个功能学习/深度学习算法,能看到它们为 ...
- #Deep Learning回顾#之基于深度学习的目标检测(阅读小结)
原文链接:https://www.52ml.net/20287.html 这篇博文主要讲了深度学习在目标检测中的发展. 博文首先介绍了传统的目标检测算法过程: 传统的目标检测一般使用滑动窗口的框架,主 ...
- 【Deep Learning读书笔记】深度学习中的概率论
本文首发自公众号:RAIS,期待你的关注. 前言 本系列文章为 <Deep Learning> 读书笔记,可以参看原书一起阅读,效果更佳. 概率论 机器学习中,往往需要大量处理不确定量,或 ...
- 【deep learning】斯坦福CS231n—深度学习与计算机视觉(资料汇总)
官网 链接:CS231n: Convolutional Neural Networks for Visual Recognition Notes: 链接:http://cs231n.github.io ...
- 深度学习材料:从感知机到深度网络A Deep Learning Tutorial: From Perceptrons to Deep Networks
In recent years, there’s been a resurgence in the field of Artificial Intelligence. It’s spread beyo ...
- Deep Learning Tutorial - Classifying MNIST digits using Logistic Regression
Deep Learning Tutorial 由 Montreal大学的LISA实验室所作,基于Theano的深度学习材料.Theano是一个python库,使得写深度模型更容易些,也可以在GPU上训 ...
随机推荐
- [C# | WinCE | Solution] 在 WinCE 上访问 SSL 加密后的 WCF SOAP 服务接口出现“未能与远程服务器建立信任关系”
Scenario: 服务器的 SOAP 使用了 GeoTrust 签名的 EV 证书,WinCE调用时出现“未能与远程服务器建立信任关系”的错误.原因是该 WinCE 设备信任的证书包括 Global ...
- asp.net MVC4 框架揭秘 读书笔记系列3
IIS/ASP.net管道 本节全部用图形表示便于理解和记忆 1.3.1 IIS5.x与asp.net 1.3.2 IIS 6.0与asp.net 1.3.3 IIS7.0与asp.net 基于IIS ...
- GitBlit集成AD域LDAP
GitBlit的配置文件: gitlblit安装目录下的 /data/gitblit.properties ,用记事本或其他编译器打开即可. 集成AD域的LDAP操作步骤 打开配置文件,添加以下内 ...
- 【ORACLE】 安装需要注意的问题(一)
安装ORACLE虽然不是很难,但是有时候很容易因为一些小细节导致安装失败,浪费大量的时间. 这里总结一下安装ORACLE的时候需要注意的问题,以及解决的办法 问题1:系统先决条件检查 正在检查操作系统 ...
- Phthon3.4 新特性
1. print的变化:. 在python3.0中,print成为了一个函数,将传入的参数一输出. Python3.0: Python 2.5: 2.使用比较操作符时,如果被比较的对象没有 ...
- MySQL主从.md
MySQL Replication 概述 Mysql内建的复制功能是构建大型,高性能应用程序的基础.将Mysql的数据分布到多个系统上去,这种分布的机制,是通过将Mysql的某一台主机的数据复制到其它 ...
- Kubernetes dashboard 配置
安装前准备 下载dashboard的yaml文件 wget -O kube-dashboard.yaml https://git.io/kube-dashboard-no-rbac 这个版本是没有权限 ...
- 20165318 2017-2018-2 《Java程序设计》第二周学习总结
20165318 2017-2018-2 <Java程序设计>第二周学习总结 教材学习内容总结 本周学习了第二章和第三章的内容,掌握了Java中基本数据类型.数组.运算符.表达式和语句等方 ...
- virtualbox+vagrant学习-4-Vagrantfile-1-简介
Vagrantfile Vagrantfile的主要功能是描述项目所需的机器类型,以及如何配置和提供这些机器.之所以称为Vagrantfiles,是因为文件的实际文本文件名是Vagrantfile(除 ...
- VC++程序运行时间测试函数
0:介绍 我们在衡量一个函数运行时间,或者判断一个算法的时间效率,或者在程序中我们需要一个定时器,定时执行一个特定的操作,比如在多媒体中,比如在游戏中等,都会用到时间函数.还比如我们通过记录函数或者算 ...