学习笔记DL003:神经网络第二、三次浪潮，数据量、模型规模，精度、复杂度，对现实世界冲击

神经科学，依靠单一深度学习算法解决不同任务。视觉信号传送到听觉区域，大脑听学习处理区域学会“看”(Von Melchner et al., 2000)。计算单元互相作用变智能。新认知机(Fukushima,1980)，哺乳动物视觉系统结构，处理图片强大模型架构，现代卷积网络基础(LeCun et al., 1998c)。神经网络基于整流线性单元(rectified linear unit)神经单元模型。原始认知机(Fukushima,1975)更复杂。简化现代版，Nair and Hinton(2010b)和Glorot et al.(2011a) 神经科学，Jarrett et al.(2009a) 面向工程。真实神经元计算与现代整流线性单元不同函数，没有提升性能。对神经科学生物学习没有足够了解，不能为训练架构学习算法提供借鉴。现代深度学习从应用数学基本内容(线性代数、概率论、信息论、数值优化)获取灵感。计算神经科学，大脑在算法层面工作，独立于深度学习。深度学习领域关注构建计算机系统，解决智能解决任务。计算机器神经科学关注构建大脑真实工作、精确模型。

20世纪80年代，神经网络第二次浪潮。联结主义(connectionism)或并行分布处理(parallel distributed procession)(Rumelhart et al., 1986d;McClelland et al., 1995)。认知科学，理解思维跨学科途径，融合不多个不同分析层次。符号模型难解释大脑用神经元实现推理功能。基于神经系统实现认知模型(Touretzky and Minton, 1985)。心理学家Donald Hebb，20世界40年代工作(Hebb, 1949)。联结主义，网络将大量简单计算单元连接在一起实现智能行为。同样适用于生物神经系统神经元。

分布式表示(distributed representation)(Hinton et al., 1986)。系统每一个输入由多个特征表示，每一个特征参与到多个输入表示。反向传播，训练具有内部表示深度神经网络，反向传播算法普及(Remelhart et al., 1986c;LeCun,1987)。训练深度模型主导方法。

20世纪90年代，Hochreiter(1991b)和Bengion et al.(1994b)，长序列建模。Hochreiter和Schmidhuber(1997)引入长短期记忆(logn short term memory, LSTM)网络。LSTM 序列建模任务广泛应用，Google 自然语言处理任务。

第二次浪潮持续到20世纪90年代中期，机器学习其他领域，核方法(Boser et al., 1992; Cortes and Vapnik, 1995; Scholkopf et al., 1999)，图模型(Jordan, 1998)在重要任务效果很好。神经网络热潮第二次衰退，一直持续到2007年。(LeCUN et al., 1998c; Bengio et al., 2001a)。加拿大高级研究所(CIFAR)，神经计算和自适应感知(NCAP)研究计划，联合Geoffrey Hinton、Yoshua Bengio、Yann LeCun领导多伦多大学、蒙特利尔大学、纽约大学机器学习研究小组。包括神经科学家、人类和计算视觉专家。20世纪80年代处法能工作得非常好，只是计算代价太高，当时可用硬件难进行足够实验。

神经网络第三次浪潮，始于2006年突破。Geoffrey Hinton表明，深度信念网络神经网络，用贪婪逐层训练策略可有效训练(Hinton et al., 2006a)。同样策略可训练其他类型深度网络(Bengio and LeCun, 2007a; Ranzato et al., 2007b)，系统提高测试样例泛化能力。普通深度学习术语。强调训练比较深神经网络，深度理论重要性(Bengio and LeCun,2007b; Delalleau and Bengio, 2011; Pascanu et al., 2014a; Montufar et al., 2014)。深度神经网络优地其他机器学习技术及手工设计功能AI系统。第三次浪潮现在已开始着眼无监督学习技术、深度模型小数据集泛化能力。更多兴趣点极是监督学习算法、深度模型充分利用大型标注数据集能力。

与日俱增数据量。训练数据增加，所需技巧减少。复杂任务达到人类水平学习算法，与20世纪80年代解决玩具问题(toy problem)一样。简化极深架构训练。成功训练所需资源。

20世纪初，统计学家用数百或数千手动制作度量研究数据集(Garson,1900; Gosset,1908; Anderson, 1935; Fisher,1936)。20世纪50年代到80年代，受生物启发机器学习开拓者用小合成数据集，如低分辨率字母位图，低计算成本下表明神经网络学习特定功能(Widrow and Hoff,1960; Rumelhart et al., 1986b)。20世纪80年代和90年代，机器学习变得更偏统计，用成千上万个样本更大数据集，如手写扫描数字MNIST数据集(LeCun et al., 1998c)。21世纪第一个10年，CIFAR-10数据集(Krizhevsky and Hinton,2009)。2011-2015，数万到数千万样例数据集，完全改变深度学习可能实现。公共Street View House Numbers数据集(Netzer et al., 2011)。各种版本ImageNet数据集(Deng et al., 2009,2010a; Russakovsky et al., 2014a)。Sprots-1M数据集(Karpathy et al., 2014)。翻译句子数据集，Canadian Hansard IBM数据集(Brown et al., 1990)。WMT 2014英法数据集(Schwentk,2014)。

社会日益数字化驱动数据集大小增加。活动在计算机，记录，联网，集中管理，整理机器学习数据集。监督ipwya学习算法，每类5000个标注样本，可达到接受性能。1000万个标注样本数据集训练，达到或超过人类表现。更小数据集，无监督或半监督学习未标注样本。

MNIST数据集。“NIST”，国家标准和技术研究所(National Institute of Standards and Technology)。“M”，修改(Modified)，更容易与机器学习算法一起用，数据预处理。MNIST数据集，手写数字扫描、标签(每个图像包含0~9数字)。深度学习最简单最广泛测试。Geoffrey Hinton，机器学习果蝇。在受控实验室条件研究算法。

与日俱增模型规模(每个神经元连接数)。现在拥有计算资源可运行更大模型。联结主义，动物很多神经元一起工作变聪明。最初，人工神经网络神经元连接数受限硬件能力，现在主要是出于设计考虑。

神经元总数目，神经网络惊人的小。隐藏单元引入，人工神经网络规模每2.4年扩大一倍。更大内存、更快计算机机、更大可用数据集驱动。更大网络在更复杂任务实现更高精度。至少21世纪50年代，人工神经网络才具备人脑相同数量级神经元。生物神经元表示功能比目前人工神经元表示更复杂。

感知机(Rosenblatt,1958,1962)。自适应线性单元(Widrow and Hoff,1960)。神经认知机(Fukushima，1980)。早期后向传播网络(Rumelhart et al., 1986b)。用于语音识别循环神经网络(Robinson and Fallside,1991)。用于语音识别多层感知机(Bengio et al., 1991)。均匀场sigmoid信念网络(Saul et al., 1996)。LeNet5 (LeCun et al., 1998c)。回声壮态网络(Jaeger and Haas,2004)。深度信念网络(Hinton et al., 2006a)。GPU加速卷积网络(Chellapilla et al., 2006)。深度玻尔兹曼机(Salakhutdinov and Hinton,2009a)。GPU加速深度信念网络(Raina et al., 2009a)。无监督卷积网络(Jarrett et al., 2009b)。GPU加速多层感知机(Ciresan et al., 2010)。OMP-1网络(Coates and Ng,2011)。分布式自编码器(Le et al., 2012)。Multi-GPU卷积网络(Krizhevsky et al., 2012a)。COTS HPC 无监督卷积网络(Coates et al., 2013)。GoogleNet(Szegedy et al., 2014a)。

与日俱增精度、复杂度，对现实世界冲击。最早深度模型，识别裁剪紧凑且非常小图像单个对象(Rumelhart et al., 1986d)。神经网络处理图像尺寸逐渐增加。现代对象识别网络处理丰富高分辨率照片，不需要被识别对象附近裁剪(Krizhevsky et al., 2012b)。现代网络能识别到少1000个不同类别对象。ImageNet大型视觉识别挑战(ILSVRC)，每年举行。卷积网络第一次大幅赢得挑战，前5错误率从26.1%降到15.3%(Krizhevsky et al.,2012b)。网络针对每个图像可能类别生成顺序列表，除15.3%测试样本，其他测试样本正确类标出现在列表前5项。深度卷积网络连续赢得比赛，深度学习前5错误率降到3.6%。Russakovsky et al.(2014b)和He et al.(2015)。

语音识别，20世纪90年代后，直到2000年停滞不前。深度学习引入(Dahl et al., 2010; Deng et al., 2010b; Seide et al., 2011; Hinton et al., 2012a)，语音识别错误率下降。

深度网络行人检测、图像分割得到成功(Sermanet et al., 2013; Farabet et al., 2013; Couprie et al., 2013)，交通标志分类取得超越人类表现(Ciresan et al., 2012)。

Goodfellow et al.(2014d)，神经网络学习输出描述图像整个符序列。此前，学习需要对序列每个元素标注(Gulcehre and Bengio,2013)。循环神经网络，LSTM序列模型，对序列和其他序列关系建模。序列到序列学习引领机器翻译颠覆性发展(Sutskever et al., 2014; Bahdanau et al., 2015)。

逻辑结论，神经图灵机(Graves et al., 2014)引入，学习读取存储单元和向存储单元写入任意内容。从期望行为样本学习简单程序。从杂乱和排好序样本学习对一系列数排序。自我编程技术起步阶段，原则上未来可适用几科所有任务。

强化学习(reinforcement learning)。自主智能体，没有人类操作者指导，试错学习执行任务。DeepMind表明，深度学习强化学习系统学会玩Atari视频游戏，在多种任务可与人类匹配(Mnih et al., 2015)。深度学习显著改善机器人强化学习性能(Finn et al., 2015)。

深度学习应用高利润，顶级技术公司：Googel、Microsoft、Facebook、IBM、Baidu、Apple、Adobe、Netflix、NVIDIA、NEC。

深度学习进步依赖软件基础架构进展。软件库，Theano(Bergstra et al., 2010a; Bastien et al., 2012a)、PyLearn2(Goodfellow et al., 2013e)、Torch(Collobert et al., 2011b)、DistBelief(Dean et al., 2012)、Caffe(Jia,2013)、MXNet(Chen et al., 2015)、TensorFlow(Abadi et al., 2015)。支持重要研究项目或商业产品。

对象识别现代卷积网络为神经科学家提供视觉处理模型(DiCarlo, 2013)。处理海量数据、科学领域有效预测工具，成功预测分子相互作用，帮助制药公司设计新药物(Dahl et al., 2014)。搜索亚原子粒子(Baldi et al., 2014)。自动解析构建人脑三维图显微镜图像(Knowles-Braley et al., 2014)。

深度学习是机器学习的一种方法。

参考资料：
《深度学习》

欢迎推荐上海机器学习工作机会，我的微信：qingxingfengzi

我有一个微信群，欢迎一起学深度学习。

学习笔记DL003:神经网络第二、三次浪潮，数据量、模型规模，精度、复杂度，对现实世界冲击的更多相关文章

CNN学习笔记：神经网络表示
CNN学习笔记:神经网络表示双层神经网络模型在一个神经网络中,当你使用监督学习训练它的时候,训练集包含了输入x还有目标输出y.隐藏层的含义是,在训练集中,这些中间节点的真正数值,我们是不知道的,即 ...
系统学习机器学习之神经网络（三）--GA神经网络与小波神经网络WNN
系统学习机器学习之神经网络(三)--GA神经网络与小波神经网络WNN 2017年01月09日 09:45:26 Eason.wxd 阅读数 14135更多分类专栏: 机器学习 1 遗传算法1.1 ...
Java虚拟机内存溢出异常--《深入理解Java虚拟机》学习笔记及个人理解(三)
Java虚拟机内存溢出异常--<深入理解Java虚拟机>学习笔记及个人理解(三) 书上P39 1. 堆内存溢出不断地创建对象, 而且保证创建的这些对象不会被回收即可(让GC Root可达 ...
【Spring学习笔记-MVC-3.1】SpringMVC返回Json数据-方式1-扩展
<Spring学习笔记-MVC>系列文章,讲解返回json数据的文章共有3篇,分别为: [Spring学习笔记-MVC-3]SpringMVC返回Json数据-方式1:http://www ...
EF学习笔记（八）：更新关联数据
学习笔记主目录链接:ASP.NET MVC5 及 EF6 学习笔记 - (目录整理) 上一篇链接:EF学习笔记(七):读取关联数据本篇原文链接:Updating Related Data 本篇主要考 ...
【EF6学习笔记】（八）更新关联数据
上一篇链接:EF学习笔记(七):读取关联数据本篇原文链接:Updating Related Data 本篇主要考虑对于有关联的数据进行新增.删除.更新操作:比如Course .Instructor: ...
TensorFlow学习笔记——深层神经网络的整理
维基百科对深度学习的精确定义为“一类通过多层非线性变换对高复杂性数据建模算法的合集”.因为深层神经网络是实现“多层非线性变换”最常用的一种方法,所以在实际中可以认为深度学习就是深度神经网络的代名词.从 ...
大数据学习笔记之Hadoop（三）：MapReduce&YARN
文章目录一 MapReduce概念 1.1 为什么要MapReduce 1.2 MapReduce核心思想 1.3 MapReduce进程 1.4 MapReduce编程规范(八股文) 1.5 Ma ...
机器学习框架ML.NET学习笔记【8】目标检测（采用YOLO2模型）
一.概述本篇文章介绍通过YOLO模型进行目标识别的应用,原始代码来源于:https://github.com/dotnet/machinelearning-samples 实现的功能是输入一张图片, ...

随机推荐

IRP小结 0x01 IRP & IO_STACK_LOCATION(结合WRK理解)
写博客整理记录一下IRP相关的知识点,加深一下印象. 所有的I/O请求都是以IRP的形式提交的.当I/O管理器为了响应某个线程调用的的I/O API的时候,就会构造一个IRP,用于在I/O系统处理这个 ...
java前端跨域请求后台接口
response.setHeader("Access-Control-Allow-Origin", "*"); /* 星号表示所有的域都可以接受, */ res ...
SpringIOC容器装配Bean
Spring 的core Container(Spring的核心容器)有四大部分:bean.context.core.expression 在进行Bean的配置时候,需要添加四个jar包如下: 分别 ...
在IDEA中以TDD的方式对String类和Arrays类进行学习
要求测试相关方法的正常,错误和边界情况 String类 charAt split Arrays类 sort binarySearch 提交运行结果截图和码云代码链接,截图没有水印的需要单独找老师验收 ...
makefile笔记9 - makefile隐含规则
在我们使用 Makefile 时,有一些我们会经常使用,而且使用频率非常高的东西,比如,我们编译C/C++的源程序为中间目标文件(Unix 下是[.o]文件,Windows 下是[.obj]文件). ...
shell编程规范：引用
Shell代码规范作者: 毕小朋用途: 规范Shell代码书写,方便查看与修改博客: http://blog.csdn.net/wirelessqa 参考: http://www.ohl ...
搞Java
上班之余,开始研究Java了. 想想从三月份开始自己啃书以来,Spring+Mybatis+公司框架的用法,基本都是速成来的,还是有些恐惧的. Spring万般爽,annotion用的很舒服,但还是想 ...
Github远程仓库提交代码步骤
1.克隆远程仓库 1)当没有设置默认目录时 git clone 仓库地址本地存放目录 //没有目录的情况 2)当设置了本地存放目录时先打开路径,命令: ...
周强 201771010141 《面向对象程序设计（java）》第九周实验总结
实验部分 1.实验目的与要求 (1) 掌握java异常处理技术: (2) 了解断言的用法: (3) 了解日志的用途: (4) 掌握程序基础调试技巧: 2.实验内容和步骤实验1:用命令行与IDE两种环 ...
linux服务器共享给windows的client打印机配置
最近实验室新进来一台服务器还有打印机,老大意思让服务器连接打印机并进行网络共享,其他的人可以通过自己的PC连接到共享打印机,打印各自电脑的文件.这样的需求可能很多人都有遇到,我也是遇到这件事,在网上搜 ...

学习笔记DL003:神经网络第二、三次浪潮，数据量、模型规模，精度、复杂度，对现实世界冲击

学习笔记DL003:神经网络第二、三次浪潮，数据量、模型规模，精度、复杂度，对现实世界冲击的更多相关文章

随机推荐

热门专题