学习笔记DL003:神经网络第二、三次浪潮,数据量、模型规模,精度、复杂度,对现实世界冲击
神经科学,依靠单一深度学习算法解决不同任务。视觉信号传送到听觉区域,大脑听学习处理区域学会“看”(Von Melchner et al., 2000)。计算单元互相作用变智能。新认知机(Fukushima,1980),哺乳动物视觉系统结构,处理图片强大模型架构,现代卷积网络基础(LeCun et al., 1998c)。神经网络基于整流线性单元(rectified linear unit)神经单元模型。原始认知机(Fukushima,1975)更复杂。简化现代版,Nair and Hinton(2010b)和Glorot et al.(2011a) 神经科学,Jarrett et al.(2009a) 面向工程。真实神经元计算与现代整流线性单元不同函数,没有提升性能。对神经科学生物学习没有足够了解,不能为训练架构学习算法提供借鉴。现代深度学习从应用数学基本内容(线性代数、概率论、信息论、数值优化)获取灵感。计算神经科学,大脑在算法层面工作,独立于深度学习。深度学习领域关注构建计算机系统,解决智能解决任务。计算机器神经科学关注构建大脑真实工作、精确模型。
20世纪80年代,神经网络第二次浪潮。联结主义(connectionism)或并行分布处理(parallel distributed procession)(Rumelhart et al., 1986d;McClelland et al., 1995)。认知科学,理解思维跨学科途径,融合不多个不同分析层次。符号模型难解释大脑用神经元实现推理功能。基于神经系统实现认知模型(Touretzky and Minton, 1985)。心理学家Donald Hebb,20世界40年代工作(Hebb, 1949)。联结主义,网络将大量简单计算单元连接在一起实现智能行为。同样适用于生物神经系统神经元。
分布式表示(distributed representation)(Hinton et al., 1986)。系统每一个输入由多个特征表示,每一个特征参与到多个输入表示。反向传播,训练具有内部表示深度神经网络,反向传播算法普及(Remelhart et al., 1986c;LeCun,1987)。训练深度模型主导方法。
20世纪90年代,Hochreiter(1991b)和Bengion et al.(1994b),长序列建模。Hochreiter和Schmidhuber(1997)引入长短期记忆(logn short term memory, LSTM)网络。LSTM 序列建模任务广泛应用,Google 自然语言处理任务。
第二次浪潮持续到20世纪90年代中期,机器学习其他领域,核方法(Boser et al., 1992; Cortes and Vapnik, 1995; Scholkopf et al., 1999),图模型(Jordan, 1998)在重要任务效果很好。神经网络热潮第二次衰退,一直持续到2007年。(LeCUN et al., 1998c; Bengio et al., 2001a)。加拿大高级研究所(CIFAR),神经计算和自适应感知(NCAP)研究计划,联合Geoffrey Hinton、Yoshua Bengio、Yann LeCun领导多伦多大学、蒙特利尔大学、纽约大学机器学习研究小组。包括神经科学家、人类和计算视觉专家。20世纪80年代处法能工作得非常好,只是计算代价太高,当时可用硬件难进行足够实验。
神经网络第三次浪潮,始于2006年突破。Geoffrey Hinton表明,深度信念网络神经网络,用贪婪逐层训练策略可有效训练(Hinton et al., 2006a)。同样策略可训练其他类型深度网络(Bengio and LeCun, 2007a; Ranzato et al., 2007b),系统提高测试样例泛化能力。普通深度学习术语。强调训练比较深神经网络,深度理论重要性(Bengio and LeCun,2007b; Delalleau and Bengio, 2011; Pascanu et al., 2014a; Montufar et al., 2014)。深度神经网络优地其他机器学习技术及手工设计功能AI系统。第三次浪潮现在已开始着眼无监督学习技术、深度模型小数据集泛化能力。更多兴趣点极是监督学习算法、深度模型充分利用大型标注数据集能力。
与日俱增数据量。训练数据增加,所需技巧减少。复杂任务达到人类水平学习算法,与20世纪80年代解决玩具问题(toy problem)一样。简化极深架构训练。成功训练所需资源。
20世纪初,统计学家用数百或数千手动制作度量研究数据集(Garson,1900; Gosset,1908; Anderson, 1935; Fisher,1936)。20世纪50年代到80年代,受生物启发机器学习开拓者用小合成数据集,如低分辨率字母位图,低计算成本下表明神经网络学习特定功能(Widrow and Hoff,1960; Rumelhart et al., 1986b)。20世纪80年代和90年代,机器学习变得更偏统计,用成千上万个样本更大数据集,如手写扫描数字MNIST数据集(LeCun et al., 1998c)。21世纪第一个10年,CIFAR-10数据集(Krizhevsky and Hinton,2009)。2011-2015,数万到数千万样例数据集,完全改变深度学习可能实现。公共Street View House Numbers数据集(Netzer et al., 2011)。各种版本ImageNet数据集(Deng et al., 2009,2010a; Russakovsky et al., 2014a)。Sprots-1M数据集(Karpathy et al., 2014)。翻译句子数据集,Canadian Hansard IBM数据集(Brown et al., 1990)。WMT 2014英法数据集(Schwentk,2014)。
社会日益数字化驱动数据集大小增加。活动在计算机,记录,联网,集中管理,整理机器学习数据集。监督ipwya学习算法,每类5000个标注样本,可达到接受性能。1000万个标注样本数据集训练,达到或超过人类表现。更小数据集,无监督或半监督学习未标注样本。
MNIST数据集。“NIST”,国家标准和技术研究所(National Institute of Standards and Technology)。“M”,修改(Modified),更容易与机器学习算法一起用,数据预处理。MNIST数据集,手写数字扫描、标签(每个图像包含0~9数字)。深度学习最简单最广泛测试。Geoffrey Hinton,机器学习果蝇。在受控实验室条件研究算法。
与日俱增模型规模(每个神经元连接数)。现在拥有计算资源可运行更大模型。联结主义,动物很多神经元一起工作变聪明。最初,人工神经网络神经元连接数受限硬件能力,现在主要是出于设计考虑。
神经元总数目,神经网络惊人的小。隐藏单元引入,人工神经网络规模每2.4年扩大一倍。更大内存、更快计算机机、更大可用数据集驱动。更大网络在更复杂任务实现更高精度。至少21世纪50年代,人工神经网络才具备人脑相同数量级神经元。生物神经元表示功能比目前人工神经元表示更复杂。
感知机(Rosenblatt,1958,1962)。自适应线性单元(Widrow and Hoff,1960)。神经认知机(Fukushima,1980)。早期后向传播网络(Rumelhart et al., 1986b)。用于语音识别循环神经网络(Robinson and Fallside,1991)。用于语音识别多层感知机(Bengio et al., 1991)。均匀场sigmoid信念网络(Saul et al., 1996)。LeNet5 (LeCun et al., 1998c)。回声壮态网络(Jaeger and Haas,2004)。深度信念网络(Hinton et al., 2006a)。GPU加速卷积网络(Chellapilla et al., 2006)。深度玻尔兹曼机(Salakhutdinov and Hinton,2009a)。GPU加速深度信念网络(Raina et al., 2009a)。无监督卷积网络(Jarrett et al., 2009b)。GPU加速多层感知机(Ciresan et al., 2010)。OMP-1网络(Coates and Ng,2011)。分布式自编码器(Le et al., 2012)。Multi-GPU卷积网络(Krizhevsky et al., 2012a)。COTS HPC 无监督卷积网络(Coates et al., 2013)。GoogleNet(Szegedy et al., 2014a)。
与日俱增精度、复杂度,对现实世界冲击。最早深度模型,识别裁剪紧凑且非常小图像单个对象(Rumelhart et al., 1986d)。神经网络处理图像尺寸逐渐增加。现代对象识别网络处理丰富高分辨率照片,不需要被识别对象附近裁剪(Krizhevsky et al., 2012b)。现代网络能识别到少1000个不同类别对象。ImageNet大型视觉识别挑战(ILSVRC),每年举行。卷积网络第一次大幅赢得挑战,前5错误率从26.1%降到15.3%(Krizhevsky et al.,2012b)。网络针对每个图像可能类别生成顺序列表,除15.3%测试样本,其他测试样本正确类标出现在列表前5项。深度卷积网络连续赢得比赛,深度学习前5错误率降到3.6%。Russakovsky et al.(2014b)和He et al.(2015)。
语音识别,20世纪90年代后,直到2000年停滞不前。深度学习引入(Dahl et al., 2010; Deng et al., 2010b; Seide et al., 2011; Hinton et al., 2012a),语音识别错误率下降。
深度网络行人检测、图像分割得到成功(Sermanet et al., 2013; Farabet et al., 2013; Couprie et al., 2013),交通标志分类取得超越人类表现(Ciresan et al., 2012)。
Goodfellow et al.(2014d),神经网络学习输出描述图像整个符序列。此前,学习需要对序列每个元素标注(Gulcehre and Bengio,2013)。循环神经网络,LSTM序列模型,对序列和其他序列关系建模。序列到序列学习引领机器翻译颠覆性发展(Sutskever et al., 2014; Bahdanau et al., 2015)。
逻辑结论,神经图灵机(Graves et al., 2014)引入,学习读取存储单元和向存储单元写入任意内容。从期望行为样本学习简单程序。从杂乱和排好序样本学习对一系列数排序。自我编程技术起步阶段,原则上未来可适用几科所有任务。
强化学习(reinforcement learning)。自主智能体,没有人类操作者指导,试错学习执行任务。DeepMind表明,深度学习强化学习系统学会玩Atari视频游戏,在多种任务可与人类匹配(Mnih et al., 2015)。深度学习显著改善机器人强化学习性能(Finn et al., 2015)。
深度学习应用高利润,顶级技术公司:Googel、Microsoft、Facebook、IBM、Baidu、Apple、Adobe、Netflix、NVIDIA、NEC。
深度学习进步依赖软件基础架构进展。软件库,Theano(Bergstra et al., 2010a; Bastien et al., 2012a)、PyLearn2(Goodfellow et al., 2013e)、Torch(Collobert et al., 2011b)、DistBelief(Dean et al., 2012)、Caffe(Jia,2013)、MXNet(Chen et al., 2015)、TensorFlow(Abadi et al., 2015)。支持重要研究项目或商业产品。
对象识别现代卷积网络为神经科学家提供视觉处理模型(DiCarlo, 2013)。处理海量数据、科学领域有效预测工具,成功预测分子相互作用,帮助制药公司设计新药物(Dahl et al., 2014)。搜索亚原子粒子(Baldi et al., 2014)。自动解析构建人脑三维图显微镜图像(Knowles-Braley et al., 2014)。
深度学习是机器学习的一种方法。
参考资料:
《深度学习》
欢迎推荐上海机器学习工作机会,我的微信:qingxingfengzi
我有一个微信群,欢迎一起学深度学习。
学习笔记DL003:神经网络第二、三次浪潮,数据量、模型规模,精度、复杂度,对现实世界冲击的更多相关文章
- CNN学习笔记:神经网络表示
CNN学习笔记:神经网络表示 双层神经网络模型 在一个神经网络中,当你使用监督学习训练它的时候,训练集包含了输入x还有目标输出y.隐藏层的含义是,在训练集中,这些中间节点的真正数值,我们是不知道的,即 ...
- 系统学习机器学习之神经网络(三)--GA神经网络与小波神经网络WNN
系统学习机器学习之神经网络(三)--GA神经网络与小波神经网络WNN 2017年01月09日 09:45:26 Eason.wxd 阅读数 14135更多 分类专栏: 机器学习 1 遗传算法1.1 ...
- Java虚拟机内存溢出异常--《深入理解Java虚拟机》学习笔记及个人理解(三)
Java虚拟机内存溢出异常--<深入理解Java虚拟机>学习笔记及个人理解(三) 书上P39 1. 堆内存溢出 不断地创建对象, 而且保证创建的这些对象不会被回收即可(让GC Root可达 ...
- 【Spring学习笔记-MVC-3.1】SpringMVC返回Json数据-方式1-扩展
<Spring学习笔记-MVC>系列文章,讲解返回json数据的文章共有3篇,分别为: [Spring学习笔记-MVC-3]SpringMVC返回Json数据-方式1:http://www ...
- EF学习笔记(八):更新关联数据
学习笔记主目录链接:ASP.NET MVC5 及 EF6 学习笔记 - (目录整理) 上一篇链接:EF学习笔记(七):读取关联数据 本篇原文链接:Updating Related Data 本篇主要考 ...
- 【EF6学习笔记】(八)更新关联数据
上一篇链接:EF学习笔记(七):读取关联数据 本篇原文链接:Updating Related Data 本篇主要考虑对于有关联的数据进行新增.删除.更新操作:比如Course .Instructor: ...
- TensorFlow学习笔记——深层神经网络的整理
维基百科对深度学习的精确定义为“一类通过多层非线性变换对高复杂性数据建模算法的合集”.因为深层神经网络是实现“多层非线性变换”最常用的一种方法,所以在实际中可以认为深度学习就是深度神经网络的代名词.从 ...
- 大数据学习笔记之Hadoop(三):MapReduce&YARN
文章目录 一 MapReduce概念 1.1 为什么要MapReduce 1.2 MapReduce核心思想 1.3 MapReduce进程 1.4 MapReduce编程规范(八股文) 1.5 Ma ...
- 机器学习框架ML.NET学习笔记【8】目标检测(采用YOLO2模型)
一.概述 本篇文章介绍通过YOLO模型进行目标识别的应用,原始代码来源于:https://github.com/dotnet/machinelearning-samples 实现的功能是输入一张图片, ...
随机推荐
- chrome 无头浏览器的使用
在linux服务器上安装chrome : ubuntu: 下载页面https://www.chrome64bit.com/index.php/google-chrome-64-bit-for-linu ...
- Mybatis第一天
Mybatis第一天 框架课程 1. 课程计划 第一天: 1.Mybatis的介绍 2.Mybatis的入门 a) 使用jdbc操作数据库存在的问题 b) Mybatis ...
- Oracle 使用序列实现自增列 及重置序列
序列是oracle用来生产一组等间隔的数值.序列是递增,而且连续的.oracle主键没有自增类型,所以一般使用序列产生的值作为某张表的主键,实现主键自增.序列的编号不是在插入记录的时候自动生成的,必须 ...
- 为什么Vuex内数据改变了而组件没有进行更新?
这两天在进行一个首页的制作,结果就碰到了标题上所述的问题了,用了一天的时间在网上查资料.终于找出了问题所在 Vuex的数据写在store里,在组件中需要用到this.$store.commit() 来 ...
- 浅谈利用同步机制解决Java中的线程安全问题
我们知道大多数程序都不会是单线程程序,单线程程序的功能非常有限,我们假设一下所有的程序都是单线程程序,那么会带来怎样的结果呢?假如淘宝是单线程程序,一直都只能一个一个用户去访问,你要在网上买东西还得等 ...
- cocos大量对象使用动作注意事项
,,} for i,v in ipairs(area) do if gameResult == v then ]) do local scale_1 = cc.ScaleTo:create(0.05, ...
- java虚拟机——监控工具
本篇记录本人在学习JDK监控工具的一些笔记.JDK是1.8 JPS:查看java的进程命令 左边的数字是进程ID,对应的是进程的名称. jstat:查看运行时状态信息. 1.-class:监控类装载, ...
- jmeter之关联
前言:当请求之间有依赖关系,比如一个请求的入参是另一个请求返回的数据,这时候就需要用到关联处理,Jmeter可以通过“后置处理器”中的“正则表达式提取器”来处理关联. 一.后置处理器-------正则 ...
- python基础13_zip_import
继续内置函数,zip函数被比喻成拉链,将两边的齿对应起来. #!/usr/bin/env python # coding:utf-8 ## 比喻像个拉链,将两边对应起来. # 多出来的部分,不作处理. ...
- python定时脚本判断服务器内存
经常我们会发现服务器跑着跑着内存使用率达到了百分之八九十,或者有时候直接挂掉,在我们还没定位是哪块代码有问题导致内存占用很大的时候,可以先写个定时脚本,当服务器内存使用率达到一定值的时候,就重启一起服 ...