神经网络优化篇:详解调试处理(Tuning process)
调试处理
关于训练深度最难的事情之一是要处理的参数的数量,从学习速率\(a\)到Momentum(动量梯度下降法)的参数\(\beta\)。如果使用Momentum或Adam优化算法的参数,\(\beta_{1}\),\({\beta}_{2}\)和\(\varepsilon\),也许还得选择层数,也许还得选择不同层中隐藏单元的数量,也许还想使用学习率衰减。所以,使用的不是单一的学习率\(a\)。接着,当然可能还需要选择mini-batch的大小。
结果证实一些超参数比其它的更为重要,认为,最为广泛的学习应用是\(a\),学习速率是需要调试的最重要的超参数。
除了\(a\),还有一些参数需要调试,例如Momentum参数\(\beta\),0.9就是个很好的默认值。还会调试mini-batch的大小,以确保最优算法运行有效。还会经常调试隐藏单元,用橙色圈住的这些,这三个是觉得其次比较重要的,相对于\(a\)而言。重要性排第三位的是其他因素,层数有时会产生很大的影响,学习率衰减也是如此。当应用Adam算法时,事实上,从不调试\(\beta_{1}\),\({\beta}_{2}\)和\(\varepsilon\),总是选定其分别为0.9,0.999和\(10^{-8}\),如果想的话也可以调试它们。
但希望粗略了解到哪些超参数较为重要,\(a\)无疑是最重要的,接下来是用橙色圈住的那些,然后是用紫色圈住的那些,但这不是严格且快速的标准,认为,其它深度学习的研究者可能会很不同意的观点或有着不同的直觉。
现在,如果尝试调整一些超参数,该如何选择调试值呢?在早一代的机器学习算法中,如果有两个超参数,这里会称之为超参1,超参2,常见的做法是在网格中取样点,像这样,然后系统的研究这些数值。这里放置的是5×5的网格,实践证明,网格可以是5×5,也可多可少,但对于这个例子,可以尝试这所有的25个点,然后选择哪个参数效果最好。当参数的数量相对较少时,这个方法很实用。
在深度学习领域,常做的,推荐采用下面的做法,随机选择点,所以可以选择同等数量的点,对吗?25个点,接着,用这些随机取的点试验超参数的效果。之所以这么做是因为,对于要解决的问题而言,很难提前知道哪个超参数最重要,正如之前看到的,一些超参数的确要比其它的更重要。
举个例子,假设超参数1是\(a\)(学习速率),取一个极端的例子,假设超参数2是Adam算法中,分母中的\(\varepsilon\)。在这种情况下,\(a\)的取值很重要,而\(\varepsilon\)取值则无关紧要。如果在网格中取点,接着,试验了\(a\)的5个取值,那会发现,无论\(\varepsilon\)取何值,结果基本上都是一样的。所以,知道共有25种模型,但进行试验的\(a\)值只有5个,认为这是很重要的。
对比而言,如果随机取值,会试验25个独立的\(a\),似乎更有可能发现效果做好的那个。
已经解释了两个参数的情况,实践中,搜索的超参数可能不止两个。假如,有三个超参数,这时搜索的不是一个方格,而是一个立方体,超参数3代表第三维,接着,在三维立方体中取值,会试验大量的更多的值,三个超参数中每个都是。
实践中,搜索的可能不止三个超参数有时很难预知,哪个是最重要的超参数,对于的具体应用而言,随机取值而不是网格取值表明,探究了更多重要超参数的潜在值,无论结果是什么。
当给超参数取值时,另一个惯例是采用由粗糙到精细的策略。
比如在二维的那个例子中,进行了取值,也许会发现效果最好的某个点,也许这个点周围的其他一些点效果也很好,那在接下来要做的是放大这块小区域(小蓝色方框内),然后在其中更密集得取值或随机取值,聚集更多的资源,在这个蓝色的方格中搜索,如果怀疑这些超参数在这个区域的最优结果,那在整个的方格中进行粗略搜索后,会知道接下来应该聚焦到更小的方格中。在更小的方格中,可以更密集得取点。所以这种从粗到细的搜索也经常使用。
通过试验超参数的不同取值,可以选择对训练集目标而言的最优值,或对于开发集而言的最优值,或在超参搜索过程中最想优化的东西。
希望,这能给提供一种方法去系统地组织超参数搜索过程。另一个关键点是随机取值和精确搜索,考虑使用由粗糙到精细的搜索过程。
神经网络优化篇:详解调试处理(Tuning process)的更多相关文章
- PHP函数篇详解十进制、二进制、八进制和十六进制转换函数说明
PHP函数篇详解十进制.二进制.八进制和十六进制转换函数说明 作者: 字体:[增加 减小] 类型:转载 中文字符编码研究系列第一期,PHP函数篇详解十进制.二进制.八进制和十六进制互相转换函数说明 ...
- 走向DBA[MSSQL篇] 详解游标
原文:走向DBA[MSSQL篇] 详解游标 前篇回顾:上一篇虫子介绍了一些不常用的数据过滤方式,本篇详细介绍下游标. 概念 简单点说游标的作用就是存储一个结果集,并根据语法将这个结果集的数据逐条处理. ...
- Scala进阶之路-Scala函数篇详解
Scala进阶之路-Scala函数篇详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.传值调用和传名调用 /* @author :yinzhengjie Blog:http: ...
- CentOS 7 下编译安装lnmp之PHP篇详解
一.安装环境 宿主机=> win7,虚拟机 centos => 系统版本:centos-release-7-5.1804.el7.centos.x86_64 二.PHP下载 官网 http ...
- CentOS 7 下编译安装lnmp之MySQL篇详解
一.安装环境 宿主机=> win7,虚拟机 centos => 系统版本:centos-release-7-5.1804.el7.centos.x86_64 二.MySQL下载 MySQL ...
- CentOS 7 下编译安装lnmp之nginx篇详解
一.安装环境 宿主机=> win7,虚拟机 centos => 系统版本:CentOS Linux release 7.5.1804 (Core),ip地址 192.168.1.168 ...
- 详解调试Apache的mod_rewrite模块
大家都知道Apache里面的Rewrite规则是一件很蛋疼的事情,有时候只是想做一个伪静态而已,不想去研究那些复杂的规则,可官方给的规则又常常出错,出了问题我们就要调试一下,看看提交的参数被映射到了哪 ...
- Canal:同步mysql增量数据工具,一篇详解核心知识点
老刘是一名即将找工作的研二学生,写博客一方面是总结大数据开发的知识点,一方面是希望能够帮助伙伴让自学从此不求人.由于老刘是自学大数据开发,博客中肯定会存在一些不足,还希望大家能够批评指正,让我们一起进 ...
- c#的dllimport使用方法详解,调试找不到dll的方法
DllImport会按照顺序自动去寻找的地方: 1.exe所在目录 2.System32目录 3.环境变量目录所以只需要你把引用的DLL 拷贝到这三个目录下 就可以不用写路径了 或者可以这样serve ...
- java提高篇-----详解java的四舍五入与保留位
转载:http://blog.csdn.net/chenssy/article/details/12719811 四舍五入是我们小学的数学问题,这个问题对于我们程序猿来说就类似于1到10的加减乘除那么 ...
随机推荐
- 非工程师指南: 训练 LLaMA 2 聊天机器人
引言 本教程将向你展示在不编写一行代码的情况下,如何构建自己的开源 ChatGPT,这样人人都能构建自己的聊天模型.我们将以 LLaMA 2 基础模型为例,在开源指令数据集上针对聊天场景对其进行微调, ...
- STM32CubeMX教程7 TIM 通用定时器 - 输入捕获
1.准备材料 开发板(STM32F407G-DISC1) ST-LINK/V2驱动 STM32CubeMX软件(Version 6.10.0) keil µVision5 IDE(MDK-Arm) X ...
- 从4个特点为你解密华为云媒体网络底座AND
本文分享自华为云社区<解密华为云媒体网络底座ADN>,作者: Satan.D . 互联网的痛点与解决思路 互联网自1968年起源依赖,已经发展了半个多世纪.互联网仅从中文字面意思,可以简单 ...
- 从大数据到AI,华为云存储加速企业大模型快速应用
摘要:AI与大数据算法不断发展,在生产中的应用也越来越广,而应用的场景除了对算法,软件架构要求越来越高外,也对底层IaaS(基础设施即服务)提出了新的挑战. AI与大数据算法不断发展,在生产中的应用也 ...
- 华为云GaussDB圈层活动走进香港,以技术创新构筑金融政企数智发展基石
摘要:近日,华为云GaussDB圈层活动在中国·香港如期举办,活动聚集了22家香港金融政企客户和合作伙伴. 本文分享自华为云社区<华为云GaussDB圈层活动走进香港,赋能金融政企数字化转型&g ...
- 华为云IoT设备接入服务全体验
摘要:华为云IoT设备接入服务,海量设备,一键接入,你值得拥有! 本文分享自华为云社区<[云驻共创]Huawei Mate 40产线直击之 华为云IoT设备接入服务全体验>,原文作者:启明 ...
- DevSecOps“内置安全保护”,让软件研发“天生健康”
摘要:我们主要是围绕安全架构设计保证安全落地有法可依,进行威胁建模让安全落地有迹可循.做好隐私和敏感数据保护让安全落地在每一个细节和实处这几个方面进行阐述. 本文分享自华为云社区<DevSecO ...
- 再谈BOM和DOM(7):HTML DOM Event 对象属性及DOM事件详细列表
之前写<再谈BOM和DOM(4):HTML DOM Event 对象>时候,对event对象及各种dom事件没有详细道来,这里些表格.备查. Event 对象 Event 对象代表事件的状 ...
- 再谈BOM和DOM(1):BOM与DOM概述
JavaScript的实现包括以下3个部分: ECMAScript(核心):描述了JS的语法和基本对象. 浏览器对象模型(BOM):与浏览器交互的方法和接口 文档对象模型 (DOM):处理网页内容的方 ...
- 在线一键生成安卓证书keystore 文件
在线一键生成安卓证书 keystore 文件 一般的打包工具都会有默认的安卓证书提供,但如果你需要上架需要用自己申请安卓证书 keystore 文件打包 apk 现有方便方便的工具,直接在网页就可以申 ...