solver解析与设置

Caffe的solver参数设置: http://caffe.berkeleyvision.org/tutorial/solver.html

net: "path to prototxt (train and val)"

test_iter：

每次test_interval的test的迭代次数，假设测试样本总数为10000张图片，一次性执行全部的话效率很低，所以将测试数据分为几个批次进行测试，

每个批次的数量就是batch_size。如果batch_size=100，那么需要迭代100次才能将10000个数据全部执行完，所以test_iter设置为100。

Caffe默认的迭代次数是50，当batch_size=1时可以通过设置test_iter为20000来修改迭代次数实现测试样本全覆盖。

test_interval：测试间隔，每训练多少次进行一次测试。

test_initialization：表示是否在训练之前进行一次TestALL()操作，其中如果设置了snapshot，会进行一次snapshot动作；

iter_size: 处理batchsize*itersize张图片后，才调用一次ApplyUpdate函数根据学习率、method(SGD、AdaSGD等)进行梯度下降

Caffe的solver类提供了6种优化算法，配置文件中可以通过type关键字设置：

    Stochastic Gradient Descent (type: “SGD”)

    AdaDelta (type: “AdaDelta”)

    Adaptive Gradient (type: “AdaGrad”)

    Adam (type: “Adam”)

    Nesterov’s Accelerated Gradient (type: “Nesterov”)

    RMSprop (type: “RMSProp”)
    inv: （type:“inv”）逐渐下降 return base_lr*(1+gamma*iter)^(-power) 简单地讲，solver就是一个告诉caffe你需要网络如何被训练的一个配置文件

lr_policy：

这个参数代表的是learning rate应该遵守什么样的变化规则，这个参数对应的是字符串，选项及说明如下：

“step” - 需要设置一个stepsize参数，返回base_lr * gamma ^ ( floor ( iter / stepsize ) )，iter为当前迭代次数

“multistep” - 和step相近，但是需要stepvalue参数，step是均匀等间隔变化，而multistep是根据stepvalue的值进行变化

“fixed” - 保持base_lr不变

“exp” - 返回base_lr * gamma ^ iter, iter为当前迭代次数

“poly” - 学习率进行多项式误差衰减，返回 base_lr ( 1 - iter / max_iter ) ^ ( power )

“sigmoid” - 学习率进行sigmod函数衰减，返回 base_lr ( 1/ 1＋exp ( -gamma * ( iter - stepsize ) ) )

base_lr：网络基准学习率0.1，lr过大会导致不收敛，过小会导致收敛过慢；并且根据学习策略和对应的gamma值，进行学习率调整；
lr = base_lr * gamma ^ ( floor ( iter / stepsize ) )

gamma：α 是lr的衰减系数,如 0.1
stepsize：是lr的衰减步长，

momentum：μ 上一次梯度更新的权重,如 0.9；
weight_decay：权重衰减项，用于防止过拟合,如 0.0005

SGD

Stochastic gradient descent (type: “SGD”) updates the weights W by a linear combination of the negative gradient ∇L(W) and the previous weight update Vt. The learning rate α is the weight of the negative gradient. The momentum μ is the weight of the previous update.

Formally, we have the following formulas to compute the update value Vt+1 and the updated weights Wt+1 at iteration t+1, given the previous weight update Vt and current weights Wt:

Vt+1=μVt−α∇L(Wt)
Wt+1=Wt+Vt+1
The learning “hyperparameters” (α and μ) might require a bit of tuning for best results. If you’re not sure where to start, take a look at the “Rules of thumb” below, and for further information you might refer to Leon Bottou’s Stochastic Gradient Descent Tricks [1].

[1] L. Bottou. Stochastic Gradient Descent Tricks. Neural Networks: Tricks of the Trade: Springer, 2012.

display：间隔多少迭代次数对结果进行输出；

average_loss：取多次foward的loss作平均，进行显示输出

max_iter: 最大迭代次数；

snapshot：间隔多少迭代次数进行一次模型的保存；

solver_mode：选择CPU训练或者GPU训练；

snapshot_prefix："训练模型保存的路径及前缀"；


就个人经验而论 batchsize越大越好1.震荡明显减少 2.收敛速度加快 3.同样学习率下大batch可以收敛到更好的水平。目前没发现什么大batch过早陷入局部最优的现象，在我这都是batch越大，精度越高；
Batch Size（批处理大小）对于模型来说是非常重要，在梯度下降方法训练模型时，Batch Size的大小决定了梯度下降的方向和收敛的效果和速率，以及内存的利用率。一般来说：过于小的Batch Size可能导致模型不收敛，随着Batch Size的增大，模型的处理速度会加快，但同时达到最优精度的epoch数量也随之增多；因此，Batch Size可能达到时间最优，以及收敛精度最优。所以在选择时一方面根据计算能力来选择，一方面需要进行不同的试验选择相对较优的Batch Size。

solver解析与设置的更多相关文章

JSP Servlet 路径解析路径设置
转自:http://ethen.iteye.com/blog/800415 在用JSP和Servlet编写Web应用时,经常遇到的问题就是找不到.do路径,或者.do路径不能解析,其实归根到底就是Se ...
Spring Boot默认的JSON解析框架设置
方案一:启动类继承WebMvcConfigurerAdapter,覆盖方法configureMessageConverters ... @SpringBootApplication public cl ...
MySQL的sql_mode解析与设置，sql文件导入报错解决
在往MySQL数据库中插入一组数据时,出错了!数据库无情了给我报了个错误:ERROR 1365(22012):Division by 0:意思是说:你不可以往数据库中插入一个除数为0的运算的结果.于 ...
Java开发学习(二十三)----SpringMVC入门案例、工作流程解析及设置bean加载控制
一.SpringMVC概述 SpringMVC是隶属于Spring框架的一部分,主要是用来进行Web开发,是对Servlet进行了封装.SpringMVC是处于Web层的框架,所以其主要的作用就是用来 ...
升级 mysql5.6 配置文件my.cnf sql_mode 解析与设置问题
sql_mode是个很容易被忽视的变量,默认值是空值,在这种设置下是可以允许一些非法操作的,比如允许一些非法数据的插入.在生产环境必须将这个值设置为严格模式,所以开发.测试环境的数据库也必须要设置,这 ...
MySQL的sql_mode解析与设置
https://blog.csdn.net/hhq163/article/details/54140286 https://blog.csdn.net/ccccalculator/article/de ...
将String类型的XML解析并设置到实体类中
package com.mooc.string; import java.util.ArrayList; import java.util.List; import org.dom4j.Documen ...
使用com.jayway.jsonpath.JsonPath包进行JSON的快速解析、设置值需要注意的性能提升方法
一.包地址 1.Maven:http://mvnrepository.com/artifact/com.jayway.jsonpath/json-path <!-- https://mvnrep ...
HTML解析器HtmlAgilityPack的一些使用总结(C#)
哎~本来这些总结是作为使用时的快速备注,但是用不上了.实际应用当中HtmlAgilityPack的可靠性不太稳定,一主要问题是:-> 一些字符会出现乱码或者变成'?',如韩语字符.由于我是已经有 ...

随机推荐

vue 不能监测数组长度变化length的原因
由于 JavaScript 的限制,Vue 不能检测以下变动的数组: 当你利用索引直接设置一个项时,例如:vm.items[indexOfItem] = newValue 当你修改数组的长度时,例如: ...
关于vector push_back()与其他方式读取数据的效率对比（转）
引言: 在读取大量数据(数组)时,使用vector会尽量保证不会炸空间(MLE),但是相比于scanf的读取方式会慢上不少.但到底效率相差有多大,我们将通过对比测试得到结果. 测试数据:利用srand ...
static、final修饰符、内部类
static修饰符: static修饰符能够与属性.方法和内部类一起使用,表示静态的.类中的静态变量和静态方法能够与类名一起使用.不须要创建一个类的对象来訪问该类的静态成员. class Static ...
HTML-HTML5+CSS3权威指南阅读（五、设备像素和CSS像素的概念）
在这个迷你系列的文章里边我将会解释viewport,以及许多重要元素的宽度是如何工作的,比如<html>元素,也包括窗口和屏幕这篇文章是关于桌面浏览器的,其唯一目的就是为移动浏览器中相似 ...
CSS3使用Animation为同一个元素添加多个动画效果
本篇文章由:http://xinpure.com/css3-animation-for-the-same-element-multiple-animation-effects/ CSS3 Animat ...
js操作时间加法减法计算格式化时间
Date.prototype.Format = function (fmt) { var o = { "M+": this.getMonth() + 1, //月份 "d ...
扩展方法 DataTable的ToList<T>
using System; using System.Collections.Generic; using System.Data; using System.Linq; using System.T ...
python--文件处理范例
import os,os.path,string dir="D:\\curl\\data" if (os.path.exists(dir)==False): print " ...
Firefly 3288又一次制作android和lubuntu双系统固件
又一次制作android和lubuntu双系统固件因为本人改动了lubuntu的驱动和设备树信息,为了方便烧写系统,所以又一次制作了双系统的固件. Firefly wiki教程里有android固件 ...
Shell 基础笔记
1-22-shell脚本的基础本节所讲内容:  shell 基本语法  变量第1章什么是SHELL?.. 2 1.1 shell编程.. 3 第2章 shell变量及运用.. ...

solver解析与设置

SGD

solver解析与设置的更多相关文章

随机推荐

热门专题