基于LeNet的手写汉字识别(caffe)

我假设已经成功编译caffe,如果没有，请参考http://caffe.berkeleyvision.org/installation.html

在本教程中，我假设你的caffe安装目录是CAFFE_ROOT

一.数据准备

首先，你需要从MNIST网站下载mnist数据，并转换数据格式。可以通过执行以下命令来实现

cd $CAFFE_ROOT

./data/mnist/get_mnist.sh

./examples/mnist/create_mnist.sh

如果显示没有安装wget或者gunzip，那么你需要分别安装。运行以上脚本之后，
examples/mnist文件夹下应该有以下两个文件夹：mnist_lmdb 和 mnist_test_lmdb

至此，数据准备完毕。

二. LeNet: the MNIST 分类模型(classification Model)

在我运行训练程序之前，让我解释下发生了什么。我们使用LeNet网络，LeNet因为在数字分类任务

表现非常不错而受到关注。我们使用了和LeNet原始实现有轻微不同的版本。我们用ReLU激活函数

代替了神经元的sigmoid激活函数。

LeNet的设计包含了CNNs的特性，这些特性仍然被用在类似ImageNet的这样的大型模型中。实际上，

LeNet包含卷积层，卷积层后面跟随着池化层，然后另外一层卷积层跟着这一层池化层，然后跟着两个

全连接层，和传统的多成感知相识。我们在以下文件定义了这些网络层：

$CAFFE_ROOT/examples/mnist/lenet_train_test.prototxt.

三. 定义MNIST网络

这节讲述了 lenet_train_test.prototxt 的模型定义，用于手写数字分类(识别).

我们假设你熟悉Goople Protobuf,并认为你读过caffe使用的protobuf定义，你可以

在以下路径中找到：$CAFFE_ROOT/src/caffe/proto/caffe.proto.

具体而言，我们会写一个caffe::NetParameter(或者用python, caffe.proto.caffe_pb2.NetParameter) protobuf.

我们将会通过给一个网络名字开始:

name:"LetNet"

数据层

当前，我们将会从刚刚创建的lmdb中读取MNIST数据，从lmdb中读取数据在data layer中定义

layer{

type: "Data"

transform_param{

scale:0.00390625

}

data_param{

source: "mnist_train_lmdb"

backend: LMDB

batch_size:64

}

top: "data"

top: "label"

}

具体而言，这网络层的名字为mnist，类型为data,这个网络层从给定的lmdb source读取数据。我们使的

batch_size为64，我们缩放输入的图像像素，这样可以让想素质的范围落在[0,1]之间，为什么是0。00390625呢？

因为1/256=0.00390625。最后，该网络层产生两个blobs，一个是data blob, 另外一个是label blob

卷积层

让我们开始定义第一层卷积层吧。

layer{

type: "Convolution"

param { lr_mult:1 }

param { lr_mult:2 }

convolution_param {

num_output: 20

kernel_size: 5

stride: 1

weight_filler {

type: "xavier"

}

bias_filler {

type: "constant"

}

bottom: "data"

top: "conv1"

}

这层(第一层卷积层)接收data blob（数据层产生的数据）然后生成conv1 layer.conv1 产生20个通道的输出，

卷积核大小为5x5,步长为1。

filler允许我们随机初始化权重和偏置的值，对于weight filler, 我们使用xavier算法，该算法基于输入输出神经元的数量

自动决定初始化的尺度。对于偏置，我们简单的将其初始化为constant, 默认为0。

lr_mults是对于层的可学习参数的学习率的调整。在这个例子中，在运行期间我们将会把

权重学习率设置成solver给的学习率相同，偏置学习率是solver给的学习率的两倍，因为

这样有利于收敛速率。

池化层

实际上池化层更好定义。

layer {

type: "Pooling"

pooling_param {

kernel_size: 2

stride: 2

pool: MAX

}

bottom: "conv1"

top: "pool1"

}

以上定义的意思是说我们会通过2x2的过滤器，和步长为2的方式执行最大池化

（所以相邻的池化区域不会产生重叠）

同样，你可以写第二层卷积层和池化层。详细内容查看：

$CAFFE_ROOT/examples/mnist/lenet_train_test.prototxt

全连接层

写全连接层同样简单

layer {

type: "InnerProduct"

param { lt_mult: 1}

param { lr_mult: 2}

inner_product_param {

num_output: 500

weigh_filler {

type: "xavier"

}

bias_filler {

type: "constant"

}

bottom: "pool2"

top: "ip1"

}

这个定义为全连接层(在caffe框架中，我们称InnerProduct layer)有500个输出。

ReLU层

ReLU层也一样简单

Layer {

type: "ReLU"

bottom: "ip1"

top: "ip1"

}

因为ReLU是元素层面的运算，我们可以do in-place运算来保存记忆。这是通过给bottom和top blobs

相同的名字来实现。当然，不要在其它层类型给重复的blob名字

ReLU层之后，我们会写另外一层的全连接层

layer {

type: "InnerProduct:

param {lr_mult: 1 }

param { lr_mult: 2 }

inner_product_param {

num_output: 10

weight_filler {

type: "xavier"

}

bias_filler {

type: "constant"

}

bottom: "ip1"

top: "ip2"

}

损失层

最后，我们写损失层

layer {

type: "SoftmaxWidthLoss"

bottom: "ip2:

bottom: "label"

}

softmax_loss 层实现了softmax和多项后勤损失(multinomial logistic loss).

softmax_loss takes two blobs，第一个是预测，第二个是给数据层提供标签。

它不产生任何输出。它所做的就是开始反向传播的时候计算损失函数的值，并report，

并依据ip2层初始化梯度。

额外的提示：写神经网络层的规则。

神经网络层的定义如下：

layer {

// ...layer definition

include: { phase: TRAIN }

}

这是一个规则，基于当前的网络状态，控制层包含在网络里面。关于层规则和模型原理的更多规则，

你可以参考：$CAFFE_ROOT/src/caffe/proto/caffe.proto

在上面的例子，这层只包括TRAIN phase。如果我们把TRAIN换成TEST，那么这层会只包括test phase。

默认情况下，没有层规则，一层总是被包含在网络里面。因此，lenet_train_test.prototxt有两层数据层定义

(with different batch_size), 一层是用来训练，另一层是测试期间使用。同样，在TEST phase 包含精度层

(Accuracy layer)，用来每100次迭代汇报一次精度，在lenet_solver.prototxt定义。

四. 定义MNIST Solver

仔细检查每prototxt每一行的解释：$CAFFE_ROOT/examples/mnist/lenet_solver.prototxt:

# The train/test net protocol buffer definition

net: "examples/mnist/lenet_train_test.prototxt"

# test_iter specifies how many forward passes the test should carry out.

# In the case of MNIST, we have test batch size 100 and 100 test iterations,

# covering the full 10,000 testing images.

test_iter: 100

# Carry out testing every 500 training iterations.

test_interval: 500

# The base learning rate, momentum and the weight decay of the network.

base_lr: 0.01

momentum: 0.9

weight_decay: 0.0005

# The learning rate policy

lr_policy: "inv"

gamma: 0.0001

power: 0.75

# Display every 100 iterations

display: 100

# The maximum number of iterations

max_iter: 10000

# snapshot intermediate results

snapshot: 5000

snapshot_prefix: "examples/mnist/lenet"

# solver mode: CPU or GPU

solver_mode: GPU

五. 训练和测试模型
你写了网络定义protobuf和solver protobuf 文件之后，训练和测试是非常简单的。
简单的执行train_lenet.sh, 或者执行以下命令：

cd $CAFFE_ROOT

./examples/mnist/train_lenet.sh

train_lenet.sh是一个简单的脚本，但是这里有一个简单的解释：主要训练工具是caffe.

当你运行代码的时候，你会看到很多如下的信息：

I1203 net.cpp:66] Creating Layer conv1

I1203 net.cpp:76] conv1 <- data

I1203 net.cpp:101] conv1 -> conv1

I1203 net.cpp:116] Top shape: 20 24 24

I1203 net.cpp:127] conv1 needs backward computation.

这些信息告诉你每一层的细节，它的连接和它的输出模型。这些信息也许有助于你调试。
初始化之后，将会开始训练：

I1203 net.cpp:142] Network initialization done.

I1203 solver.cpp:36] Solver scaffolding done.

I1203 solver.cpp:44] Solving LeNet

基于solver的设置，每100次迭代我们将会打印训练损失函数;每500次迭代将会测试一次网络。
你会看到如下信息：

I1203 solver.cpp:204] Iteration 100, lr = 0.00992565

I1203 solver.cpp:66] Iteration 100, loss = 0.26044

...

I1203 solver.cpp:84] Testing net

I1203 solver.cpp:111] Test score #0: 0.9785

I1203 solver.cpp:111] Test score #1: 0.0606671

对于每一次训练迭代，lr是迭代的训练速率，loss是训练函数。对于测试期间的输出，
score 0 是精度， score 1是测试的损失。

几分钟之后就完成了。

I1203 solver.cpp:84] Testing net

I1203 solver.cpp:111] Test score #0: 0.9897

I1203 solver.cpp:111] Test score #1: 0.0324599

I1203 solver.cpp:126] Snapshotting to lenet_iter_10000

I1203 solver.cpp:133] Snapshotting solver state to lenet_iter_10000.solverstate

I1203 solver.cpp:78] Optimization Done.

最后的模型，会以二进制protobuf文件储存。储存在lenet_iter_1000

如果你用实际情况的数据训练，你可以部署你训练的模型在你的应用中。

原文网址：http://caffe.berkeleyvision.org/gathered/examples/mnist.html

基于LeNet的手写汉字识别(caffe)的更多相关文章

<脱机手写汉字识别若干关键技术研究>
脱机手写汉字识别若干关键技术研究对于大字符集识别问题,一般采用模板匹配的算法,主要是因为该算法比较简单,识别速度快.但直接的模板匹配算法往往无法满足实际应用中对识别精度的需求.为此任俊玲编著的< ...
基于LeNet网络的中文验证码识别
基于LeNet网络的中文验证码识别由于公司需要进行了中文验证码的图片识别开发,最近一段时间刚忙完上线,好不容易闲下来就继上篇<基于Windows10 x64+visual Studio2013 ...
【Caffe 测试】Training LeNet on MNIST with Caffe
Training LeNet on MNIST with Caffe We will assume that you have Caffe successfully compiled. If not, ...
基于Python使用SVM识别简单的字符验证码的完整代码开源分享
关键字:Python,SVM,字符验证码,机器学习,验证码识别 1 概述基于Python使用SVM识别简单的验证字符串的完整代码开源分享. 因为目前有了更厉害的新技术来解决这类问题了,但是本文作 ...
基于FPGA的肤色识别算法实现
大家好,给大家介绍一下,这是基于FPGA的肤色识别算法实现. 我们今天这篇文章有两个内容一是实现基于FPGA的彩色图片转灰度实现,然后在这个基础上实现基于FPGA的肤色检测算法实现. 将彩色图像转化为 ...
基于MATLAB的人脸识别算法的研究
基于MATLAB的人脸识别算法的研究作者:lee神现如今机器视觉越来越盛行,从智能交通系统的车辆识别,车牌识别到交通标牌的识别:从智能手机的人脸识别的性别识别:如今无人驾驶汽车更是应用了大量的机器 ...
基于FPGA的数字识别的实现
欢迎大家关注我的微信公众号:FPGA开源工作室基于FPGA的数字识别的实现二作者:lee神 1 背景知识 1.1基于FPGA的数字识别的方法通常,针对印刷体数字识别使用的算法有:基于模版 ...
【文智背后的奥秘】系列篇——基于CRF的人名识别
版权声明:本文由文智原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/133 来源:腾云阁 https://www.qclou ...
基于 OpenCV 的人脸识别
基于 OpenCV 的人脸识别一点背景知识 OpenCV 是一个开源的计算机视觉和机器学习库.它包含成千上万优化过的算法,为各种计算机视觉应用提供了一个通用工具包.根据这个项目的关于页面,OpenC ...

随机推荐

Appium+python自动化（三十四）- 有图有真相，很美很精彩 - 屏幕截图和Android APP类型简介（超详解）
简介在实际自动化项目运行过程中,很多时候App可以会出现各种异常,为了更好的定位问题,除了捕捉日志我们还需要对运行时的设备状态来进行截屏.从而达到一种“有图有真相”的效果. 截图方法方法1 sav ...
Unity经典案例之：Fire Balls 多个圆环以及圆环的变速变向
版权申明: 本文原创首发于以下网站: 博客园『优梦创客』的空间:https://www.cnblogs.com/raymondking123 优梦创客的官方博客:https://91make.top ...
c排序
#pragma once//如果写头文件放置头文件重复包含 #include<stdio.h> //定义类型结构体类型定义 //宏定义 #define //函数申明 void prin ...
python 24 封装、多态
目录 1. 封装.多态 2. 鸭子类型--Duck typing 3. 类的约束 5. super深度剖析 1. 封装.多态封装:将代码.数据放入一个容器空间中,并且可以使用. 多态:一个事物可以呈 ...
JDBC之批量处理
JDBC之批量处理一.批量处理JDBC语句提高处理速度当需要成批插入或者更新记录时.可以采用Java的批量更新机制,这一机制允许多条语句一次性提交给数据库批量处理.通常情况下比单独提交处理更有效率 ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
javascript语言精粹数组篇之Array的方法注意事项
本文并没有详细列出Array方法详解,本文侧重点在于使用Array编程时候要注意的问题.1.Array.concat var o = {name:"Gavin"}; var a1 ...
微信小程序室内地图导航开发-微信小程序JS加载esmap地图
一.在微信小程序里显示室内三维地图需要满足的两个条件调用ESMap室内地图需要用到小程序web-view组件,想要通过 web-view 调用ESMap室内地图需要满足以下 2 个条件: 1. 小 ...
日志RedisTemplate 存储
import org.springframework.beans.factory.annotation.Autowired;import org.springframework.data.redis. ...
NLP（十六） DL在NLP中的应用
深度学习中的核心主题是卷积神经网络(CNN)和循环神经网络(RNN) 卷积神经网络 CNN用于图像处理卷积: 原始图像 5×5 滤波器 3×3 滤波器以步长大于小于1,到处平移,并与原始图像里的3× ...

基于LeNet的手写汉字识别(caffe)

基于LeNet的手写汉字识别(caffe)的更多相关文章

随机推荐

热门专题