卷积神经网络提取特征并用于SVM
目标是对UCI的手写数字数据集进行识别,样本数量大约是1600个。图片大小为16x16。要求必须使用SVM作为二分类的分类器。
本文重点是如何使用卷积神经网络(CNN)来提取手写数字图片特征,主要想看如何提取特征的请直接看源代码部分的94行左右,只要对tensorflow有一点了解就可以看懂。在最后会有完整的源代码、处理后数据的分享链接。转载请保留原文链接,谢谢。
UCI手写数字的数据集
源数据下载:http://oddmqitza.bkt.clouddn.com/archivetempsemeion.data
其中前256维为16x16的图片,后10维为one hot编码的标签。即0010000000代表2,1000000000代表0.
组合成图片大约是这样的:
卷积和池化形象理解
卷积
池化
仔细的看,慢慢想就能明白CNN提取特征的思想巧妙之处。
能明白这两点,剩下的东西就和普通的神经网络区别不大了。
为什么要用CNN提取特征?
1.由于卷积和池化计算的性质,使得图像中的平移部分对于最后的特征向量是没有影响的。从这一角度说,提取到的特征更不容易过拟合。而且由于平移不变性,所以平移字符进行变造是无意义的,省去了再对样本进行变造的过程。
2.CNN抽取出的特征要比简单的投影、方向,重心都要更科学。不会让特征提取成为最后提高准确率的瓶颈、天花板
3.可以利用不同的卷积、池化和最后输出的特征向量的大小控制整体模型的拟合能力。在过拟合时可以降低特征向量的维数,在欠拟合时可以提高卷积层的输出维数。相比于其他特征提取方法更加灵活
算法流程
整理训练网络的数据 -> 建立卷积神经网络 -> 将数据代入进行训练 -> 保存训练好的模型 -> 把数据代入模型获得特征向量 -> 用特征向量代替原本的X送入SVM训练 -> 测试时同样将X转换为特征向量之后用SVM预测,获得结果。
CNN结构和参数
如图所示:
第一个卷积核大小为5x5
第一个池化层是2x2最大池化,输出32维
第二个卷积核大小为5x5
第二个池化层是2x2最大池化,输出64维
全连接层输出256维特征向量。
输出层最终采用softmax函数,以交叉熵作为优化目标。
SVM的参数
SVM采用的是RBF核
C取0.9
Tol取1e-3
Gamma为scikit-learn自动设置
其实在实验中发现,如果特征提取的不够好,那么怎么调SVM的参数也达不到一个理想的状态。而特征提取的正确,那么同样,SVM的参数影响也不是很大,可能调了几次最后仅仅改变一两个样本的预测结果。
样本处理过程
1.将原样本随机地分为两半。一份为训练集,一份为测试集
2.重复1过程十次,得到十个训练集和十个对应的测试集
操作过程
1.取十份训练集中的一份和其对应的测试集。代入到CNN和SVM中训练。计算模型在剩下9个测试集中的表现。
2.依次取训练集和测试集,则可完成十次第一步。
3.将十次的表现综合评价
源代码及注释
# coding=utf8
import random
import numpy as np
import tensorflow as tf
from sklearn import svm
right0 = 0.0 # 记录预测为1且实际为1的结果数
error0 = 0 # 记录预测为1但实际为0的结果数
right1 = 0.0 # 记录预测为0且实际为0的结果数
error1 = 0 # 记录预测为0但实际为1的结果数
for file_num in range(10):
# 在十个随机生成的不相干数据集上进行测试,将结果综合
print 'testing NO.%d dataset.......' % file_num
ff = open('digit_train_' + file_num.__str__() + '.data')
rr = ff.readlines()
x_test2 = []
y_test2 = []
for i in range(len(rr)):
x_test2.append(map(int, map(float, rr[i].split(' ')[:256])))
y_test2.append(map(int, rr[i].split(' ')[256:266]))
ff.close()
# 以上是读出训练数据
ff2 = open('digit_test_' + file_num.__str__() + '.data')
rr2 = ff2.readlines()
x_test3 = []
y_test3 = []
for i in range(len(rr2)):
x_test3.append(map(int, map(float, rr2[i].split(' ')[:256])))
y_test3.append(map(int, rr2[i].split(' ')[256:266]))
ff2.close()
# 以上是读出测试数据
sess = tf.InteractiveSession()
# 建立一个tensorflow的会话
# 初始化权值向量
def weight_variable(shape):
initial = tf.truncated_normal(shape, stddev=0.1)
return tf.Variable(initial)
# 初始化偏置向量
def bias_variable(shape):
initial = tf.constant(0.1, shape=shape)
return tf.Variable(initial)
# 二维卷积运算,步长为1,输出大小不变
def conv2d(x, W):
return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')
# 池化运算,将卷积特征缩小为1/2
def max_pool_2x2(x):
return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')
# 给x,y留出占位符,以便未来填充数据
x = tf.placeholder("float", [None, 256])
y_ = tf.placeholder("float", [None, 10])
# 设置输入层的W和b
W = tf.Variable(tf.zeros([256, 10]))
b = tf.Variable(tf.zeros([10]))
# 计算输出,采用的函数是softmax(输入的时候是one hot编码)
y = tf.nn.softmax(tf.matmul(x, W) + b)
# 第一个卷积层,5x5的卷积核,输出向量是32维
w_conv1 = weight_variable([5, 5, 1, 32])
b_conv1 = bias_variable([32])
x_image = tf.reshape(x, [-1, 16, 16, 1])
# 图片大小是16*16,,-1代表其他维数自适应
h_conv1 = tf.nn.relu(conv2d(x_image, w_conv1) + b_conv1)
h_pool1 = max_pool_2x2(h_conv1)
# 采用的最大池化,因为都是1和0,平均池化没有什么意义
# 第二层卷积层,输入向量是32维,输出64维,还是5x5的卷积核
w_conv2 = weight_variable([5, 5, 32, 64])
b_conv2 = bias_variable([64])
h_conv2 = tf.nn.relu(conv2d(h_pool1, w_conv2) + b_conv2)
h_pool2 = max_pool_2x2(h_conv2)
# 全连接层的w和b
w_fc1 = weight_variable([4 * 4 * 64, 256])
b_fc1 = bias_variable([256])
# 此时输出的维数是256维
h_pool2_flat = tf.reshape(h_pool2, [-1, 4 * 4 * 64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, w_fc1) + b_fc1)
# h_fc1是提取出的256维特征,很关键。后面就是用这个输入到SVM中
#比方说,我训练完数据了,那么想要提取出来全连接层的h_fc1,
#那么使用的语句是sess.run(h_fc1, feed_dict={x: input_x}),返回的结果就是特征向量
# 设置dropout,否则很容易过拟合
keep_prob = tf.placeholder("float")
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)
# 输出层,在本实验中只利用它的输出反向训练CNN,至于其具体数值我不关心
w_fc2 = weight_variable([256, 10])
b_fc2 = bias_variable([10])
y_conv = tf.nn.softmax(tf.matmul(h_fc1_drop, w_fc2) + b_fc2)
cross_entropy = -tf.reduce_sum(y_ * tf.log(y_conv))
# 设置误差代价以交叉熵的形式
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
# 用adma的优化算法优化目标函数
correct_prediction = tf.equal(tf.argmax(y_conv, 1), tf.argmax(y_, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
sess.run(tf.initialize_all_variables())
for i in range(3000):
# 跑3000轮迭代,每次随机从训练样本中抽出50个进行训练
batch = ([], [])
p = random.sample(range(795), 50)
for k in p:
batch[0].append(x_test2[k])
batch[1].append(y_test2[k])
if i % 100 == 0:
train_accuracy = accuracy.eval(feed_dict={x: batch[0], y_: batch[1], keep_prob: 1.0})
# print "step %d, train accuracy %g" % (i, train_accuracy)
train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.6})
# 设置dropout的参数为0.6,测试得到,大点收敛的慢,小点出现过拟合
print "test accuracy %g" % accuracy.eval(feed_dict={x: x_test3, y_: y_test3, keep_prob: 1.0})
for h in range(len(y_test2)):
if np.argmax(y_test2[h]) == 7:
y_test2[h] = 1
else:
y_test2[h] = 0
for h in range(len(y_test3)):
if np.argmax(y_test3[h]) == 7:
y_test3[h] = 1
else:
y_test3[h] = 0
# 以上两步都是为了将源数据的one hot编码改为1和0,我的学号尾数为7
x_temp = []
for g in x_test2:
x_temp.append(sess.run(h_fc1, feed_dict={x: np.array(g).reshape((1, 256))})[0])
# 将原来的x带入训练好的CNN中计算出来全连接层的特征向量,将结果作为SVM中的特征向量
x_temp2 = []
for g in x_test3:
x_temp2.append(sess.run(h_fc1, feed_dict={x: np.array(g).reshape((1, 256))})[0])
clf = svm.SVC(C=0.9, kernel='rbf')
clf.fit(x_temp, y_test2)
# SVM选择了rbf核,C选择了0.9
for j in range(len(x_temp2)):
# 验证时出现四种情况分别对应四个变量存储
if clf.predict(x_temp2[j])[0] == y_test3[j] == 1:
right0 += 1
elif clf.predict(x_temp2[j])[0] == y_test3[j] == 0:
right1 += 1
elif clf.predict(x_temp2[j])[0] == 1 and y_test3[j] == 0:
error0 += 1
else:
error1 += 1
accuracy = right0 / (right0 + error0) # 准确率
recall = right0 / (right0 + error1) # 召回率
print 'svm right ratio ', (right0 + right1) / (right0 + right1 + error0 + error1) #分类的正确率
print 'accuracy ', accuracy
print 'recall ', recall
print 'F1 score ', 2 * accuracy * recall / (accuracy + recall) # F1值
最后结果为:
分类的正确率达到了99.1%,准确率98.77%,召回率为92.67%,F1值为0.9562
由于我们是十次验证取平均值,所以模型的泛化能力和准确度都还是比较令人满意的。
全部源代码和使用到的数据(按照前文规则生成的训练集和测试集)下载链接:https://chuxiuhong-1300368171.cos.ap-shanghai.myqcloud.com/CNN-SVM.rar
卷积神经网络提取特征并用于SVM的更多相关文章
- 学习笔记TF027:卷积神经网络
卷积神经网络(Convolutional Neural Network,CNN),可以解决图像识别.时间序列信息问题.深度学习之前,借助SIFT.HoG等算法提取特征,集合SVM等机器学习算法识别图像 ...
- Python机器学习笔记:卷积神经网络最终笔记
这已经是我的第四篇博客学习卷积神经网络了.之前的文章分别是: 1,Keras深度学习之卷积神经网络(CNN),这是开始学习Keras,了解到CNN,其实不懂的还是有点多,当然第一次笔记主要是给自己心中 ...
- 使用 Estimator 构建卷积神经网络
来源于:https://tensorflow.google.cn/tutorials/estimators/cnn 强烈建议前往学习 tf.layers 模块提供一个可用于轻松构建神经网络的高级 AP ...
- 卷积神经网络(CNN)基础介绍
本文是对卷积神经网络的基础进行介绍,主要内容包含卷积神经网络概念.卷积神经网络结构.卷积神经网络求解.卷积神经网络LeNet-5结构分析.卷积神经网络注意事项. 一.卷积神经网络概念 上世纪60年代. ...
- 卷积神经网络概念及使用 PyTorch 简单实现
卷积神经网络 卷积神经网络(CNN)是深度学习的代表算法之一 .具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络”.随着深度学习理论的提出和数值计算设备 ...
- 动手学习Pytorch(6)--卷积神经网络基础
卷积神经网络基础 本节我们介绍卷积神经网络的基础概念,主要是卷积层和池化层,并解释填充.步幅.输入通道和输出通道的含义. 二维卷积层 本节介绍的是最常见的二维卷积层,常用于处理图像数据. 二维 ...
- PyTorch基础——使用卷积神经网络识别手写数字
一.介绍 实验内容 内容包括用 PyTorch 来实现一个卷积神经网络,从而实现手写数字识别任务. 除此之外,还对卷积神经网络的卷积核.特征图等进行了分析,引出了过滤器的概念,并简单示了卷积神经网络的 ...
- 了解1D和3D卷积神经网络 | Keras
当我们说卷积神经网络(CNN)时,通常是指用于图像分类的2维CNN.但是,现实世界中还使用了其他两种类型的卷积神经网络,即1维CNN和3维CNN.在本指南中,我们将介绍1D和3D CNN及其在现实世界 ...
- L15卷积神经网络基础
卷积神经网络基础 本节我们介绍卷积神经网络的基础概念,主要是卷积层和池化层,并解释填充.步幅.输入通道和输出通道的含义. 二维卷积层 本节介绍的是最常见的二维卷积层,常用于处理图像数据. 二维互相关运 ...
随机推荐
- div实现自适应高度的textarea,实现angular双向绑定
相信不少同学模拟过腾讯的QQ做一个聊天应用,至少我是其中一个. 过程中我遇到的一个问题就是QQ输入框,自适应高度,最高高度为3row. 如果你也像我一样打算使用textarea,那么很抱歉,你一开始就 ...
- 算法与数据结构(十六) 快速排序(Swift 3.0版)
上篇博客我们主要聊了比较高效的归并排序算法,本篇博客我们就来介绍另一种高效的排序算法:快速排序.快速排序的思想与归并排序类似,都是采用分而治之的方式进行排序的.快速排序的思想主要是取出无序序列中第一个 ...
- js闭包for循环总是只执行最后一个值得解决方法
<style> li{ list-style: none;width:40px;height: 40px;text-align:center;line-height: 40px;curso ...
- .net core和angular2之前端篇—1
2016-10-20更新 今天的这篇文章还是一篇"Hello World",只不过开发环境有所改变--Visual Studio Code+Angular2+Webapck,也算是 ...
- Kotlin类:功能更强、而更简洁(KAD 03)
作者:Antonio Leiva 时间:Dec 7, 2016 原文链接:http://antonioleiva.com/classes-kotlin/ Kotlin类尽可能简单,这样用较少的代码完成 ...
- MMORPG大型游戏设计与开发(攻击区域 扇形)
距离上次发布已经有了很长一段时间,期间由于各种原因没有更新这方面的技术分享,在这里深表遗憾.在MMO或其他的游戏中,会有针对各种形状的计算,通常在攻击区域里不会很复杂,常见的为矩形.圆形.扇形.今天分 ...
- 对一致性Hash算法,Java代码实现的深入研究
一致性Hash算法 关于一致性Hash算法,在我之前的博文中已经有多次提到了,MemCache超详细解读一文中"一致性Hash算法"部分,对于为什么要使用一致性Hash算法.一致性 ...
- .NET基础拾遗(3)字符串、集合和流
Index: (1)类型语法.内存管理和垃圾回收基础 (2)面向对象的实现和异常的处理 (3)字符串.集合与流 (4)委托.事件.反射与特性 (5)多线程开发基础 (6)ADO.NET与数据库开发基础 ...
- java中文乱码解决之道(九)-----总结
乱码,我们前台展示的杀手,可能有些朋友和我的经历一样:遇到乱码先按照自己的经验来解决,如果没有解决就google,运气好一搜就可以解决,运气不好可能够你折腾一番了.LZ之所以写这个系列博客就是因为遇到 ...
- JVM虚拟机结构
JVM的主要结构如下图所示,图片引用自舒の随想日记. 方法区和堆由所有线程共享,其他区域都是线程私有的 程序计数器(Program Counter Register) 类似于PC寄存器,是一块较小的内 ...