Google机器学习笔记（七）TF.Learn 手写文字识别

转载请注明作者：梦里风林

Google Machine Learning Recipes 7

官方中文博客 - 视频地址

Github工程地址 https://github.com/ahangchen/GoogleML

欢迎Star，也欢迎到Issue区讨论

mnist问题

计算机视觉领域的Hello world
给定55000个图片，处理成28*28的二维矩阵，矩阵中每个值表示一个像素点的灰度，作为feature
给定每张图片对应的字符，作为label，总共有10个label，是一个多分类问题

TensorFlow

可以按教程用Docker安装，也可以直接在Linux上安装
你可能会担心，不用Docker的话怎么开那个notebook呢？其实notebook就在主讲人的Github页上
可以用这个Chrome插件:npviewer直接在浏览器中阅读ipynb格式的文件，而不用在本地启动iPython notebook
我们的教程在这里：ep7.ipynb
把代码从ipython notebook中整理出来：tflearn_mnist.py

代码分析

下载数据集

mnist = learn.datasets.load_dataset('mnist')

恩，就是这么简单，一行代码下载解压mnist数据，每个img已经灰度化成长784的数组，每个label已经one-hot成长度10的数组

在我的深度学习笔记看One-hot是什么东西

numpy读取图像到内存，用于后续操作，包括训练集（只取前10000个）和验证集

data = mnist.train.images

labels = np.asarray(mnist.train.labels, dtype=np.int32)

test_data = mnist.test.images

test_labels = np.asarray(mnist.test.labels, dtype=np.int32)

max_examples = 10000

data = data[:max_examples]

labels = labels[:max_examples]

可视化图像

def display(i):

    img = test_data[i]

    plt.title('Example %d. Label: %d' % (i, test_labels[i]))

    plt.imshow(img.reshape((28, 28)), cmap=plt.cm.gray_r)

    plt.show()

用matplotlib展示灰度图

训练分类器
- 提取特征（这里每个图的特征就是784个像素值）

feature_columns = learn.infer_real_valued_columns_from_input(data)

创建线性分类器并训练

classifier = learn.LinearClassifier(feature_columns=feature_columns, n_classes=10)

classifier.fit(data, labels, batch_size=100, steps=1000)

注意要制定n_classes为labels的数量

分类器实际上是在根据每个feature判断每个label的可能性，
不同的feature有的重要，有的不重要，所以需要设置不同的权重
一开始权重都是随机的，在fit的过程中，实际上就是在调整权重

最后可能性最高的label就会作为预测输出
传入测试集，预测，评估分类效果

result = classifier.evaluate(test_data, test_labels)

print result["accuracy"]

速度非常快，而且准确率达到91.4%

可以只预测某张图，并查看预测是否跟实际图形一致

# here's one it gets right

print ("Predicted %d, Label: %d" % (classifier.predict(test_data[0]), test_labels[0]))

display(0)

# and one it gets wrong

print ("Predicted %d, Label: %d" % (classifier.predict(test_data[8]), test_labels[8]))

display(8)

可视化权重以了解分类器的工作原理

weights = classifier.weights_

a.imshow(weights.T[i].reshape(28, 28), cmap=plt.cm.seismic)

这里展示了8个张图中，每个像素点（也就是feature）的weights，
红色表示正的权重，蓝色表示负的权重
作用越大的像素，它的颜色越深，也就是权重越大
所以权重中红色部分几乎展示了正确的数字

Next steps

Google机器学习笔记（七）TF.Learn 手写文字识别的更多相关文章

Atitit s2018.2 s2 doc list on home ntpc.docx \Atiitt uke制度体系法律法规规章条例国王诏书.docx \Atiitt 手写文字识别讯飞科大语音云.docx \Atitit 代码托管与虚拟主机.docx \Atitit 企业文化每日心灵鸡汤值班发布.docx \Atitit 几大研发体系对比 Stage-Gat
Atitit s2018.2 s2 doc list on home ntpc.docx \Atiitt uke制度体系法律法规规章条例国王诏书.docx \Atiitt 手写文字识别 ...
机器学习（二）-kNN手写数字识别
一.kNN算法是机器学习的入门算法,其中不涉及训练,主要思想是计算待测点和参照点的距离,选取距离较近的参照点的类别作为待测点的的类别. 1,距离可以是欧式距离,夹角余弦距离等等. 2,k值不能选择太大 ...
SVM学习笔记（二）----手写数字识别
引言上一篇博客整理了一下SVM分类算法的基本理论问题,它分类的基本思想是利用最大间隔进行分类,处理非线性问题是通过核函数将特征向量映射到高维空间,从而变成线性可分的,但是运算却是在低维空间运行的.考 ...
5 TensorFlow入门笔记之RNN实现手写数字识别
------------------------------------ 写在开头:此文参照莫烦python教程(墙裂推荐!!!) ---------------------------------- ...
【机器学习】BP神经网络实现手写数字识别
最近用python写了一个实现手写数字识别的BP神经网络,BP的推导到处都是,但是一动手才知道,会理论推导跟实现它是两回事.关于BP神经网络的实现网上有一些代码,可惜或多或少都有各种问题,在下手写了一 ...
tensorflow创建cnn网络进行中文手写文字识别
数据集下载地址:http://www.nlpr.ia.ac.cn/databases/handwriting/download.html chinese_write_detection.py # -* ...
吴恩达机器学习笔记61-应用实例：图片文字识别(Application Example: Photo OCR)【完结】
最后一章内容,主要是OCR的实例,很多都是和经验或者实际应用有关:看完了,总之,善始善终,继续加油!! 一.图像识别(店名识别)的步骤: 图像文字识别应用所作的事是,从一张给定的图片中识别文字.这比从 ...
机器学习框架ML.NET学习笔记【4】多元分类之手写数字识别
一.问题与解决方案通过多元分类算法进行手写数字识别,手写数字的图片分辨率为8*8的灰度图片.已经预先进行过处理,读取了各像素点的灰度值,并进行了标记. 其中第0列是序号(不参与运算).1-64列是像 ...
机器学习框架ML.NET学习笔记【5】多元分类之手写数字识别（续）
一.概述上一篇文章我们利用ML.NET的多元分类算法实现了一个手写数字识别的例子,这个例子存在一个问题,就是输入的数据是预处理过的,很不直观,这次我们要直接通过图片来进行学习和判断.思路很简单,就是 ...

随机推荐

document.body.scrollTop vs document.documentElement.scrollTop
window.addEventListener("scroll", function () { if (document.body.scrollTop >= window.i ...
C#中使用SendMessage进行进程通信的实例
原文:C#中使用SendMessage进行进程通信的实例 1 新建解决方案SendMessageSecondExample 在解决方案下面新建两个项目:Sender和Receiver,两者的输出类型均 ...
Linux企业级项目实践之网络爬虫（25）——管理源代码之SVN
软件项目开发中,一般会用到源代码管理工具SVN.版本控制是管理数据变更的一种技术.对于程序员来说,它已经成为不可或缺的工具,因为他们经常修改软件代码,产生部分的变更,然后第二天再取消所有的变更.想象有 ...
Android Content Provider简介
Content Provider是Android的四大组件之一,与Activity和Service相同,使用之前需要注册: Android系统中存在大量的应用,当不同的应用程序之间需要共享数据时,可以 ...
JVM基础和调优(四)
垃圾回收算法中的一些问题再上一遍中,说道JVM并不是采用一种垃圾回收的方法,因为不同的内存块采取的方法是不样的,那么:为什么要分块?为什么不采用同一种方法回收垃圾,这样不是更加的统一吗? 分块的垃圾 ...
pyglet: a cross-platform windowing and multimedia
pyglet pyglet: a cross-platform windowing and multimedia library for Python.
hdu 5400 Arithmetic Sequence（模拟）
Problem Description A sequence b1,b2,⋯,bn are called (d1,d2)-arithmetic sequence ≤i≤n) such that ≤j& ...
leetcode：Minimum Path Sum（路线上元素和的最小值）【面试算法题】
题目: Given a m x n grid filled with non-negative numbers, find a path from top left to bottom right w ...
docker 1.12.3版本搭建私有仓库，上传镜像报错：server gave HTTP response to HTTPS client”
系统环境:centos7 docker版本: 1.12.3(注意版本,可能存在不同版本设置不同的情况) docker registry版本:2.4.1 问题: 成功安装docker registry, ...
image即时上传
function preview_upload(input, img_div_id){ var img_id = img_div_id.replace("itempic_previewDiv ...

Google机器学习笔记（七）TF.Learn 手写文字识别

mnist问题

TensorFlow

代码分析

Next steps

Google机器学习笔记（七）TF.Learn 手写文字识别的更多相关文章

随机推荐

热门专题