scikit-learn入门学习记录

一加载示例数据集

from sklearn import datasets

iris = datasets.load_iris()

digits = datasets.load_digits()

数据集是一个类似字典的对象，它保存有关数据的所有数据和一些元数据。该数据存储在.data成员中，它是一个数组

数字数据集存放在digits.data，数据如下，里面包含很多数字数据集的数据,一个列表即一个数字所有数据

[[  0.   0.   5. ...,   0.   0.   0.]

 [  0.   0.   0. ...,  10.   0.   0.]

 [  0.   0.   0. ...,  16.   9.   0.]

 ...,

 [  0.   0.   1. ...,   6.   0.   0.]

 [  0.   0.   2. ...,  12.   0.   0.]

 [  0.   0.  10. ...,  12.   1.   0.]]

digits.target给出数字数据集的真实数据，即我们正在尝试学习的每个数字图像对应的数字，数据如下

[0 1 2 ..., 8 9 8]

digits.image[0]，其实和digits.data[0]数据一样，只是转换成二维的矩阵，数据如下

[[  0.   0.   5.  13.   9.   1.   0.   0.]

 [  0.   0.  13.  15.  10.  15.   5.   0.]

 [  0.   3.  15.   2.   0.  11.   8.   0.]

 [  0.   4.  12.   0.   0.   8.   8.   0.]

 [  0.   5.   8.   0.   0.   9.   8.   0.]

 [  0.   4.  11.   0.   1.  12.   7.   0.]

 [  0.   2.  14.   5.  10.  12.   0.   0.]

 [  0.   0.   6.  13.  10.   0.   0.   0.]]

digits.data[0]和digits.image[0]对比

[  0.   0.   5.  13.   9.   1.   0.   0.   0.   0.  13.  15.  10.  15.   5.

   0.   0.   3.  15.   2.   0.  11.   8.   0.   0.   4.  12.   0.   0.   8.

   8.   0.   0.   5.   8.   0.   0.   9.   8.   0.   0.   4.  11.   0.   1.

  12.   7.   0.   0.   2.  14.   5.  10.  12.   0.   0.   0.   0.   6.  13.

  10.   0.   0.   0.]

[[  0.   0.   5.  13.   9.   1.   0.   0.]

 [  0.   0.  13.  15.  10.  15.   5.   0.]

 [  0.   3.  15.   2.   0.  11.   8.   0.]

 [  0.   4.  12.   0.   0.   8.   8.   0.]

 [  0.   5.   8.   0.   0.   9.   8.   0.]

 [  0.   4.  11.   0.   1.  12.   7.   0.]

 [  0.   2.  14.   5.  10.  12.   0.   0.]

 [  0.   0.   6.  13.  10.   0.   0.   0.]]

在数字数据集的情况下，任务是给出图像来预测其表示的数字。我们给出了10个可能类（数字从零到九）中的每一个的样本，我们在其上拟合一个估计器，以便能够预测看不见的样本所属的类。

在scikit-learn，分类的估计是实现方法的Python对象和。fit(X, y)predict(T)

估计器的一个例子是sklearn.svm.SVC实现支持向量分类的类。估计器的构造函数作为模型的参数作为参数，但目前我们将把估计器视为黑盒子

from sklearn import svm

clf = svm.SVC(gamma=0.001, C=100.)

在这个例子中，我们设置gamma手动的值。通过使用诸如网格搜索和交叉验证等工具，可以自动找到参数的良好值。

我们称之为我们的估计器实例clf，因为它是一个分类器。它现在必须适应模型，也就是说，它必须从模型中学习。这是通过将我们的训练集传递给该fit方法来完成的。作为一个训练集，让我们使用除最后一个数据集的所有图像。我们用[:-1]Python语法选择这个训练集，它产生一个包含除最后一个条目之外的所有数组的新数组digits.data

clf.fit(digits.data[:-1], digits.target[:-1])

现在，您可以预测新值，特别是可以向分类器询问digits数据集中最后一个图像的数字是什么，我们还没有用来对分类器进行训练：

print(clf.predict(digits.data[-1:]))

总结一下

其实就是创建一个svm类的实例

使用fit来将训练集传递给该实例，传入两个参数，数据以及真实值

最后使用predict来对数据进行预估

下面给个完整的实例

import matplotlib.pyplot as plt

from sklearn import datasets, svm, metrics

digits = datasets.load_digits()

images_and_labels = list(zip(digits.images, digits.target))

for index, (image, label) in enumerate(images_and_labels[:4]):

    plt.subplot(2, 4, index+1)

    plt.axis('off')

    plt.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')

    plt.title('Training: %s' %label)

n_samples = len(digits.images)

print('before:', digits.images)

data = digits.images.reshape((n_samples, -1))

classifier = svm.SVC(gamma=0.001)

classifier.fit(data[:n_samples//2], digits.target[:n_samples//2])

expected = digits.target[n_samples//2:]

predicted = classifier.predict(data[n_samples//2:])

print('Classification report for classifiler %s:\n%s\n' %(classifier, metrics.classification_report(expected, predicted)))

print('Confusion matrix:\n%s' %metrics.confusion_matrix(expected, predicted))

images_and_predictions = list(zip(digits.images[n_samples//2:], predicted))

for index, (image, prediction) in enumerate(images_and_predictions[:4]):

    plt.subplot(2,4, index+5)

    plt.axis('off')

    plt.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')

    plt.title('Prediction: %i' %prediction)

plt.show()

参考自http://cwiki.apachecn.org/pages/viewpage.action?pageId=10813673

找到一个不错的繁体中文文档，解释的比较详细

https://machine-learning-python.kspax.io/Classification/ex1_Recognizing_hand-written_digits.html

scikit-learn入门学习记录的更多相关文章

redis入门学习记录（二）
继第一节 redis入门学习记录(一)之后,我们来学习redis的基本使用. 接下来我们看看/usr/local/redis/bin目录下的几个文件作用是什么? redis-benchmark:red ...
gulp入门学习教程（入门学习记录）
前言最近在通过教学视频学习angularjs,其中有gulp的教学部分,对其的介绍为可以对文件进行合并,压缩,格式化,监听,测试,检查等操作时,看到前三种功能我的心理思想是,网上有很多在线压缩,在线 ...
SpringBoot入门学习记录（一）
最近,SpringBoot.SpringCloud.Dubbo等框架非常流行,作为Coder里的一名小学生,借着改革开放的东风,自然也是需要学习学习的,于是将学习经历记录于此,以备日后查看. 官网:h ...
Sentinel入门学习记录
最近公司里面在进行微服务开发,因为有使用到限流降级,所以去调研学习了一下Sentinel,在这里做一个记录. Sentinel官方文档:https://github.com/alibaba/Senti ...
Query意图分析：记一次完整的机器学习过程（scikit learn library学习笔记）
所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质. 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图.假设现在有一个O2O领域的 ...
[2017.02.07] Lua入门学习记录
#!/home/auss/Projects/Qt/annotated/lua -- 这是第一次系统学习Lua语言 --[[ 参考资料: 1. [Lua简明教程](http://coolshell.cn ...
mybatis入门学习记录（一）
过硬的技术本领,可以给我们保驾护航,飞得更高.今天开始呢.我们就一起来探讨使用mybatis的好处. 首先我们一起来先看看原生的JDBC对于数据库的操作,然后总结其中的利弊,为学习mybatis奠定基 ...
机器学习框架Scikit Learn的学习
一安装安装pip 代码如下:# wget "https://pypi.python.org/packages/source/p/pip/pip-1.5.4.tar.gz#md5=83 ...
Python3.5入门学习记录-File
在Python中,操作文件对象使用open函数来创建,下表列出了常用的操作file的函数: 序号方法及描述 1.file.close() 关闭文件.关闭后文件不能再进行读写操作. 2.file.fl ...

随机推荐

HUD-5379
Mahjong tree Time Limit: 6000/3000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Tota ...
Python 邮件发送消息
# 代码 #!/usr/bin/env python # -*- coding:utf-8 -*- # Author:supery import smtplib from email.mime.tex ...
邂逅Sass和Compass之Sass篇
对于一个从后台转到前端的web开发者来说,最大的麻烦就是写CSS,了解CSS的人都知道,它可以开发网页样式,但是没法用它编程,感觉耦合性相当的高,如果想要方便以后维护,只能逐句修改甚至重写相当一部分的 ...
vs2005 QT4.7.1编译详细
http://blog.csdn.net/debugconsole/article/details/8230683 网上一搜有QT+2005编译的很多文章,但是都不详细,很多都编不过,特别的在conf ...
python中,将字符串由utf8转gbk
uni_str = utf8_str.decode('utf-8'); gbk_str = uni_str.encode('gbk');
LOJ #6285. 数列分块入门 9-分块(查询区间的最小众数)
#6285. 数列分块入门 9 内存限制:256 MiB时间限制:1500 ms标准输入输出题目类型:传统评测方式:文本比较上传者: hzwer 提交提交记录统计测试数据讨论 2 题目描述给 ...
Java基础知识（二）
一.基本概念 1. Java程序初始化的顺序是怎么样的 2. Java和C++的区别 3. 反射先看一个知乎回答什么是反射主要用途获得Class对象 4. 注解什么是注解为什么要用注解基 ...
进入CentOS7紧急模式恢复root密码
第一步.重启CentOS7,在以下界面选择要编辑的内核(一般第一个),按e进入编辑界面第二步.在编辑界面找到如下一行,将ro改为rw init=/sysroot/bin/sh.改完后<Ctrl ...
noip 2016 day1 T1玩具谜题
题目描述小南有一套可爱的玩具小人, 它们各有不同的职业. 有一天, 这些玩具小人把小南的眼镜藏了起来. 小南发现玩具小人们围成了一个圈,它们有的面朝圈内,有的面朝圈外.如下图: 这时singer告诉 ...
2017 ACM-ICPC ECFINAL过山车体验
这次采用domjudge判题,算是比较好玩的啦.外榜地址:http://board.acmicpc.cn/ 然后我们很可惜地止步于192名QAQ,没看出C是个傻逼题,没读懂B..我得背锅,亏我还打了那 ...

scikit-learn入门学习记录

scikit-learn入门学习记录的更多相关文章

随机推荐

热门专题