机器学习之路：python k均值聚类 KMeans 手写数字

python3 学习使用api

使用了网上的数据集，我把他下载到了本地

可以到我的git中下载数据集： https://github.com/linyi0604/MachineLearning

代码：

 import numpy as np

 import pandas as pd

 from sklearn.cluster import KMeans

 from sklearn import metrics

 '''

 k均值算法：

     1 随机选择k个样本作为k个类别的中心

     2 从k个样本出发，选取最近的样本归为和自己同一个分类，一直到所有样本都有分类

     3 对k个分类重新计算中心样本

     4 从k个新中心样本出发重复23，

         如果据类结果和上一次一样，则停止

         否则重复234

 '''

 '''

 该数据集源自网上 https://archive.ics.uci.edu/ml/machine-learning-databases/optdigits/

 我把他下载到了本地

 训练样本3823条， 测试样本1797条

 图像通过8*8像素矩阵表示共64个维度，1个目标维度表示数字类别

 '''

 # 1 准备数据

 digits_train = pd.read_csv("./data/optdigits/optdigits.tra", header=None)

 digits_test = pd.read_csv("./data/optdigits/optdigits.tes", header=None)

 # 从样本中抽取出64维度像素特征和1维度目标

 x_train = digits_train[np.arange(64)]

 y_train = digits_train[64]

 x_test = digits_test[np.arange(64)]

 y_test = digits_test[64]

 # 2 建立模型

 # 初始化kMeans聚类模型 聚类中心数量为10个

 kmeans = KMeans(n_clusters=10)

 # 聚类

 kmeans.fit(x_train)

 # 逐条判断每个测试图像所属的聚类中心你

 y_predict = kmeans.predict(x_test)

 # 3 模型评估

 # 使用ARI进行性能评估 当聚类有所属类别的时候利用ARI进行模型评估

 print("k均值聚类的ARI值：", metrics.adjusted_rand_score(y_test, y_predict))

 '''

 k均值聚类的ARI值： 0.6673881543921809

 '''

 # 如果没有聚类所属类别，利用轮廓系数进行评估

机器学习之路：python k均值聚类 KMeans 手写数字的更多相关文章

【转】算法杂货铺——k均值聚类(K-means)
k均值聚类(K-means) 4.1.摘要在前面的文章中,介绍了三种常见的分类算法.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是很多时 ...
第十篇：K均值聚类(KMeans)
前言本文讲解如何使用R语言进行 KMeans 均值聚类分析,并以一个关于人口出生率死亡率的实例演示具体分析步骤. 聚类分析总体流程 1. 载入并了解数据集:2. 调用聚类函数进行聚类:3. 查看聚类 ...
（ZT）算法杂货铺——k均值聚类(K-means)
https://www.cnblogs.com/leoo2sk/category/273456.html 4.1.摘要在前面的文章中,介绍了三种常见的分类算法.分类作为一种监督学习方法,要求必须事先 ...
[Python]基于CNN的MNIST手写数字识别
目录一.背景介绍 1.1 卷积神经网络 1.2 深度学习框架 1.3 MNIST 数据集二.方法和原理 2.1 部署网络模型 (1)权重初始化 (2)卷积和池化 (3)搭建卷积层1 (4)搭建卷积 ...
KNN (K近邻算法) - 识别手写数字
KNN项目实战——手写数字识别 1. 介绍 k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法.它的工作原理是:存在一个 ...
TensorFlow.NET机器学习入门【5】采用神经网络实现手写数字识别（MNIST）
从这篇文章开始,终于要干点正儿八经的工作了,前面都是准备工作.这次我们要解决机器学习的经典问题,MNIST手写数字识别. 首先介绍一下数据集.请首先解压:TF_Net\Asset\mnist_png. ...
吴裕雄 python 机器学习——K均值聚类KMeans模型
import numpy as np import matplotlib.pyplot as plt from sklearn import cluster from sklearn.metrics ...
机器学习之路: python k近邻分类器 KNeighborsClassifier 鸢尾花分类预测
使用python语言学习k近邻分类器的api 欢迎来到我的git查看源代码: https://github.com/linyi0604/MachineLearning from sklearn.da ...
吴裕雄 python 神经网络——TensorFlow 卷积神经网络手写数字图片识别
import os import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data INPUT_N ...

随机推荐

python初步学习-练习题
1.实现1-100的所有的和 #!/usr/bin/env python #encoding:utf8 '''实现1-100的所有的和 1. 使用列表解析获取0-100的列表 2. 使用reduce内 ...
关于Java的“找不到或无法加载主类”
Java编程思想4th第六章的关于访问权限和包的笔记总结时遇到了一个关于package命名及导入的问题. 环境:Ubuntu 16.04.3 LTS x86_64 首先,我要安装部署Java的开发环境 ...
Halcon编程-基于形状特征的模板匹配
halcon软件最高效的一个方面在于模板匹配,号称可以快速进行柔性模板匹配,能够非常方便的用于缺陷检测.目标定位.下面以一个简单的例子说明基于形状特征的模板匹配. 为了在右图中,定位图中的三 ...
85.YCbCr与YUV的区别
yuv色彩模型来源于rgb模型,该模型的特点是将亮度和色度分离开,从而适合于图像处理领域. YCbCr模型来源于yuv模型,应用于数字视频,ITU-R BT.601 recommendation 通过 ...
linux通配符，grep和 egrep区别
其实主要是正则表达式中的一些特殊语法.在网上找的几篇文章,截取相关部分贴在了下面,方便以后翻阅. 参考:http://hi.baidu.com/sei_zhouyu/item/c18e1a950d2e ...
HDU 6057 Kanade's convolution
题目链接:HDU-6057 题意: 思路:先按照官方题解推导出下面的式子: 现在唯一的问题就是怎么解决[bit(x)-bit(y)=bit(k)]的问题. 我们定义\( F(A,k)_{i}=\lef ...
scala tuple中的syntactic sugar
List[Tuple2[String, Int]] // Base List[(String, Int)] // Syntactic sugar List[Tuple3[String, Float, ...
【前端开发】禁止微信内置浏览器调整字体大小的方法js
微信webview内置了调整字体大小的功能,用户可以根据实际情况进行调节.但是很多移动端页面的开发都是使用rem作为单位的,字体大小改变以后,会出现页面布局错乱的情况,因此希望能够禁止微信的字体放大功 ...
linux文件处理
取中间的行数作为train.txt sed -n '1000000,170910580p' train.txt > trainv1.txt 取前面的行数作为dev.txt head -10000 ...
MySQL学习笔记：like和regexp的区别
一.like关键字 like有两个模式:_和% _:表示单个字符,用来查询定长的数据 select name from table where name like '陈__'; %:表示0个或多个任意 ...

机器学习之路：python k均值聚类 KMeans 手写数字

机器学习之路：python k均值聚类 KMeans 手写数字的更多相关文章

随机推荐

热门专题