机器学习实战之K-Means算法

test10.py

#-*- coding：utf-8

import sys

sys.path.append("kMeans.py")

import kMeans

from numpy import *

# datMat = mat(kMeans.loadDataSet('testSet.txt'))

# mindata = min(datMat[:, 0])

# print(mindata)

#

#

# ranCentK = kMeans.randCent(datMat, 2)

# print(ranCentK)

#

# dis = kMeans.distEclud(datMat[0], datMat[1])

# print(dis)

# datMat3 = mat(kMeans.loadDataSet('testSet2.txt'))

# centList, myNewAssments = kMeans.biKmeans(datMat3, 3)

# print(centList)

geoResults = kMeans.geoGrab('1 VA Center', 'Augusta, ME')

print(geoResults)

res = geoResults['ResultSet']['Error']

print(res)

print('over!!!')

kMeans.py

'''

Created on Feb 16, 2011

k Means Clustering for Ch10 of Machine Learning in Action

@author: Peter Harrington

'''

from numpy import *

def loadDataSet(fileName):      #general function to parse tab -delimited floats

    dataMat = []                #assume last column is target value

    fr = open(fileName)

    for line in fr.readlines():

        curLine = line.strip().split('\t')

        fltLine = list(map(float,curLine)) #map all elements to float()

        dataMat.append(fltLine)

    return dataMat

def distEclud(vecA, vecB):

    return sqrt(sum(power(vecA - vecB, 2))) #la.norm(vecA-vecB)

def randCent(dataSet, k):

    n = shape(dataSet)[1]

    centroids = mat(zeros((k,n)))#create centroid mat

    for j in range(n):#create random cluster centers, within bounds of each dimension

        minJ = min(dataSet[:,j])

        rangeJ = float(max(dataSet[:,j]) - minJ)

        centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1))

    return centroids

def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):

    m = shape(dataSet)[0]

    clusterAssment = mat(zeros((m,2)))#create mat to assign data points

                                      #to a centroid, also holds SE of each point

    centroids = createCent(dataSet, k)

    clusterChanged = True

    while clusterChanged:

        clusterChanged = False

        for i in range(m):#for each data point assign it to the closest centroid

            minDist = inf; minIndex = -1

            for j in range(k):

                distJI = distMeas(centroids[j,:],dataSet[i,:])

                if distJI < minDist:

                    minDist = distJI; minIndex = j

            if clusterAssment[i,0] != minIndex: clusterChanged = True

            clusterAssment[i,:] = minIndex,minDist**2

        print(centroids)

        for cent in range(k):#recalculate centroids

            ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]#get all the point in this cluster

            centroids[cent,:] = mean(ptsInClust, axis=0) #assign centroid to mean

    return centroids, clusterAssment

def biKmeans(dataSet, k, distMeas=distEclud):

    m = shape(dataSet)[0]

    clusterAssment = mat(zeros((m,2)))

    centroid0 = mean(dataSet, axis=0).tolist()[0]

    centList =[centroid0] #create a list with one centroid

    for j in range(m):#calc initial Error

        clusterAssment[j,1] = distMeas(mat(centroid0), dataSet[j,:])**2

    while (len(centList) < k):

        lowestSSE = inf

        for i in range(len(centList)):

            ptsInCurrCluster = dataSet[nonzero(clusterAssment[:,0].A==i)[0],:]#get the data points currently in cluster i

            centroidMat, splitClustAss = kMeans(ptsInCurrCluster, 2, distMeas)

            sseSplit = sum(splitClustAss[:,1])#compare the SSE to the currrent minimum

            sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:,0].A!=i)[0],1])

            print("sseSplit, and notSplit: ",sseSplit,sseNotSplit)

            if (sseSplit + sseNotSplit) < lowestSSE:

                bestCentToSplit = i

                bestNewCents = centroidMat

                bestClustAss = splitClustAss.copy()

                lowestSSE = sseSplit + sseNotSplit

        bestClustAss[nonzero(bestClustAss[:,0].A == 1)[0],0] = len(centList) #change 1 to 3,4, or whatever

        bestClustAss[nonzero(bestClustAss[:,0].A == 0)[0],0] = bestCentToSplit

        print('the bestCentToSplit is: ',bestCentToSplit)

        print('the len of bestClustAss is: ', len(bestClustAss))

        centList[bestCentToSplit] = bestNewCents[0,:].tolist()[0]#replace a centroid with two best centroids

        centList.append(bestNewCents[1,:].tolist()[0])

        clusterAssment[nonzero(clusterAssment[:,0].A == bestCentToSplit)[0],:]= bestClustAss#reassign new clusters, and SSE

    return mat(centList), clusterAssment

import urllib

import json

def geoGrab(stAddress, city):

    apiStem = 'http://where.yahooapis.com/geocode?'  #create a dict and constants for the goecoder

    params = {}

    params['flags'] = 'J'#JSON return type

    params['appid'] = 'aaa0VN6k'

    params['location'] = '%s %s' % (stAddress, city)

    url_params = urllib.parse.urlencode(params)

    yahooApi = apiStem + url_params      #print url_params

    print(yahooApi)

    c = urllib.request.urlopen(yahooApi)

    return json.loads(c.read())

from time import sleep

def massPlaceFind(fileName):

    fw = open('places.txt', 'w')

    for line in open(fileName).readlines():

        line = line.strip()

        lineArr = line.split('\t')

        retDict = geoGrab(lineArr[1], lineArr[2])

        if retDict['ResultSet']['Error'] == 0:

            lat = float(retDict['ResultSet']['Results'][0]['latitude'])

            lng = float(retDict['ResultSet']['Results'][0]['longitude'])

            print("%s\t%f\t%f" % (lineArr[0], lat, lng))

            fw.write('%s\t%f\t%f\n' % (line, lat, lng))

        else: print("error fetching")

        sleep(1)

    fw.close()

def distSLC(vecA, vecB):#Spherical Law of Cosines

    a = sin(vecA[0,1]*pi/180) * sin(vecB[0,1]*pi/180)

    b = cos(vecA[0,1]*pi/180) * cos(vecB[0,1]*pi/180) * cos(pi * (vecB[0,0]-vecA[0,0]) /180)

    return arccos(a + b)*6371.0 #pi is imported with numpy

import matplotlib

import matplotlib.pyplot as plt

def clusterClubs(numClust=5):

    datList = []

    for line in open('places.txt').readlines():

        lineArr = line.split('\t')

        datList.append([float(lineArr[4]), float(lineArr[3])])

    datMat = mat(datList)

    myCentroids, clustAssing = biKmeans(datMat, numClust, distMeas=distSLC)

    fig = plt.figure()

    rect=[0.1,0.1,0.8,0.8]

    scatterMarkers=['s', 'o', '^', '', 'p', 'd', 'v', 'h', '>', '<']

    axprops = dict(xticks=[], yticks=[])

    ax0=fig.add_axes(rect, label='ax0', **axprops)

    imgP = plt.imread('Portland.png')

    ax0.imshow(imgP)

    ax1=fig.add_axes(rect, label='ax1', frameon=False)

    for i in range(numClust):

        ptsInCurrCluster = datMat[nonzero(clustAssing[:,0].A==i)[0],:]

        markerStyle = scatterMarkers[i % len(scatterMarkers)]

        ax1.scatter(ptsInCurrCluster[:,0].flatten().A[0], ptsInCurrCluster[:,1].flatten().A[0], marker=markerStyle, s=90)

    ax1.scatter(myCentroids[:,0].flatten().A[0], myCentroids[:,1].flatten().A[0], marker='+', s=300)

    plt.show()

机器学习10—K-均值聚类学习笔记的更多相关文章

机器学习实战---K均值聚类算法
一:一般K均值聚类算法实现 (一)导入数据 import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename): ...
机器学习之K均值聚类
聚类的核心概念是相似度或距离,有很多相似度或距离的方法,比如欧式距离.马氏距离.相关系数.余弦定理.层次聚类和K均值聚类等 1. K均值聚类思想 K均值聚类的基本思想是,通过迭代的方法寻找K个 ...
100天搞定机器学习|day44 k均值聚类数学推导与python实现
[如何正确使用「K均值聚类」? 1.k均值聚类模型给定样本,每个样本都是m为特征向量,模型目标是将n个样本分到k个不停的类或簇中,每个样本到其所属类的中心的距离最小,每个样本只能属于一个类.用C表示 ...
机器学习2—K近邻算法学习笔记
Python3.6.3下修改代码中def classify0(inX,dataSet,labels,k)函数的classCount.iteritems()为classCount.items(),另外p ...
机器学习算法与Python实践之（六）二分k均值聚类
http://blog.csdn.net/zouxy09/article/details/17590137 机器学习算法与Python实践之(六)二分k均值聚类 zouxy09@qq.com http ...
机器学习之路：python k均值聚类 KMeans 手写数字
python3 学习使用api 使用了网上的数据集,我把他下载到了本地可以到我的git中下载数据集: https://github.com/linyi0604/MachineLearning 代码: ...
机器学习实战5：k-means聚类：二分k均值聚类+地理位置聚簇实例
k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一经典的k-均值聚类思路: 1 随机创建k个质心(k必须指定,二维的很容易确定 ...
探索sklearn | K均值聚类
1 K均值聚类 K均值聚类是一种非监督机器学习算法,只需要输入样本的特征 ,而无需标记. K均值聚类首先需要随机初始化K个聚类中心,然后遍历每一个样本,将样本归类到最近的一个聚类中,一个聚类中样本特征 ...
5-Spark高级数据分析-第五章基于K均值聚类的网络流量异常检测
据我们所知,有‘已知的已知’,有些事,我们知道我们知道:我们也知道,有 ‘已知的未知’,也就是说,有些事,我们现在知道我们不知道.但是,同样存在‘不知的不知’——有些事,我们不知道我们不知道. 上一章 ...

随机推荐

viewflipper的高度设置
由于ViewFlipper的一个子view是这个ImageView,ViewFilpper在切换时,高度总是为子View中高度最大的值作为其高度值. 后经搜索,发现需要设置android:measur ...
mac-command-line-doing
创建文件夹 mkdir myDirectory 新建文件 touch a.html 编辑文件 vim a.html 删除文件 rm a.html 删除整个文件夹 rm -rf myDirectory ...
luogu P3819 松江1843路
题目描述涞坊路是一条长L米的道路,道路上的坐标范围从0到L,路上有N座房子,第i座房子建在坐标为x[i]的地方,其中住了r[i]人. 松江1843路公交车要在这条路上建一个公交站,市政府希望让最多的 ...
[BZOJ3920]Yuuna的礼物
题目大意: 给你一个长度为$n(n\le40000)$的数列$\{a_i\}(1\le a_i\le n)$,给出$m(m\le40000)$次询问,每次给出$l,r,k_1,k_2$询问区间$[l, ...
JsonConfig处理日期时间
写在前面: 页面发送ajax请求到后台,后台返回对应的json格式数据给前台页面进行数据展示,如果json数据中含有日期时间,就需要对日期进行处理下面是相关的代码部分 JsonConfig json ...
Android入门之文件系统操作
Android入门之文件系统操作(二)文件操作相关指令 (转) (一)获取总根 File[] fileList=File.listRoots(); //返回fileList.length为1 // ...
linux内存查看方法
cat /proc/meminfo 查看RAM使用情况,最简单的方法是通过/proc/meminfo.这个动态更新的虚拟文件实际上是许多其他内存相关工具(如:free / ps / top)等的组合显 ...
linux下小试redis demo
先启动 redis-server /etc/redis/redis.conf package com.test; import java.util.ArrayList; import java.ut ...
利用【深度网络】高效提取feature
extracting features from a learned model, and add some new features yourself.
Makefile之文件搜索
Makefile之文件搜索 1.Makefile 文件中的"VPATH"变量如果没有指明这个变量,make只会在当前目录下查找依赖文件和目标文件: 如果定义了这个变量,make会 ...

机器学习10—K-均值聚类学习笔记

机器学习实战之K-Means算法

机器学习10—K-均值聚类学习笔记的更多相关文章

随机推荐

热门专题