转：Python K-means代码

#coding: UTF-8

import pearson_distance

from pearson_distance import pearson_distance

from math import sqrt

import random 

def print_matchs(matchs) :

    for i in range(len(matchs)) :

        print i , '---->',

        for item in matchs[i] :

            print item,

        print

    print '-'*20

def kmeans(blogwords, k) :

    min_max_per_word = [ [min([row[i] for row in blogwords]), max([row[i] for row in blogwords])]  for i in range(len(blogwords[0]))]

    # generate k clusters randomly

    clusters = []

    for i in range(k) :

        cluster = []

        for min_, max_ in min_max_per_word :

            cluster.append(random.random() * (max_ - min_) + min_)    #形成初始类中心 利用每列的最大最小值 一列代表一个数据的属性

        clusters.append(cluster)

    lables = []

    matchs = [ [] for i in range(k)]

    lastmatchs = [ [] for i in range(k)] 

    rounds = 100

    while rounds > 0 :

        matchs = [ [] for i in range(k)]

        print 'round \t',rounds

        for i in range(len(blogwords)) : #遍历所有的数据

            bestmatch_cluster = None

            min_distance = 100

            for j in range(k) :  #遍历每一个类标签

                dis = pearson_distance(clusters[j], blogwords[i]) #计算相似度距离

                if dis < min_distance :

                    min_distance = dis

                    bestmatch_cluster = j        #保存距离最近的类中心编号

            matchs[bestmatch_cluster].append(i)  #将数据行编号i 添加到matchs[[],[]...[]]（k个类）的每一个类中

        #print_matchs(matchs)

        #print_matchs(lastmatchs)

        if matchs == lastmatchs : break #如果上次和这次的label没改变 则跳出循环

        lastmatchs = [[ item for item in matchs[i] ] for i in range(k)] #保存的是上次的k-means结果的label

        #move the centroids to the average of their members

        for j in range(k) :

            avg = [0.0 for i in range(len(blogwords[0])) ]

            for m in matchs[j] :

                vec = blogwords[m]

                for i in range(len(blogwords[0])) :

                    avg[i] += vec[i]

            avg = [ item / len(match[j]) for item in avg]  
            clusters[j] = avg #更新新的聚类中心

        rounds -= 1

    return matchs

  ## label指的是：

  ##               1------ [1,3]     ·

  ##               2------ [2,8]     ·

  ##    类编号      3------ [0,6]     ·   数据编号

  ##               4------ [4,7]     ·

  ##               5------ [5,10,11] ·

距离相似度计算：

#pearson distance

from math import sqrt

def pearson_distance(vector1,vector2):

    sum1 = sum(vector1)

    sum2 = sum(vector2)

    sum1Sq = sum([pow(v,2) for v in vector1])

    sum2Sq = sum([pow(v,2) for v in vector2])

    pSum = sum([vector1[i] * vector2[i] for i in range(len(vector1))])

    num = pSum - (sum1 * sum2 / len(vector1))

    den = sqrt((sum1Sq - pow(sum1,2) / len(vector1)) * (sum2Sq - pow(sum2,2)/len(vector1)))

    if den == 0 : return 0.0

    return 1.0 - num/den

***注意：如果修改py文件（例如添加一个函数）必须要Restart shell 才能调用该函数，我们可以修改一下距离函数或者迭代终止条件~~~

***注意：如果要加中文注释，需要在最开头一行加入 #coding: UTF-8

***数据输入格式 [[123, 312, 434, 4325, 345345], [23124, 141241, 434234, 9837489, 34743], [128937, 127, 12381, 424, 8945], [323, 4348, 5040, 8189, 2348], [51249, 42190, 2713, 2319, 4328], [13957, 1871829, 8712847, 34589, 30945], [1234, 45094, 23409, 13495, 348052], [49853, 3847, 4728, 4059, 5389]] 一行代表一个数据，列代表一个数据的一个属性值

转自：http://www.cnblogs.com/coser/archive/2013/04/10/3013044.html

代码并不通用，要抽个时间改改，改的方向有

1-处理空簇数据，即簇中没有数据的情况。

对于出现这种情况，可以使用随机选取任意簇(非空)中最远的点作为当前空簇的中心点；或者在当前具有最大SSE的簇中选择最远距离值作为当前空簇的中心点。这两种做法都是减小了总体的SSE，如果有多个空簇的话，针对每一个空簇执行上面的两种方法之一，重复多次，消除空簇。

2-选择初始质心，可改进的参考资料是层次聚类和k-means++算法

一定要抽时间！！！

转：Python K-means代码的更多相关文章

python 常忘代码查询和autohotkey补括号脚本和一些笔记和面试常见问题
笔试一些注意点: --,23点43 今天做的京东笔试题目: 编程题目一定要先写变量取None的情况.今天就是因为没有写这个边界条件所以程序一直不对.以后要注意!!!!!!!!!!!!!!!!!!!!! ...
机器学习算法的基本知识（使用Python和R代码）
本篇文章是原文的译文,然后自己对其中做了一些修改和添加内容(随机森林和降维算法).文章简洁地介绍了机器学习的主要算法和一些伪代码,对于初学者有很大帮助,是一篇不错的总结文章,后期可以通过文中提到的算法 ...
python的PEP8 代码风格指南
PEP8 代码风格指南这篇文章原文实际上来自于这里:https://www.python.org/dev/peps/pep-0008/ 知识点代码排版字符串引号表达式和语句中的空格注释版本 ...
<转>机器学习系列(9)_机器学习算法一览（附Python和R代码）
转自http://blog.csdn.net/han_xiaoyang/article/details/51191386 – 谷歌的无人车和机器人得到了很多关注,但我们真正的未来却在于能够使电脑变得更 ...
Python 坑爹之代码缩进
建议:统一使用空格!!!!!!!!!不要Tab Python代码缩进这两天python-cn邮件列表有一条thread发展的特别长,题目是<python的代码缩进真是坑爹>(地址), ...
Python第一行代码
Python版本:Python 3.6.1 0x01 命令行交互在交互式环境的提示符>>>下,直接输入代码,按回车,就可以立刻得到代码执行结果.现在,试试输入100+200,看看计 ...
用python处理html代码的转义与还原
用python处理html代码的转义与还原转义 escape: import cgi s = cgi.escape("""& < >" ...
【转】利用Boost.Python将C++代码封装为Python模块
用Boost.Python将C++代码封装为Python模块一. 基础篇借助Boost.Python库可以将C/C++代码方便.快捷地移植到python模块当中,实现对python模块的扩 ...
python爬虫小说代码，可用的
python爬虫小说代码,可用的,以笔趣阁为例子,python3.6以上,可用作者的QQ:342290433,汉唐自远工程师 import requests import refrom lxml i ...
Python实现C代码统计工具(四)
目录 Python实现C代码统计工具(四) 标签: Python 计时持久化声明运行测试环境一. 自定义计时函数 1.1 整个程序计时 1.2 代码片段计时 1.3 单条语句计时二. 性能优 ...

随机推荐

go-- 用go-mssql驱动连接sqlserver数据库
import _ "github.com/denisenkom/go-mssqldb" import ( "crypto/cipher" "crypt ...
使用js和jq去掉左右空格方法
<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <script src ...
Java--剑指offer（3）
11．输入一个整数,输出该数二进制表示中1的个数.其中负数用补码表示. a)使用Integer.toBinaryString(n);来计算得出二进制的字符串,然后使用for循环截取字符串是否为1 pu ...
【HDU 2089】不要62
http://acm.hdu.edu.cn/showproblem.php?pid=2089 数位dp,参照了打野的博客预处理出f数组,f[i][j]表示第i位为数字j时的可行的数字总数. 对于区间 ...
mxnet目录结构
普通目录 R-package, R语言API, 因为用的python, 所以对R暂时不感兴趣 amalgamation, 将整个mxnet库打包成一个文件, 以方便直接在客户端调用, 如Android ...
【POJ 2480】Longge's problem（欧拉函数）
题意求$ \sum_{i=1}^n gcd(i,n) $ 给定 $n(1\le n\le 2^{32}) $. 链接题解欧拉函数 $φ(x)$ :1到x-1有几个和x互质的数. gcd(i,n) ...
猿题库 iOS 客户端架构设计
原文: http://mp.weixin.qq.com/s?__biz=MjM5NTIyNTUyMQ==&mid=444322139&idx=1&sn=c7bef4d439f4 ...
欢迎加入.Net高级部落 173844862
本群成立至今3年多,聚集了好多大牛级别的人物,欢迎高手前来指教,也欢迎小菜鸟进来学习.群成员热情开朗,有问必答.在这里聊聊技术,谈谈理想,不光技术会得到提高,也会收获一大帮志同道合的朋友,希望在未来的 ...
tableView使用的易忘技术点（相对于自己）
1.在tableView设置右向导航指示箭头 cell.accessoryType=UITableViewCellAccessoryDisclosureIndicator; 2.tableView的系 ...
检测是否是IE浏览器
浏览器识别版本方法 //使用说明返回的是一个对象{"browser":"[IE]...","version":"11.0" ...

转：Python K-means代码

转：Python K-means代码的更多相关文章

随机推荐

热门专题