knn的python代码

import heapq

import random

class Classifier:

    def __init__(self, bucketPrefix, testBucketNumber, dataFormat, k):

　　　　　　""" 一个分类器将建立与bucketprefix文件
　　　　　　除textbucketnumber文件。数据格式是一个字符串，
　　　　　　描述如何解释数据文件的每一行。

　　　　　　"""

        self.medianAndDeviation = []

        self.k = k

        self.format = dataFormat.strip().split('\t')

        self.data = []

        for i in range(1, 11):

            if i != testBucketNumber:

                filename = "%s-%02i" % (bucketPrefix, i)

                f = open(filename)

                lines = f.readlines()

                f.close()

                for line in lines[1:]:

                    fields = line.strip().split('\t')

                    ignore = []

                    vector = []

                    for i in range(len(fields)):

                        if self.format[i] == 'num':

                            vector.append(float(fields[i]))

                        elif self.format[i] == 'comment':

                            ignore.append(fields[i])

                        elif self.format[i] == 'class':

                            classification = fields[i]

                    self.data.append((classification, vector, ignore))

        self.rawData = list(self.data)

        self.vlen = len(self.data[0][1])

        for i in range(self.vlen):

            self.normalizeColumn(i)

    def getMedian(self, alist):

        """返回列表"""

        if alist == []:

            return []

        blist = sorted(alist)

        length = len(alist)

        if length % 2 == 1:

            return blist[int(((length + 1) / 2) -  1)]

        else:

            v1 = blist[int(length / 2)]

            v2 =blist[(int(length / 2) - 1)]

            return (v1 + v2) / 2.0

    def getAbsoluteStandardDeviation(self, alist, median):

        """取绝对标准偏差"""

        sum = 0

        for item in alist:

            sum += abs(item - median)

        return sum / len(alist)

    def normalizeColumn(self, columnNumber):

       """给出一列数，规范self.data列"""

       # 先提取值列表

       col = [v[1][columnNumber] for v in self.data]

       median = self.getMedian(col)

       asd = self.getAbsoluteStandardDeviation(col, median)

       #print("Median: %f   ASD = %f" % (median, asd))

       self.medianAndDeviation.append((median, asd))

       for v in self.data:

           v[1][columnNumber] = (v[1][columnNumber] - median) / asd

    def normalizeVector(self, v):

        """We have stored the median and asd for each column.

        We now use them to normalize vector v"""

        vector = list(v)

        for i in range(len(vector)):

            (median, asd) = self.medianAndDeviation[i]

            vector[i] = (vector[i] - median) / asd

        return vector

    def testBucket(self, bucketPrefix, bucketNumber):

        """评估分类bucketPrefix-bucketNumber"""

        filename = "%s-%02i" % (bucketPrefix, bucketNumber)

        f = open(filename)

        lines = f.readlines()

        totals = {}

        f.close()

        for line in lines:

            data = line.strip().split('\t')

            vector = []

            classInColumn = -1

            for i in range(len(self.format)):

                  if self.format[i] == 'num':

                      vector.append(float(data[i]))

                  elif self.format[i] == 'class':

                      classInColumn = i

            theRealClass = data[classInColumn]

            classifiedAs = self.classify(vector)

            totals.setdefault(theRealClass, {})

            totals[theRealClass].setdefault(classifiedAs, 0)

            totals[theRealClass][classifiedAs] += 1

        return totals

    def manhattan(self, vector1, vector2):

        """计算曼哈顿距离"""

        return sum(map(lambda v1, v2: abs(v1 - v2), vector1, vector2))

    def knn(self, itemVector):

        """使用K近邻预测itemVector类"""

        neighbors = heapq.nsmallest(self.k,[(self.manhattan(itemVector, item[1]), item)

                     for item in self.data])

        results = {}

        for neighbor in neighbors:

            theClass = neighbor[1][0]

            results.setdefault(theClass, 0)

            results[theClass] += 1

        resultList = sorted([(i[1], i[0]) for i in results.items()], reverse=True)

        maxVotes = resultList[0][0]

        possibleAnswers = [i[1] for i in resultList if i[0] == maxVotes]

        answer = random.choice(possibleAnswers)

        return( answer)

    def classify(self, itemVector):

        """返回类"""

        return(self.knn(self.normalizeVector(itemVector)))                             

def tenfold(bucketPrefix, dataFormat, k):

    results = {}

    for i in range(1, 11):

        c = Classifier(bucketPrefix, i, dataFormat, k)

        t = c.testBucket(bucketPrefix, i)

        for (key, value) in t.items():

            results.setdefault(key, {})

            for (ckey, cvalue) in value.items():

                results[key].setdefault(ckey, 0)

                results[key][ckey] += cvalue

    categories = list(results.keys())

    categories.sort()

    print(   "\n       Classified as: ")

    header =    "        "

    subheader = "      +"

    for category in categories:

        header += "% 2s   " % category

        subheader += "-----+"

    print (header)

    print (subheader)

    total = 0.0

    correct = 0.0

    for category in categories:

        row = " %s    |" % category

        for c2 in categories:

            if c2 in results[category]:

                count = results[category][c2]

            else:

                count = 0

            row += " %3i |" % count

            total += count

            if c2 == category:

                correct += count

        print(row)

    print(subheader)

    print("\n%5.3f percent correct" %((correct * 100) / total))

    print("total of %i instances" % total)

print("SMALL DATA SET")

tenfold("pimaSmall/pimaSmall",

        "num	num	num	num	num	num	num	num	class", 1)

print("\n\nLARGE DATA SET")

tenfold("pima/pima",

        "num	num	num	num	num	num	num	num	class", 1)

knn的python代码的更多相关文章

KNN算法原理（python代码实现）
kNN(k-nearest neighbor algorithm)算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性 ...
手写算法-python代码实现KNN
原理解析 KNN-全称K-Nearest Neighbor,最近邻算法,可以做分类任务,也可以做回归任务,KNN是一种简单的机器学习方法,它没有传统意义上训练和学习过程,实现流程如下: 1.在训练数据 ...
可爱的豆子——使用Beans思想让Python代码更易维护
title: 可爱的豆子--使用Beans思想让Python代码更易维护 toc: false comments: true date: 2016-06-19 21:43:33 tags: [Pyth ...
if __name__== "__main__" 的意思(作用)python代码复用
if __name__== "__main__" 的意思(作用)python代码复用转自:大步's Blog http://www.dabu.info/if-__-name__ ...
Python 代码风格
1 原则在开始讨论Python社区所采用的具体标准或是由其他人推荐的建议之前,考虑一些总体原则非常重要. 请记住可读性标准的目标是提升可读性.这些规则存在的目的就是为了帮助人读写代码,而不是相反. ...
一行python代码实现树结构
树结构是一种抽象数据类型,在计算机科学领域有着非常广泛的应用.一颗树可以简单的表示为根, 左子树, 右子树. 而左子树和右子树又可以有自己的子树.这似乎是一种比较复杂的数据结构,那么真的能像我们在标题 ...
[Dynamic Language] 用Sphinx自动生成python代码注释文档
用Sphinx自动生成python代码注释文档 pip install -U sphinx 安装好了之后,对Python代码的文档,一般使用sphinx-apidoc来自动生成:查看帮助mac-abe ...
上传自己的Python代码到PyPI
一.需要准备的事情 1.当然是自己的Python代码包了: 2.注册PyPI的一个账号. 二.详细介绍 1.代码包的结构: application \application __init__.py m ...
如何在batch脚本中嵌入python代码
老板叫我帮他测一个命令在windows下消耗的时间,因为没有装windows那个啥工具包,没有timeit那个命令,于是想自己写一个,原理很简单: REM timeit.bat echo %TIME% ...

随机推荐

hibernate映射xml文件配置之一对多，多对多
一对多配置 [1]班级和学生模型 --->班级可容纳多个学生 --->学生只能属于一个班级 [2]一对多配置中的关系维护(inverse) --->一端放弃关系的维护 ---> ...
nexus docker 私有镜像处理
新版本的nexus 可以进行docker 镜像的存储处理配置私有镜像(host 模式) 修改docker 非安全镜像处理 { "registry-mirrors": [" ...
table 如何给tr border颜色
border-collapse属性值说明 separate 默认值,边框分开,不合并 collapse 边框合并,如果相邻,则共用一个边框 table,th,td{border:1px solid ...
NET基础篇——反射的奥妙
反射是一个程序集发现及运行的过程,通过反射可以得到*.exe或*.dll等程序集内部的信息.使用反射可以看到一个程序集内部的接口.类.方法.字段.属性.特性等等信息.在System.Reflectio ...
mamp下安装ruby的mysql库
mysql2库死活不行,用ruby-mysql得了,纯ruby的库 gem "ruby-mysql" require 'mysql'
C#两个日期范围内的间隔
http://www.cnblogs.com/love_study/archive/2011/04/02/2003045.html 引用地址 1 /// <summary> /// 计算日 ...
控件m
窗体的事件:删除事件:先将事件页面里面的挂好的事件删除,再删后台代码里面的事件 Panel是一个容器 1.Label -- 文本显示工具Text:显示的文字取值.赋值:lable1.Text 2.Te ...
mysql-13处理重复数据
1.防止表中出现重复数据在mysql数据表中设置指定的字段为主键或唯一索引来保证数据的唯一行. -- 方法1:指定主键 create `table person_tbl`( `first_name` ...
Hive 体系结构
1.Hive架构与基本组成下面是Hive的架构图. 图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 W ...
python之CMDB
浅谈ITIL TIL即IT基础架构库(Information Technology Infrastructure Library, ITIL,信息技术基础架构库)由英国政府部门CCTA(Central ...

knn的python代码

knn的python代码的更多相关文章

随机推荐

热门专题