1.理解使用KNN进行分类

KNN特点

近邻分类器：一种懒惰学习器，即把未标记的案例归类为与它们最相似的带有标记的案例所在的类。当一个概念很难定义，但你看到它时知道它是什么，就适合用KNN分类。
KNN优点：简单有效；数据分布无要求；训练快
KNN缺点：不产生模型（发现特征间关系能力有限）；分类慢；内存大；名义变量和缺失值需要处理
KNN算法将特征处理为一个多维特征空间内的坐标。如标记配料为水果、蔬菜和蛋白3种类型，每种配料有脆度crunshiness和甜度sweetness 2个维度特征，体现在坐标内就是x轴、y轴。

KNN步骤

1）计算距离

距离函数度量：如欧氏距离（最短的直线距离），曼哈顿距离（类似城市街区路线）。欧氏距离公式：

假设我们已知葡萄、绿豆、坚果、橙子等食品的分类和特征（脆度和甜度），现在想知道已知特征（甜度=6，脆度=4）的西红柿属于哪一类？计算与它的几个近邻之间的欧氏距离：

若K=1，西红柿和orange最近，归类为水果；

若K=3，3个近邻为orange,grape,nuts，三者之间投票表决，2/3归为水果，因而西红柿归类为水果。

2）选择合适的K

偏差-方差权衡：过拟合与欠拟合之间的平衡。选择一个大的K会减少噪音数据对模型的影响，但过大会导致模型总是预测数量占大多数的那个类（几乎每个训练案例都会投票表决），而非最近的邻居；较小的K值会给出更复杂的决策边界，可更精细的拟合训练数据，但K过小则会使得噪音数据或异常值过度影响案例的分类（比如贴错标签）。

实际上，K的选取取决于学习概念的难度和训练集中案例的数量。一般，K为3-10。

常见的方法是将k设为训练集中案例数量的平方根。
另一种方法是基于多个测试数据集来测试多个K值，选择一个最好分类性能的K值。
还有一种不常见的方法就是选择一个较大的K，再按距离远近来给一个权威投票。

3）数据准备

特征标准化：将特征转换为一个标准范围内，使得特征对距离公式的贡献相对平均。如不转换，距离度量会被较大的特征值支配
min-max标准化（0-1范围）：特征的每一个值(x-min(x))/(max(x)-min(x))
z-score标准化（mean=0，sd=1，无边界）：(x-mean(x))/(sd(x))
名义变量的距离计算：利用哑变量编码，如男/女=1/0，不需要标准化（若是有序且步长相等的名义特征，则需要转换）
懒惰学习算法（基于实例的学习/机械学习）：没有抽象化步骤，跳过了抽象过程和一般化过程。仅仅存储训练集，所以训练很快，但预测较慢。是非参数学习方法，即没有需要学习的数据参数。

2.用KNN诊断乳腺癌

1）收集数据

数据：569例细胞活检案例，每个案例32个特征（其中包含一个编号，一个癌症诊断结果：良性B/恶性M），使用KNN算法来识别肿瘤是恶性还是良性？

获取途径1：http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/

获取途径2：以下链接下载wisc_bc_data.csv

链接: https://pan.baidu.com/s/1Kdj6T8mp7YKraRLxEg3u1g 提取码: 9auq

2）探索和准备数据

查看数据，注意去除ID特征。

构造训练集和测试集最好都是来自数据全集的一个有代表性的子集（事先随机顺序）。

## Example: Classifying Cancer Samples ----

## Step 2: Exploring and preparing the data ---- 

# import the CSV file

wbcd <- read.csv("wisc_bc_data.csv", stringsAsFactors = FALSE)

# examine the structure of the wbcd data frame

str(wbcd)

# drop the id feature

wbcd <- wbcd[-1]

# table of diagnosis

table(wbcd$diagnosis)

# recode diagnosis as a factor

wbcd$diagnosis <- factor(wbcd$diagnosis, levels = c("B", "M"),

                         labels = c("Benign", "Malignant"))

# table or proportions with more informative labels

round(prop.table(table(wbcd$diagnosis)) * 100, digits = 1)

# summarize three numeric features

summary(wbcd[c("radius_mean", "area_mean", "smoothness_mean")])

# create normalization function

normalize <- function(x) {

  return ((x - min(x)) / (max(x) - min(x)))

}

# test normalization function - result should be identical

normalize(c(1, 2, 3, 4, 5))

normalize(c(10, 20, 30, 40, 50))

# normalize the wbcd data

wbcd_n <- as.data.frame(lapply(wbcd[2:31], normalize))

# confirm that normalization worked

summary(wbcd_n$area_mean)

# create training and test data

wbcd_train <- wbcd_n[1:469, ]

wbcd_test <- wbcd_n[470:569, ]

# create labels for training and test data

wbcd_train_labels <- wbcd[1:469, 1]

wbcd_test_labels <- wbcd[470:569, 1]

3）训练模型

K最好使用奇数，这样会减少各个类票数相等的情况发生的可能性（如西红柿示例中K=2时）。

## Step 3: Training a model on the data ----

# load the "class" library

library(class)

wbcd_test_pred <- knn(train = wbcd_train,

                      test = wbcd_test,

                      cl = wbcd_train_labels,

                      k = 21)  #训练集案例的平方根floor(sqrt(469))

4）评估模型的性能

即评估预测分类与测试分类中已知值得匹配程度。预测设计假阳性FP比率和假阴性FN比率之间的平衡。

乳腺癌分类的假阴性比假阳性付出的代价更大，即把恶性判断为良性。

## Step 4: Evaluating model performance ----

# load the "gmodels" library

library(gmodels)

# Create the cross tabulation of predicted vs. actual

CrossTable(x = wbcd_test_labels, y = wbcd_test_pred,

           prop.chisq = FALSE)

5）提高模型性能

①尝试将min-max标准化改为z-score标准化

## Step 5: Improving model performance ----

# use the scale() function to z-score standardize a data frame

wbcd_z <- as.data.frame(scale(wbcd[-1]))

# confirm that the transformation was applied correctly

summary(wbcd_z$area_mean)

# create training and test datasets

wbcd_train <- wbcd_z[1:469, ]

wbcd_test <- wbcd_z[470:569, ]

# re-classify test cases

wbcd_test_pred <- knn(train = wbcd_train, test = wbcd_test,

                      cl = wbcd_train_labels, k = 21)

# Create the cross tabulation of predicted vs. actual

CrossTable(x = wbcd_test_labels, y = wbcd_test_pred,

           prop.chisq = FALSE)

正确分类从98%降为95%，且假阴性从2%提升到了5%，效果更差。

②尝试不同的K值

# try several different values of k

wbcd_train <- wbcd_n[1:469, ]

wbcd_test <- wbcd_n[470:569, ]

wbcd_test_pred <- knn(train = wbcd_train, test = wbcd_test, cl = wbcd_train_labels, k=1)

CrossTable(x = wbcd_test_labels, y = wbcd_test_pred, prop.chisq=FALSE)

wbcd_test_pred <- knn(train = wbcd_train, test = wbcd_test, cl = wbcd_train_labels, k=5)

CrossTable(x = wbcd_test_labels, y = wbcd_test_pred, prop.chisq=FALSE)

wbcd_test_pred <- knn(train = wbcd_train, test = wbcd_test, cl = wbcd_train_labels, k=11)

CrossTable(x = wbcd_test_labels, y = wbcd_test_pred, prop.chisq=FALSE)

wbcd_test_pred <- knn(train = wbcd_train, test = wbcd_test, cl = wbcd_train_labels, k=15)

CrossTable(x = wbcd_test_labels, y = wbcd_test_pred, prop.chisq=FALSE)

wbcd_test_pred <- knn(train = wbcd_train, test = wbcd_test, cl = wbcd_train_labels, k=21)

CrossTable(x = wbcd_test_labels, y = wbcd_test_pred, prop.chisq=FALSE)

wbcd_test_pred <- knn(train = wbcd_train, test = wbcd_test, cl = wbcd_train_labels, k=27)

CrossTable(x = wbcd_test_labels, y = wbcd_test_pred, prop.chisq=FALSE)

以上结果中，虽然K=1时的假阴性率最低，但是以增加假阳性结果为代价的。注意不能为了过于准确预测测试集来随意调整方法。

尽管kNN算法简单，但它能处理复杂的任务。

【机器学与R语言】2-懒惰学K*邻（kNN）的更多相关文章

学了C语言，如何利用CURL写一个下载程序？—用nmake编译CURL并安装
在这一系列的前一篇文章学了C语言,如何为下载狂人写一个磁盘剩余容量监控程序?中,我们为下载狂人写了一个程序来监视磁盘的剩余容量,防止下载的东西撑爆了硬盘.可是,这两天,他又抱怨他的下载程序不好用,让我 ...
通过R语言统计考研英语（二）单词出现频率
通过R语言统计考研英语(二)单词出现频率大家对英语考试并不陌生,首先是背单词,就是所谓的高频词汇.厚厚的一本单词,真的看的头大.最近结合自己刚学的R语言,为年底的考研做准备,想统计一下最近考研英语( ...
R语言缺点
R的优点:免费,开源,体积小.缺点:对大文本处理差,另外一个也在于开源,package如果出错,烦死你.当你跑比较大的simulation,对效率有要求的时候,有时还是不得不用C,这可能是10小时和1 ...
《R语言实战》读书笔记--为什么要学
本人最近在某咨询公司实习,涉及到了一些数据分析的工作,用的是R语言来处理数据.但是在应用的过程中,发现用R很不熟练,所以再打算学一遍R.曾经花一个月的时间看过一遍<R语言编程艺术>,还用R ...
中部：执具 | R语言数据分析（北京邮电大学）自整理笔记
第5章工欲善其事.必先利其器代码,是延伸我们思想最好的工具. 第6章基础编程--用别人的包和函数讲述自己的故事 6.1编程环境 1.R语言的三段论大前提:计算机语言程序=算法+数据结构小前提:R ...
不懂指针就不要说自己学过C语言！
不懂指针就不要说自己学过C语言! 1.掌握了指针,就掌握了C语言的精髓!计算机中绝大部分数据都放到内存中的,不同的数据放到不同的内存区域中. 内存角度没有数据类型,只有二进制:数据以字节(8位二进制) ...
学了C语言，如何利用cURL写一个程序验证某个网址的有效性？
在<C程序设计伴侣>以及这几篇关于cURL的文章中,我们介绍了如何利用cURL写一个下载程序,从网络下载文件.可是当我们在用这个程序下载文件时,又遇到了新问题:如果这个网址是无效的,那么我 ...
学了C语言，如何写个程序计算出每个月的第一个星期一对应的日期
在前面,我们分别利用泰勒公式和C标准库中的mktime()函数推算了某个特定日期所对应的星期几,刚做完这些,就又遇到了一个与日期相关的新任务: 老板把每个月例会的时间定在了每个月的第一个星期一,他让我 ...
R语言进行机器学习方法及实例（一）
版权声明:本文为博主原创文章,转载请注明出处机器学习的研究领域是发明计算机算法,把数据转变为智能行为.机器学习和数据挖掘的区别可能是机器学习侧重于执行一个已知的任务,而数据发掘是在大数据中寻找有 ...

随机推荐

Java：内部类小记
Java:内部类小记对 Java 中的内部类,做一个微不足道的小小小小记首先:内部类是指在一个外部类的内部再定义一个类.内部类作为外部类的一个成员,并且依附于外部类而存在的. 成员内部类成员内 ...
UltraSoft - Alpha - Scrum Meeting 6
Date: Apr 21th, 2020. Scrum 情况汇报进度情况组员负责昨日进度后两日任务 CookieLau PM 验证了课程中心获取课程资源和作业的爬虫方式细化前后端交互中的难 ...
云效Flow如何实现阿里云ECS多环境发布
一.背景云效Flow基于标签功能实现阿里云ECS多环境发布,在软件开发和部署过程中,我们的软件往往需要在不同的运行环境中运行,例如:开发人员本地开发环境.测试团队的测试环境.还有类生产环境和生产环境 ...
旋转数组的最小数字牛客网剑指Offer
旋转数组的最小数字牛客网剑指Offer 题目描述把一个数组最开始的若干个元素搬到数组的末尾,我们称之为数组的旋转. 输入一个非减排序的数组的一个旋转,输出旋转数组的最小元素. 例如数组{3,4, ...
输出单层结点牛客网程序员面试金典 C++ Python
输出单层结点牛客网程序员面试金典 C++ Python 题目描述对于一棵二叉树,请设计一个算法,创建含有某一深度上所有结点的链表. 给定二叉树的根结点指针TreeNode* root,以及链表上 ...
storm在windows下本地调试报错java.lang.UnsatisfiedLinkError cannot find rocksdbjnixxxxxxxxxx.dll
storm启动本地集群调试时,有时会找不到rocksdbjni.dll,storm加载该库的时候会先从jkd的bin下找rocksdbjni.dll,如果找不到就从pom文件的依赖包里找,再找不到就会 ...
rocketmq广播消息的（五）
一.简介广播消费指的是:一条消息被多个consumer消费,即使这些consumer属于同一个ConsumerGroup,消息也会被ConsumerGroup中的每个Consumer都消费一次,广播 ...
第四周PTA笔记好吃的巧克力+特殊的翻译+下次一定（续）+走迷宫
好吃的巧克力超市正在特价售卖巧克力,正好被贪吃的Lucky_dog看见了. 巧克力从左到右排成一排,一共有N个,M种. 超市有一个很奇怪的规定,就是你在购买巧克力时必须提供两个数字a和b,代表你要购 ...
用C++实现俄罗斯方块(Tetris)游戏
我是一个C++初学者,控制台实现了一个俄罗斯方块游戏. 代码如下: //"俄罗斯方块"V1.0 //李国良于2017年1月20日编写完成 #include <iostream ...
记录线上APP一个排序比较引发的崩溃 Comparison method violates its general contract!
最近在做产品需求的时候上线了一个新的产品需求,给用户多了一种新的排序排序规则,更加方便用户找到自己想要的东西.新版本发布后,QA 给我发了一个线上崩溃 bug 链接,具体内容如下: 看到上面的链接, ...

【机器学*与R语言】2-懒惰学*K*邻（kNN）