第4章最基础的分类算法-k近邻算法

思想极度简单

应用数学知识少

效果好（缺点？）

可以解释机器学习算法使用过程中的很多细节问题

更完整的刻画机器学习应用的流程

distances = []

for x_train in X_train:

    d=sqrt(np.sum((x_train-x)**2))

    distances.append(d)

distances=[sqrt(np.sum((x_train-x)**2)) for x_train in X_train]

可以说kNN是一个不需要训练过程的算法

K近邻算法是非常特殊的，可以被认为是没有模型的算法

为了和其他算法统一，可以认为训练数据集就是模型本身

kNN：

from sklearn.neighbors import KNeighborsClassifier

kNN_classifier=KNeighborsClassifier(n_neighbors=6)

kNN_classifier.fit(X_train,y_train)

kNN_classifier.predict(x)

有关K近邻算法

解决分类问题

天然可以解决多分类问题

思想简单，效果强大

使用k近邻算法解决回归问题

KNeighborsRegressor

kNN：

from sklearn.neighbors import KNeighborsClassifier

kNN_classifier=KNeighborsClassifier(n_neighbors=6)

kNN_classifier.fit(X_train,y_train)

kNN_classifier.predict(x)

须考虑距离的权重！通常是将距离的倒数作为权重

相当于因为距离又获得了一个超参数

寻找最好的k,调参

best_score = 0.0

besk_k = -1

for k in range(1,11):

    knn_clf = KNeighborsClassifier(n_neighbors=k)

    knn_clf.fit(X_train,y_train)

    score = knn_clf.score(X_test,y_test)

    if score>best_score:

        best_k=k

        best_score=score

print('best_k=',best_k)

print('best_score=',best_score)

考虑距离？

best_method = ''

best_score = 0.0

besk_k = -1

for method in ['uniform','distance']:

    for k in range(1,11):

        knn_clf = KNeighborsClassifier(n_neighbors=k,weights=method)

        knn_clf.fit(X_train,y_train)

        score = knn_clf.score(X_test,y_test)

        if score>best_score:

            best_k=k

            best_score=score

            best_method = method

print('best_k=',best_k)

print('best_score=',best_score)

print('best_method',best_method)

搜索明可夫斯基距离相应的p

%%time

best_p = -1

best_score = 0.0

besk_k = -1

for k in range(1,11):

    for p in range(1,6):

        knn_clf = KNeighborsClassifier(n_neighbors=k,weights='distance',p = p)

        knn_clf.fit(X_train,y_train)

        score = knn_clf.score(X_test,y_test)

        if score>best_score:

            best_k=k

            best_score=score

            best_p=p

print('best_k=',best_k)

print('best_score=',best_score)

print('best_p=',best_p)

缺点2：高度数据相关

缺点3:预测的结果不具有可解释性

缺点4：维数灾难

随着维度的增加，‘看似相近’的的两个点之间的距离越来越大

解决方法：降维（PCA）

# coding=utf-8

import numpy as np

from sklearn import datasets

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler

from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import accuracy_score  # 分类的准确度

from sklearn.model_selection import GridSearchCV

iris = datasets.load_iris()

X = iris.data

y = iris.target

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=666)

standardScaler = StandardScaler()  # 创建实例

standardScaler.fit(X_train)

# standardScaler.mean_

# standardScaler.scale_

X_train = standardScaler.transform(X_train)  # 使用transform方法进行归一化

X_test_standard = standardScaler.transform(X_test)

# 寻找最好的参数K

# param_grid = [

#     {

#         'weights': ['uniform'],

#         'n_neighbors': [i for i in range(1, 11)]

#     },

#     {

#         'weights': ['distance'],

#         'n_neighbors': [i for i in range(1, 11)],

#         'p': [i for i in range(1, 6)]

#     }

# ]

# knn_clf = KNeighborsClassifier()

# grid_search = GridSearchCV(knn_clf, param_grid)

# grid_search.fit(X_train, y_train)

# print(grid_search.best_estimator_, grid_search.best_params_, grid_search.best_score_)

# knn_clf.predict(X_test)

# knn_clf.score(X_test, y_test)

knn_clf = KNeighborsClassifier(n_neighbors=3)

knn_clf.fit(X_train, y_train)  # X_train已经进行了归一化

print(knn_clf.score(X_test_standard, y_test))

# 或者

y_predict = knn_clf.predict(X_test_standard)

print(accuracy_score(y_test, y_predict))

knn_clf.score(X_test_standard, y_test)

个人整个流程代码

第4章最基础的分类算法-k近邻算法的更多相关文章

机器学习(四) 分类算法--K近邻算法 KNN (上)
一.K近邻算法基础 KNN------- K近邻算法--------K-Nearest Neighbors 思想极度简单应用数学知识少 (近乎为零) 效果好(缺点?) 可以解释机器学习算法使用过程中 ...
分类算法----k近邻算法
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的 ...
机器学习(四) 机器学习(四) 分类算法--K近邻算法 KNN (下)
六.网格搜索与 K 邻近算法中更多的超参数七.数据归一化 Feature Scaling 解决方案:将所有的数据映射到同一尺度八.scikit-learn 中的 Scaler preprocess ...
python 机器学习（二）分类算法-k近邻算法
一.什么是K近邻算法? 定义: 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. 来源: KNN算法最早是由Cover和Hart提 ...
最基础的分类算法-k近邻算法 kNN简介及Jupyter基础实现及Python实现
k-Nearest Neighbors简介对于该图来说,x轴对应的是肿瘤的大小,y轴对应的是时间,蓝色样本表示恶性肿瘤,红色样本表示良性肿瘤,我们先假设k=3,这个k先不考虑怎么得到,先假设这个k是 ...
【学习笔记】分类算法-k近邻算法
k-近邻算法采用测量不同特征值之间的距离来进行分类. 优点:精度高.对异常值不敏感.无数据输入假定缺点:计算复杂度高.空间复杂度高使用数据范围:数值型和标称型用例子来理解k-近邻算法电影可以按 ...
k近邻算法
k 近邻算法是一种基本分类与回归方法.我现在只是想讨论分类问题中的k近邻法.k近邻算法的输入为实例的特征向量,对应于特征空间的点,输出的为实例的类别.k邻近法假设给定一个训练数据集,其中实例类别已定. ...
机器学习03：K近邻算法
本文来自同步博客. P.S. 不知道怎么显示数学公式以及排版文章.所以如果觉得文章下面格式乱的话请自行跳转到上述链接.后续我将不再对数学公式进行截图,毕竟行内公式截图的话排版会很乱.看原博客地址会有更 ...
02-16 k近邻算法
目录 k近邻算法一.k近邻算法学习目标二.k近邻算法引入三.k近邻算法详解 3.1 k近邻算法三要素 3.1.1 k值的选择 3.1.2 最近邻算法 3.1.3 距离度量的方式 3.1.4 分类 ...

随机推荐

ELK收集日志到mysql数据库
场景需求在使用ELK对日志进行收集的时候,如果需要对数据进行存档,可以考虑使用数据库的方式.为了便于查询,可以同时写一份数据到Elasticsearch 中. 环境准备 CentOS7系统: 192 ...
2019年2月5日训练日记关于int字节数，long int 字节数的讨论
今天做到了个非常有意思的题目,是关于int最大最小值.用sizeof(int)查寻,返回四个字节,4个字节计算应该是4*8=32位,其中一位为符号位,且最高为不能为2所以应该减一,2^31-1=214 ...
题解 CF1286A 【Garland】
updata on 2020.3.19 往博客园搬的时候看了看自己以前写的blog 其实没多久,才两个多月,感觉自己之前写的东西好罗嗦啊.. 但也是最近写的blog才开始多起来当然现在也没好到哪去. ...
linux命令之df dh
df -h, --human-readable 查看磁盘空间占用情况 df -h du -h, --human-readable -s, --summarize 查看文件大小 du -h test.t ...
Redis 到底是单线程还是多线程？我要吊打面试官！
最近在Java技术栈公众号发布的一篇文章,其中有一道题: Redis是多线程还是单线程?(回答单线程的请回吧,为什么请回,请往下看) 好些粉丝在后台问我:为什么请回,Redis不是单线程吗? 大家注意 ...
G. 神圣的 F2 连接着我们线段树优化建图+最短路
这个题目和之前写的一个线段树优化建图是一样的. B - Legacy CodeForces - 787D 线段树优化建图+dij最短路基本套路之前这个题目可以相当于一个模板,直接套用就可以了. 不 ...
M - 昂贵的聘礼最短路 dij
http://poj.org/problem?id=1062 这个题目有一点点特别,因为数据很小也可以用Floyd跑,但是个人比较钟爱dij. 这个dij是怎么走的呢,首先就是普通的建图,然后就是带上 ...
Java 8 CompletableFuture思考
Java 8 CompletableFuture思考最近一直在用响应式编程写Java代码,用的框架大概上有WebFlux(Spring).R2dbc.Akka...一些响应式的框架. 全都是Java ...
Istio的流量管理(实操一)(istio 系列三)
Istio的流量管理(实操一)(istio 系列三) 使用官方的Bookinfo应用进行测试.涵盖官方文档Traffic Management章节中的请求路由,故障注入,流量迁移,TCP流量迁移,请求 ...
帝国cms 批量替换字段内容包含的指定的关键字 SQL命令
帝国cms 批量替换字段内容包含的指定的关键字update phome_ecms_news_data_1 set newstext=replace(newstext,'原来','现在');

第4章 最基础的分类算法-k近邻算法

第4章 最基础的分类算法-k近邻算法的更多相关文章

随机推荐

热门专题

第4章最基础的分类算法-k近邻算法

第4章最基础的分类算法-k近邻算法的更多相关文章