导入类库 import numpy as np import pandas as pd from sklearn.linear_model import LinearRegression from sklearn.preprocessing import StandardScaler from sklearn.neighbors import KNeighborsClassifier from sklearn.feature_extraction import DictVectorizer fr…
学习中...不断更新. 在糖尿病人的数据库中有几列是不能为0的 比如葡萄糖 胰岛素 身体指数和皮肤厚度.所以在数据预处理阶段需要对这些列的数据进行替换. remeber we did 12 minus 1 for 11 在找寻K的值的时候,因为对训练数据集开平方等于12,但是为了取奇数值,用12-1得到11. 对位度量标准的选择一般选择欧式距离,当然也有很多其他的度量准则例如均方值,但是一般选择欧式距离,不仅因为它是最常用的一个,还因为度量性能较好. 评估模型是非常重要的,我们利用混淆矩阵来做…
最近在学习这本书,按照书上的实例编写了knn.py的文件,使用canopy进行编辑,用shell交互时发现运行时报错: >>> kNN.classify0([0,0],group,labels,3) Traceback (most recent call last): File "<stdin>", line 1, in <module> NameError: name 'kNN' is not defined 运行的代码如下: from nu…