sklearn 翻译笔记：KNeighborsClassifier

今天做机器学习knn的实现想使用sklearn这个模块，但是里面的函数不懂，无奈只能查文档，但是一大片英文看见我就烦，也不是说不能看但是以我低下的英语水平实在是太费劲了。幸好找到一篇前人翻译的比较好的解释。给大家推荐一下：一位来自简书的作者：吃着苹果写代码感谢作者的分享，希望能帮到更多的人。

sklearn 翻译笔记：KNeighborsClassifier - 简书

顺便把今天实现的代码也分享出来吧：诚然，代码实现顺利运行的呢一刻真的很开心

本代码是在python 中文文本分类 - 相国大人 - CSDN博客（相国大人）的代码基础上实现的

相国大人是使用的贝叶斯分类实现的分类模型，由于我的实际需要，我将相国大人的最后一个分类器模型NBayes_Predict.py修改了，使用了sklearn.neighbors这个pycharm自带的模块,具体源码如下：

#!/usr/bin/env python

# -*- coding: UTF-8 -*-

"""

@version: python3.6

@author: XiangguoSun

@file:Neighbors.py

@time: 2019/6/20 16:12

@software: PyCharm

"""

from sklearn.neighbors import KNeighborsClassifier # 导入k近邻算法

from sklearn import metrics

from Tools import readbunchobj

import os

# 导入训练集

path = os.getcwd()  # 获取当前路径

trainpath = os.path.join(path,"train_word_bag/tfdifspace.dat")

train_set = readbunchobj(trainpath)

# 导入测试集

testpath = os.path.join(path,"test_word_bag/testspace.dat")

test_set = readbunchobj(testpath)

# 训练分类器：输入词袋向量和分类标签，

clf=KNeighborsClassifier(n_neighbors=5,radius=1.0,algorithm='auto',leaf_size=30,

metric='minkowski',p=2,metric_params=None,n_jobs=1).fit(train_set.tdm, train_set.label)

"""

n_neighbors: int, 可选参数(默认为 5)

algorithm（算法）: {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}, 可选参数（默认为 'auto'）

leaf_size（叶子数量）: int, 可选参数(默认为 30)

p: integer, 可选参数(默认为 2)

metric（矩阵）: string or callable, 默认为 ‘minkowski’

metric_params（矩阵参数）: dict, 可选参数(默认为 None)

n_jobs: int, 可选参数(默认为 1)

用于搜索邻居的，可并行运行的任务数量。如果为-1, 任务数量设置为CPU核的数量。

"""

# 预测分类结果

predicted = clf.predict(test_set.tdm)

"""

target_name: 是一个list，存放的是整个数据集的类别集合

label： 是一个list，存放的是所有文本的标签。

filenames： 是一个list，存放的是所有文本文件的名字。

contents： 是一个list，分词后文本文件（一个文本文件只有一行）

"""

for flabel, file_name, expct_cate in zip(test_set.label, test_set.filenames, predicted):

    if flabel != expct_cate:

        print(file_name, ": 实际类别:", flabel, " -->预测类别:", expct_cate)

print("预测完毕!!!")

# 计算分类精度：

def metrics_result(actual, predict):

    print('精度:{0:.3f}'.format(metrics.precision_score(actual, predict, average='weighted')))

    print('召回:{0:0.3f}'.format(metrics.recall_score(actual, predict, average='weighted')))

    print('f1-score:{0:.3f}'.format(metrics.f1_score(actual, predict, average='weighted')))

metrics_result(test_set.label, predicted)

readbunchobj（）方法在Tool.py文件，若要复现，请下载相国大人完整代码再修改或者联系我，我可以提供修改好的Knn代码和训练集测试集。

sklearn 翻译笔记：KNeighborsClassifier的更多相关文章

Distinctive Image Features from Scale-Invariant Keypoints（个人翻译+笔记）-介绍
Distinctive Image Features from Scale-Invariant Keypoints,这篇论文是图像识别领域SIFT算法最为经典的一篇论文,导师给布置的第一篇任务就是它. ...
sklearn学习笔记3
Explaining Titanic hypothesis with decision trees decision trees are very simple yet powerful superv ...
sklearn学习笔记2
Text classifcation with Naïve Bayes In this section we will try to classify newsgroup messages using ...
sklearn学习笔记1
Image recognition with Support Vector Machines #our dataset is provided within scikit-learn #let's s ...
Subversion ----> svnserve.conf / authz / passwd / hooks-env.tmpl <<翻译笔记>>
svnserve.conf 假如你使用这个文件去允许访问这个仓库,那么这个文件控制着svnserve后台进程的配置.(但是如果你只是允许通过http和/或者 file:URLs,则这个文件就不起作用了 ...
sklearn学习笔记之简单线性回归
简单线性回归线性回归是数据挖掘中的基础算法之一,从某种意义上来说,在学习函数的时候已经开始接触线性回归了,只不过那时候并没有涉及到误差项.线性回归的思想其实就是解一组方程,得到回归函数,不过在出现误 ...
sklearn学习笔记
用Bagging优化模型的过程:1.对于要使用的弱模型(比如线性分类器.岭回归),通过交叉验证的方式找到弱模型本身的最好超参数:2.然后用这个带着最好超参数的弱模型去构建强模型:3.对强模型也是通过交 ...
sklearn学习笔记（一）——数据预处理 sklearn.preprocessing
https://blog.csdn.net/zhangyang10d/article/details/53418227 数据预处理 sklearn.preprocessing 标准化 (Standar ...
sklearn学习笔记之岭回归
岭回归岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息.降低精度为代价获得回归系数更为符合实际.更可靠的回归方法,对病 ...

随机推荐

LeetCode_434. Number of Segments in a String
434. Number of Segments in a String Easy Count the number of segments in a string, where a segment i ...
《PHP - 信号/基本操作/配置》
一:PHP 信号 - SIGINT / SIGTERM / SIGQUIT - 退出FPM,在master收到退出信号后将向所有的worker进程发送退出信号,然后master退出. - SIGUSR ...
【C++札记】多态
C++中多态是面向对象设计思想的重要特性,同名具有不同功能函数,该函数调用过程执行不同的功能.多态的原理是通过一张虚函数表(Virtual Table)实现的.动多态会牺牲一些空间和效率来最终实现动态 ...
Python规范:代码规范要注意
主要有以下两种代码规范 <8 号 Python 增强规范>(Python Enhacement Proposal #8),以下简称 PEP8: <Google Python 风格规范 ...
NLP自然语言处理的开发环境搭建
NLP的开发环境搭建主要分为以下几步: Python安装 NLTK系统安装 Python3.5下载安装下载链接:https://www.python.org/downloads/release/py ...
ORACLE链接SQLSERVER数据库数据操作函数范例
ORACLE链接SQLSERVER数据库数据操作函数范例 create or replace function FUN_NAME(LS_DJBH IN varchar2 ,LS_ITM varchar ...
[高清·非影印] Docker 容器与容器云（第2版）
------ 郑重声明 --------- 资源来自网络,纯粹共享交流, 如果喜欢,请您务必支持正版!! --------------------------------------------- 下 ...
mpvue + vant + flyio 小程序项目总结
vant 的使用我开始是 npm 导入,然后 import,使用不了. 找了各种方法,最后还是下载文件,然后找到 dist 文件夹,复制到项目里,我是放在 static 文件夹,文件名 dist 重 ...
native function 'Window_sendPlatformMessage' (4 arguments) cannot be found
https://github.com/pauldemarco/flutter_blue/issues/140 https://github.com/flutter/flutter/issues/168 ...
Java电商项目，秒杀，抢购等高并发场景的具体场景和一些概念以及处理思路
这里我借鉴了网上其他大佬的观点: 一:高并发带来的挑战原因:秒杀抢购会经常会带来每秒几万的高并发场景,为了更快的返回结果给用户. 吞吐量指标QPS(每秒处理请求数),假设一个业务请求响应耗时为100 ...

sklearn 翻译笔记：KNeighborsClassifier

sklearn 翻译笔记：KNeighborsClassifier的更多相关文章

随机推荐

热门专题