JAVA实现KNN分类

转载请注明出处：http://blog.csdn.net/xiaojimanman/article/details/51064307

http://www.llwjy.com/blogdetail/f74b497c2ad6261b0ea651454b97a390.html

个人博客站已经上线了，网址 www.llwjy.com ~欢迎各位吐槽~

-------------------------------------------------------------------------------------------------

在開始之前先打一个小小的广告，自己创建一个QQ群：321903218，

_wv=1027&k=2K6A5e6">点击链接加入群【Lucene案例开发】，主要用于交流怎样使用Lucene来创建站内搜索后台，同一时候还会不定期的在群内开相关的公开课，感兴趣的童鞋能够加入交流。

KNN算法又叫近邻算法，是数据挖掘中一种经常使用的分类算法，接单的介绍KNN算法的核心思想就是：寻找与目标近期的K个个体，这些样本属于类别最多的那个类别就是目标的类别。比方K为7，那么我们就从数据中找到和目标近期（或者类似度最高）的7个样本，加入这7个样本相应的类别分别为A、B、C、A、A、A、B，那么目标属于的分类就是A（由于这7个样本中属于A类别的样本个数最多）。

算法实现

一、训练数据格式定义

以下就简单的介绍下怎样用JAVA来实现KNN分类，首先我们须要存储训练集（包含属性以及相应的类别），这里我们对未知的属性使用泛型。类别我们使用字符串存储。

 /**

 *@Description:  KNN分类模型中一条记录的存储格式

 */

package com.lulei.datamining.knn.bean;  

public class KnnValueBean<T>{

	private T value;//记录值

	private String typeId;//分类ID

	public KnnValueBean(T value, String typeId) {

		this.value = value;

		this.typeId = typeId;

	}

	public T getValue() {

		return value;

	}

	public void setValue(T value) {

		this.value = value;

	}

	public String getTypeId() {

		return typeId;

	}

	public void setTypeId(String typeId) {

		this.typeId = typeId;

	}

}

二、K个近期邻类别数据格式定义

在统计得到K个近期邻中，我们须要记录前K个样本的分类以及相应的类似度，我们这里使用例如以下数据格式：

 /**

 *@Description: K个近期邻的类别得分

 */

package com.lulei.datamining.knn.bean;  

public class KnnValueSort {

	private String typeId;//分类ID

	private double score;//该分类得分

	public KnnValueSort(String typeId, double score) {

		this.typeId = typeId;

		this.score = score;

	}

	public String getTypeId() {

		return typeId;

	}

	public void setTypeId(String typeId) {

		this.typeId = typeId;

	}

	public double getScore() {

		return score;

	}

	public void setScore(double score) {

		this.score = score;

	}

}

三、KNN算法基本属性

在KNN算法中，最重要的一个指标就是K的取值，因此我们在基类中须要设置一个属性K以及设置一个数组用于存储已知分类的数据。

private List<KnnValueBean> dataArray;

private int K = 3;

四、加入已知分类数据

在使用KNN分类之前，我们须要先向当中加入我们已知分类的数据。我们后面就是使用这些数据来预測未知数据的分类。

/**

 * @param value

 * @param typeId

 * @Author:lulei

 * @Description: 向模型中加入记录

 */

public void addRecord(T value, String typeId) {

	if (dataArray == null) {

		dataArray = new ArrayList<KnnValueBean>();

	}

	dataArray.add(new KnnValueBean<T>(value, typeId));

}

五、两个样本之间的类似度（或者距离）

在KNN算法中，最重要的一个方法就是怎样确定两个样本之间的类似度（或者距离）。由于这里我们使用的是泛型。并没有办法确定两个对象之间的类似度。一次这里我们把它设置为抽象方法，让子类来实现。这里我们方法定义为类似度，也就是返回值越大。两者越类似，之间的距离越短。

/**

 * @param o1

 * @param o2

 * @return

 * @Author:lulei

 * @Description: o1 o2之间的类似度

 */

public abstract double similarScore(T o1, T o2);

六、获取近期的K个样本的分类

KNN算法的核心思想就是找到近期的K个近邻，因此这一步也是整个算法的核心部分。

这里我们使用数组来保存类似度最大的K个样本的分类和类似度，在计算的过程中通过循环遍历全部的样本，数组保存截至当前计算点最类似的K个样本相应的类别和类似度。详细实现例如以下：

/**

 * @param value

 * @return

 * @Author:lulei

 * @Description: 获取距离近期的K个分类

 */

private KnnValueSort[] getKType(T value) {

	int k = 0;

	KnnValueSort[] topK = new KnnValueSort[K];

	for (KnnValueBean<T> bean : dataArray) {

		double score = similarScore(bean.getValue(), value);

		if (k == 0) {

			//数组中的记录个数为0是直接加入

			topK[k] = new KnnValueSort(bean.getTypeId(), score);

			k++;

		} else {

			if (!(k == K && score < topK[k -1].getScore())){

				int i = 0;

				//找到要插入的点

				for (; i < k && score < topK[i].getScore(); i++);

				int j = k - 1;

				if (k < K) {

					j = k;

					k++;

				}

				for (; j > i; j--) {

					topK[j] = topK[j - 1];

				}

				topK[i] = new KnnValueSort(bean.getTypeId(), score);

			}

		}

	}

	return topK;

}

七、统计K个样本出现次数最多的类别

这一步就是一个简单的计数，统计K个样本中出现次数最多的分类，该分类就是我们要预測的目标数据的分类。

/**

 * @param value

 * @return

 * @Author:lulei

 * @Description: KNN分类推断value的类别

 */

public String getTypeId(T value) {

	KnnValueSort[] array = getKType(value);

	HashMap<String, Integer> map = new HashMap<String, Integer>(K);

	for (KnnValueSort bean : array) {

		if (bean != null) {

			if (map.containsKey(bean.getTypeId())) {

				map.put(bean.getTypeId(), map.get(bean.getTypeId()) + 1);

			} else {

				map.put(bean.getTypeId(), 1);

			}

		}

	}

	String maxTypeId = null;

	int maxCount = 0;

	Iterator<Entry<String, Integer>> iter = map.entrySet().iterator();

	while (iter.hasNext()) {

		Entry<String, Integer> entry = iter.next();

		if (maxCount < entry.getValue()) {

			maxCount = entry.getValue();

			maxTypeId = entry.getKey();

		}

	}

	return maxTypeId;

}

到如今为止KNN分类的抽象基类已经编写完毕，在測试之前我们先多说几句，KNN分类是统计K个样本中出现次数最多的分类，这样的在有些情况下并非特别合理。比方K=5。前5个样本相应的分类分别为A、A、B、B、B。相应的类似度得分分别为10、9、2、2、1。假设使用上面的方法，那预測的分类就是B。可是看这些数据，预測的分类是A感觉更合理。基于这样的情况，自己对KNN算法提出例如以下优化（这里并不提供代码，仅仅提供简单的思路）：在获取最类似K个样本和类似度后。能够对类似度和出现次数K做一种函数运算。比方加权。得到的函数值最大的分类就是目标的预測分类。

基类源代码

 /**

 *@Description: KNN分类

 */

package com.lulei.datamining.knn;  

import java.util.ArrayList;

import java.util.HashMap;

import java.util.Iterator;

import java.util.List;

import java.util.Map.Entry;

import com.lulei.datamining.knn.bean.KnnValueBean;

import com.lulei.datamining.knn.bean.KnnValueSort;

import com.lulei.util.JsonUtil;

@SuppressWarnings({"rawtypes"})

public abstract class KnnClassification<T> {

	private List<KnnValueBean> dataArray;

	private int K = 3;

	public int getK() {

		return K;

	}

	public void setK(int K) {

		if (K < 1) {

			throw new IllegalArgumentException("K must greater than 0");

		}

		this.K = K;

	}

	/**

	 * @param value

	 * @param typeId

	 * @Author:lulei

	 * @Description: 向模型中加入记录

	 */

	public void addRecord(T value, String typeId) {

		if (dataArray == null) {

			dataArray = new ArrayList<KnnValueBean>();

		}

		dataArray.add(new KnnValueBean<T>(value, typeId));

	}

	/**

	 * @param value

	 * @return

	 * @Author:lulei

	 * @Description: KNN分类推断value的类别

	 */

	public String getTypeId(T value) {

		KnnValueSort[] array = getKType(value);

		System.out.println(JsonUtil.parseJson(array));

		HashMap<String, Integer> map = new HashMap<String, Integer>(K);

		for (KnnValueSort bean : array) {

			if (bean != null) {

				if (map.containsKey(bean.getTypeId())) {

					map.put(bean.getTypeId(), map.get(bean.getTypeId()) + 1);

				} else {

					map.put(bean.getTypeId(), 1);

				}

			}

		}

		String maxTypeId = null;

		int maxCount = 0;

		Iterator<Entry<String, Integer>> iter = map.entrySet().iterator();

		while (iter.hasNext()) {

			Entry<String, Integer> entry = iter.next();

			if (maxCount < entry.getValue()) {

				maxCount = entry.getValue();

				maxTypeId = entry.getKey();

			}

		}

		return maxTypeId;

	}

	/**

	 * @param value

	 * @return

	 * @Author:lulei

	 * @Description: 获取距离近期的K个分类

	 */

	private KnnValueSort[] getKType(T value) {

		int k = 0;

		KnnValueSort[] topK = new KnnValueSort[K];

		for (KnnValueBean<T> bean : dataArray) {

			double score = similarScore(bean.getValue(), value);

			if (k == 0) {

				//数组中的记录个数为0是直接加入

				topK[k] = new KnnValueSort(bean.getTypeId(), score);

				k++;

			} else {

				if (!(k == K && score < topK[k -1].getScore())){

					int i = 0;

					//找到要插入的点

					for (; i < k && score < topK[i].getScore(); i++);

					int j = k - 1;

					if (k < K) {

						j = k;

						k++;

					}

					for (; j > i; j--) {

						topK[j] = topK[j - 1];

					}

					topK[i] = new KnnValueSort(bean.getTypeId(), score);

				}

			}

		}

		return topK;

	}

	/**

	 * @param o1

	 * @param o2

	 * @return

	 * @Author:lulei

	 * @Description: o1 o2之间的类似度

	 */

	public abstract double similarScore(T o1, T o2);

}

详细子类实现

对于上面介绍的都在KNN分类的抽象基类中，对于实际的问题我们须要继承基类并实现基类中的类似度抽象方法，这里我们做一个简单的实现。

 /**

 *@Description:

 */

package com.lulei.datamining.knn.test;  

import com.lulei.datamining.knn.KnnClassification;

import com.lulei.util.JsonUtil;

public class Test extends KnnClassification<Integer>{

	@Override

	public double similarScore(Integer o1, Integer o2) {

		return -1 * Math.abs(o1 - o2);

	}

	/**

	 * @param args

	 * @Author:lulei

	 * @Description:

	 */

	public static void main(String[] args) {

		Test test = new Test();

		for (int i = 1; i < 10; i++) {

			test.addRecord(i, i > 5 ?

"0" : "1");

		}

		System.out.println(JsonUtil.parseJson(test.getTypeId(0)));

	}

}

这里我们一共加入了1、2、3、4、5、6、7、8、9这9组数据，前5组的类别为1，后4组的类别为0。两个数据之间的类似度为两者之间的差值的绝对值的相反数，以下预測0应该属于的分类，这里K的默认值为3，因此近期的K个样本分别为1、2、3。相应的分类分别为"1"、"1"、"1"，由于最后预測的分类为"1"。

-------------------------------------------------------------------------------------------------
小福利
-------------------------------------------------------------------------------------------------
个人在极客学院上《Lucene案例开发》课程已经上线了。欢迎大家吐槽~

JAVA实现KNN分类的更多相关文章

knn分类算法学习
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的 ...
KNN分类算法实现手写数字识别
需求: 利用一个手写数字“先验数据”集,使用knn算法来实现对手写数字的自动识别: 先验数据(训练数据)集: ♦数据维度比较大,样本数比较多. ♦ 数据集包括数字0-9的手写体. ♦每个数字大约有20 ...
KNN分类算法及python代码实现
KNN分类算法(先验数据中就有类别之分,未知的数据会被归类为之前类别中的某一类!) 1.KNN介绍 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法. 机器学习, ...
机器学习---K最近邻(k-Nearest Neighbour，KNN)分类算法
K最近邻(k-Nearest Neighbour,KNN)分类算法 1.K最近邻(k-Nearest Neighbour,KNN) K最近邻(k-Nearest Neighbour,KNN)分类算法, ...
（数据科学学习手札29）KNN分类的原理详解&Python与R实现
一.简介 KNN(k-nearst neighbors,KNN)作为机器学习算法中的一种非常基本的算法,也正是因为其原理简单,被广泛应用于电影/音乐推荐等方面,即有些时候我们很难去建立确切的模型来描述 ...
在Ignite中使用k-最近邻(k-NN)分类算法
在本系列前面的文章中,简单介绍了一下Ignite的线性回归算法,下面会尝试另一个机器学习算法,即k-最近邻(k-NN)分类.该算法基于对象k个最近邻中最常见的类来对对象进行分类,可用于确定类成员的关系 ...
Python机器学习算法 — KNN分类
KNN简介 K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.KNN分类算法属于监督学习. 最简单最初级的分类器是将全部的训练 ...
sklearn学习第一篇：knn分类
K临近分类是一种监督式的分类方法,首先根据已标记的数据对模型进行训练,然后根据模型对新的数据点进行预测,预测新数据点的标签(label),也就是该数据所属的分类. 一,kNN算法的逻辑 kNN算法的核 ...
KNN分类算法
K邻近算法.K最近邻算法.KNN算法(k-Nearest Neighbour algorithm):是数据挖掘分类技术中最简单的方法之一 KNN的工作原理所谓K最近邻,就是k个最近的邻居的意思,说的 ...

随机推荐

iOS指向函数的指针和block
一:block基础知识 block基础知识基本概念:block是用来保存一段代码的:^:是block得标志好比*:是指针的标志特点:1:保存一段代码: 2:可以有参数和返回值: 3:可以作 ...
Python之面向对象：封装
1.封装的概念将对象的数据与操作数据的方法相结合,通过方法将对象的数据与实现细节保护起来,就称为封装.外界只能通过对象的方法访问对象,因此封装同时也实现了对象的数据隐藏. 在使用面向对象的封装特性时 ...
Docker(二)：Docker的用途
Docker的优点: 1.Docker容器的启动可以在秒级实现,相比传统虚拟机方式快的多. 2.Docker资源利用率很高,一台主机上可以同时运行数千个Docker容器. 3.容器除了运行其中应用外, ...
error LNK2001: unresolved external symbol __imp__WSAStartup@8 SOCKET（转）
VC6.0下的错误信息: error LNK2001: unresolved external symbol __imp__socket@12 error LNK2001: unresolved ex ...
win10下怎么配置以KDiff3作为merge tool和diff tool
系统环境: OS: Windows 10 Git 2.6.1.windows.1 KDiff3 0.9.98 (64 bit) 具体代码如下: git config --global --add me ...
Fio IO性能测试
fio-2.1.2-1.el5.rf.x86_64 介绍 fio different types of I/O engines (sync, mmap, libaio, posixaio, SG v3 ...
转载——Java与WCF交互（一)：Java客户端调用WCF服务
最近开始了解WCF,写了个最简单的Helloworld,想通过java客户端实现通信.没想到以我的基础,居然花了整整两天(当然是工作以外的时间,呵呵),整个过程大费周折,特写下此文,以供有需要的朋友参 ...
10.1综合强化刷题 Day7
noip提高组模拟赛 ...
j2ee性能调优之最小化资源压力测试法则
前面看到有人讲j2ee的性能调优,虽然这块不是自己的专长,但是猪养多了,也忍不住跳出来说几句. 虽然几乎每本讲性能调优的书籍开篇都会提,没必要的情况下就不要做调优,但是我个人还是认为,所有系统在上线前 ...
Java泛型构造函数
1.概述我们之前讨论过Java Generics的基础知识.在本文中,我们将了解Java中的通用构造函数. 泛型构造函数是至少需要有一个泛型类型参数的构造函数.我们将看到泛型构造函数并不都是在泛型类 ...

JAVA实现KNN分类

JAVA实现KNN分类的更多相关文章

随机推荐

热门专题