在十大经典数据挖掘算法中,KNN算法算得上是最为简单的一种。该算法是一种惰性学习法(lazy learner),与决策树、朴素贝叶斯这些急切学习法(eager learner)有所区别。惰性学习法仅仅只是简单地存储训练元组,做一些少量工作,在真正进行分类或预测的时候才开始做更多的工作。有点像是平时不努力学习功课,到了考前才开始临时抱佛脚的感觉。

KNN(k-nearest-neighbor)算法的思想是找到在输入新数据时,找到与该数据最接近的k个邻居,在这k个邻居中,找到出现次数最多的类别,对其进行归类。

距离的计算有很多种方式,最简单的就是直接计算欧式距离,但是根据不同的问题,也可以考虑选用不同的距离计算方式,如余弦距离等等。

详细内容参考:https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

C#的代码实现如下,代码仅供演示,运行效率不高,在大数据集上需要进行更多的优化:

  1. using System;
  2. using System.Collections.Generic;
  3. using System.Linq;
  4. using MachineLearning.UtilityFunctions;
  5. namespace MachineLearning.Classification
  6. {
  7. public class KNN
  8. {
  9. public List<int> Labels;
  10. public List<double[]> Features;
  11. public int K;
  12. public KNN(int k, List<int> labels, List<double[]> features)
  13. {
  14. K = k;
  15. Labels = labels;
  16. Features = features;
  17. }
  18. public void Classify(IEnumerable<double[]> data)
  19. {
  20. int n = Labels.Count;
  21. foreach (var line in data)
  22. {
  23. var dist = new Tuple<int, double>[n];
  24. for (int i = ; i < n; i++)
  25. dist[i] = Tuple.Create(Labels[i], Distance.Euclidean(line, Features[i]));
  26. var maxLabel = dist
  27. .OrderBy(i => i.Item2)
  28. .Take(K).GroupBy(i => i.Item1)
  29. .OrderByDescending(i => i.Count())
  30. .First().Key;
  31. Labels.Add(maxLabel);
  32. Features.Add(line);
  33. n++;
  34. }
  35. }
  36. public void Display()
  37. {
  38. for (int i = ; i < Labels.Count; i++)
  39. Console.WriteLine("{0}: {1}", Labels[i], string.Join(",", Features[i]));
  40. }
  41. }
  42. }

以电影数据为例:

电影 打斗镜头 接吻镜头 电影类型
1 3 104 爱情片
2 2 100 爱情片
3 1 81 爱情片
4 101 10 动作片
5 99 5 动作片
6 98 2 动作片
7 18 90 未知

该数据有两个维度,一个是打斗镜头的次数,另一个是接吻镜头的次数,我们需要根据前6条数据来给第7部电影进行分类,判断它是爱情片还是动作片。利用KNN算法进行分类的代码如下:

  1. using System;
  2. using System.Collections.Generic;
  3. using System.Linq;
  4. using System.Text;
  5. using System.Threading.Tasks;
  6. using MachineLearning.Classification;
  7. namespace MachineLearning
  8. {
  9. class Program
  10. {
  11. static void Main(string[] args)
  12. {
  13. var data = new List<double[]>() {
  14. new double[] {,},
  15. new double[] {,},
  16. new double[] {,},
  17. new double[] {,},
  18. new double[] {,},
  19. new double[] {,},
  20. };
  21. var labels = new List<int>()
  22. {
  23. ,,,,,
  24. };
  25. var knn = new KNN(k: , labels: labels, features: data);
  26. knn.Display();
  27. Console.WriteLine("----------------------------------------");
  28. knn.Classify(new double[][] { new double[] { , } });
  29. knn.Display();
  30. Console.ReadKey();
  31. }
  32. }
  33. }

其中类别0代表爱情片,类别1代表动作片。

运行结果如图所示:

可以看到,KNN分类器将第7部电影正确地归为了爱情片。

注:作者本人也在学习中,能力有限,如有错漏还请不吝指正。转载请注明作者。

数据挖掘之KNN算法(C#实现)的更多相关文章

  1. 数据挖掘(二)——Knn算法的java实现

    1.K-近邻算法(Knn) 其原理为在一个样本空间中,有一些已知分类的样本,当出现一个未知分类的样本,则根据距离这个未知样本最近的k个样本来决定. 举例:爱情电影和动作电影,它们中都存在吻戏和动作,出 ...

  2. KNN算法 - 数据挖掘算法(3)

    (2017-04-10 银河统计) KNN算法即K Nearest Neighbor算法.这个算法是机器学习里面一个比较经典的.相对比较容易理解的算法.其中的K表示最接近自己的K个数据样本.KNN算法 ...

  3. 数据挖掘之分类算法---knn算法(有matlab例子)

    knn算法(k-Nearest Neighbor algorithm).是一种经典的分类算法.注意,不是聚类算法.所以这种分类算法 必然包括了训练过程. 然而和一般性的分类算法不同,knn算法是一种懒 ...

  4. 数据挖掘之分类算法---knn算法(有matlab样例)

    knn算法(k-Nearest Neighbor algorithm).是一种经典的分类算法. 注意,不是聚类算法.所以这样的分类算法必定包含了训练过程. 然而和一般性的分类算法不同,knn算法是一种 ...

  5. 【Machine Learning】KNN算法虹膜图片识别

    K-近邻算法虹膜图片识别实战 作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...

  6. Kmeans算法与KNN算法的区别

    最近研究数据挖掘的相关知识,总是搞混一些算法之间的关联,俗话说好记性不如烂笔头,还是记下了以备不时之需. 首先明确一点KNN与Kmeans的算法的区别: 1.KNN算法是分类算法,分类算法肯定是需要有 ...

  7. KNN算法介绍

    KNN算法全名为k-Nearest Neighbor,就是K最近邻的意思. 算法描述 KNN是一种分类算法,其基本思想是采用测量不同特征值之间的距离方法进行分类. 算法过程如下: 1.准备样本数据集( ...

  8. KNN算法--python实现

    邻近算法 或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一.所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代 ...

  9. knn算法详解

    邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一.所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代 ...

随机推荐

  1. 纠结attr(),prop()

    刚刚看博客无意中看到attr()和prop()的区别,回头就去翻了一下手册,感觉手册上写的过于简单,不能很清晰的分辨出两者的区别,两者的参数用法都是高度相似. attr():设置或返回被选元素的属性值 ...

  2. 如何用js定义数组,用js来拼接json字段

    定义js数组的方式有: var arr = (); var arr = []; var arr = new Array(); 如何拼接成一个json字段. <!DOCTYPE HTML PUBL ...

  3. win32记事本程序(一)

    我不会取标题,大体上我想用win32,模仿windows的记事本,写个记事本程序,最后让我的程序和微软的程序在外观和功能上都差不多.这样一来我可以学到一些新知识,巩固旧的知识. 一.首先做个菜单栏吧. ...

  4. windbg symbol path

    SRV*c:\symbols*http://msdl.microsoft.com/download/symbols;srv* DRIVER_POWER_STATE_FAILURE (9f)A driv ...

  5. Flume NG安装部署及数据采集测试

    转载请注明出处:http://www.cnblogs.com/xiaodf/ Flume作为日志收集工具,监控一个文件目录或者一个文件,当有新数据加入时,采集新数据发送给消息队列等. 1 安装部署Fl ...

  6. Loadrunner进行接口自动化测试

    我们以测试豆瓣api获取图书信息的接口为例 接口的信息如下: 接口ip:https://api.douban.com/v2/book/:id 接口返回值:status=200 返回数据: { - (图 ...

  7. JDBC中连接MySQL数据库

    package qddx.JDBC; import java.sql.*; public class JDBC_Connection { static String driverName = &quo ...

  8. iOS设计模式和机制之观察者模式

    观察者模式定义了一种一对多的依赖关系,让多个观察者对象同时监听某一个主题对象.这个主题对象在状态上发生变化时,会通知所有观察者对象,使它们能够自动更新自己. 观察者模式的思想:当某对象改变时,观察者会 ...

  9. jQuery的选择器中的通配符使用介绍

    $("input[id^='data']");//id属性以data开始的所有input标签 $("input[id$='data']");//id属性以dat ...

  10. 谈事件冒泡(Bubble)和事件捕捉(capture)

    事件的发生顺序 假设在一个元素中又嵌套了另一个元素并且两者都有一个onClick事件处理函数(event handler).如果用户单击元素2,则元素1和元素2的单击事件都会被触发.但是哪一个事件先被 ...