knn算法的c语言实现

　　最近研究KNN，找到了一些优秀的源码，贴出来，做个笔记吧。

 #include<stdio.h>

 #include<stdlib.h>

 #include<math.h>

 #include<time.h>

 typedef struct{//数据维度

     double x;

     double y;

 }data_struct;

 typedef struct kd_node{

     data_struct split_data;//数据结点

     int split;//分裂维

     struct kd_node *left;//由位于该结点分割超面左子空间内所有数据点构成的kd-tree

     struct kd_node *right;//由位于该结点分割超面右子空间内所有数据点构成的kd-tree

 }kd_struct;

 //用于排序

 int cmp1( const void *a , const void *b )

 {

     return (*(data_struct *)a).x > (*(data_struct *)b).x ? :-;

 }

 //用于排序

 int cmp2( const void *a , const void *b )

 {

     return (*(data_struct *)a).y > (*(data_struct *)b).y ? :-;

 }

 //计算分裂维和分裂结点

 void choose_split(data_struct data_set[],int size,int dimension,int *split,data_struct *split_data)

 {

     int i;

     data_struct *data_temp;

     data_temp=(data_struct *)malloc(size*sizeof(data_struct));

     for(i=;i<size;i++)

         data_temp[i]=data_set[i];

     static int count=;//设为静态

     *split=(count++)%dimension;//分裂维

     if((*split)==) qsort(data_temp,size,sizeof(data_temp[]),cmp1);

     else qsort(data_temp,size,sizeof(data_temp[]),cmp2);

     *split_data=data_temp[(size-)/];//分裂结点排在中位

 }

 //判断两个数据点是否相等

 int equal(data_struct a,data_struct b){

     if(a.x==b.x && a.y==b.y)    return ;

     else    return ;

 }

 //建立KD树

 kd_struct *build_kdtree(data_struct data_set[],int size,int dimension,kd_struct *T)

 {

     if(size==) return NULL;//递归出口

     else{

         int sizeleft=,sizeright=;

         int i,split;

         data_struct split_data;

         choose_split(data_set,size,dimension,&split,&split_data);

         data_struct data_right[size];

         data_struct data_left[size];

         if (split==){//x维

             for(i=;i<size;++i){

                 if(!equal(data_set[i],split_data) && data_set[i].x <= split_data.x){//比分裂结点小

                     data_left[sizeleft].x=data_set[i].x;

                     data_left[sizeleft].y=data_set[i].y;

                     sizeleft++;//位于分裂结点的左子空间的结点数

                 }

                 else if(!equal(data_set[i],split_data) && data_set[i].x > split_data.x){//比分裂结点大

                     data_right[sizeright].x=data_set[i].x;

                     data_right[sizeright].y=data_set[i].y;

                     sizeright++;//位于分裂结点的右子空间的结点数

                 }

             }

         }

         else{//y维

             for(i=;i<size;++i){

                 if(!equal(data_set[i],split_data) && data_set[i].y <= split_data.y){

                     data_left[sizeleft].x=data_set[i].x;

                     data_left[sizeleft].y=data_set[i].y;

                     sizeleft++;

                 }

                 else if (!equal(data_set[i],split_data) && data_set[i].y > split_data.y){

                     data_right[sizeright].x = data_set[i].x;

                     data_right[sizeright].y = data_set[i].y;

                     sizeright++;

                 }

             }

         }

         T=(kd_struct *)malloc(sizeof(kd_struct));

         T->split_data.x=split_data.x;

         T->split_data.y=split_data.y;

         T->split=split;

         T->left=build_kdtree(data_left,sizeleft,dimension,T->left);//左子空间

         T->right=build_kdtree(data_right,sizeright,dimension,T->right);//右子空间

         return T;//返回指针

     }

 }

 //计算欧氏距离

 double compute_distance(data_struct a,data_struct b){

     double tmp=pow(a.x-b.x,2.0)+pow(a.y-b.y,2.0);

     return sqrt(tmp);

 }

 //搜索1近邻

 void search_nearest(kd_struct *T,int size,data_struct test,data_struct *nearest_point,double *distance)

 {

     int path_size;//搜索路径内的指针数目

     kd_struct *search_path[size];//搜索路径保存各结点的指针

     kd_struct* psearch=T;

     data_struct nearest;//最近邻的结点

     double dist;//查询结点与最近邻结点的距离

     search_path[]=psearch;//初始化搜索路径

     path_size=;

     while(psearch->left!=NULL || psearch->right!=NULL){

         if (psearch->split==){

             if(test.x <= psearch->split_data.x)//如果小于就进入左子树

                 psearch=psearch->left;

             else

                 psearch=psearch->right;

         }

         else{

             if(test.y <= psearch->split_data.y)//如果小于就进入右子树

                 psearch=psearch->left;

             else

                 psearch=psearch->right;

         }

         search_path[path_size++]=psearch;//将经过的分裂结点保存在搜索路径中

     }

     //取出search_path最后一个元素，即叶子结点赋给nearest

     nearest.x=search_path[path_size-]->split_data.x;

     nearest.y=search_path[path_size-]->split_data.y;

     path_size--;//search_path的指针数减一

     dist=compute_distance(nearest,test);//计算与该叶子结点的距离作为初始距离

     //回溯搜索路径

     kd_struct* pback;

     while(path_size!=){

         pback=search_path[path_size-];//取出search_path最后一个结点赋给pback

         path_size--;//search_path的指针数减一

         if(pback->left==NULL && pback->right==NULL){//如果pback为叶子结点

             if(dist>compute_distance(pback->split_data,test)){

                 nearest=pback->split_data;

                 dist=compute_distance(pback->split_data,test);

             }

         }

         else{//如果pback为分裂结点

             int s=pback->split;

             if(s==){//x维

                 if(fabs(pback->split_data.x-test.x)<dist){//若以查询点为中心的圆(球或超球)，半径为dist的圆与分割超平面相交，那么就要跳到另一边的子空间去搜索

                     if(dist>compute_distance(pback->split_data,test)){

                         nearest=pback->split_data;

                         dist=compute_distance(pback->split_data, test);

                     }

                     if(test.x<=pback->split_data.x)//若查询点位于pback的左子空间，那么就要跳到右子空间去搜索

                         psearch=pback->right;

                     else

                         psearch=pback->left;//若以查询点位于pback的右子空间，那么就要跳到左子空间去搜索

                     if(psearch!=NULL)

                         search_path[path_size++]=psearch;//psearch加入到search_path中

                 }

             }

             else {//y维

                 if(fabs(pback->split_data.y-test.y)<dist){//若以查询点为中心的圆(球或超球)，半径为dist的圆与分割超平面相交，那么就要跳到另一边的子空间去搜索

                     if(dist>compute_distance(pback->split_data,test)){

                         nearest=pback->split_data;

                         dist=compute_distance(pback->split_data,test);

                     }

                     if(test.y<=pback->split_data.y)//若查询点位于pback的左子空间，那么就要跳到右子空间去搜索

                         psearch=pback->right;

                     else

                         psearch=pback->left;//若查询点位于pback的的右子空间，那么就要跳到左子空间去搜索

                     if(psearch!=NULL)

                         search_path[path_size++]=psearch;//psearch加入到search_path中

                 }

             }

         }

     }

     (*nearest_point).x=nearest.x;//最近邻

     (*nearest_point).y=nearest.y;

     *distance=dist;//距离

 }

 int main()

 {

     int n=;//数据个数

     data_struct nearest_point;

     double distance;

     kd_struct *root=NULL;

     data_struct data_set[]={{,},{,},{,},{,},{,},{,}};//数据集

     data_struct test={7.1,2.1};//查询点

     root=build_kdtree(data_set,n,,root);

     search_nearest(root,n,test,&nearest_point,&distance);

     printf("nearest neighbor:(%.2f,%.2f)\ndistance:%.2f \n",nearest_point.x,nearest_point.y,distance);

     return ;

 }

 /*                    x          5,4

                                 /    \

                       y       2,3    7.2

                                 \    /  \

                       x        4,7  8.1 9.6

 */

　看了一些做这方面的文章，把写的不错的几个也收录了。

　　https://www.joinquant.com/post/2627?f=study&m=math

https://www.joinquant.com/post/2843?f=study&m=math

http://blog.csdn.net/zhl30041839/article/details/9277807

knn算法的c语言实现的更多相关文章

KNN算法的R语言实现
近邻分类简言之,就是将未标记的案例归类为与它们最近相似的.带有标记的案例所在的类. 应用领域: 1.计算机视觉:包含字符和面部识别等 2.推荐系统:推荐受众喜欢电影.美食和娱乐等 3.基因工程:识别 ...
kd树和knn算法的c语言实现
基于kd树的knn的实现原理可以参考文末的链接,都是一些好文章. 这里参考了别人的代码.用c语言写的包括kd树的构建与查找k近邻的程序. code: #include<stdio.h> # ...
数据分析与挖掘 - R语言：KNN算法
一个简单的例子!环境:CentOS6.5Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. KNN算法步骤:需对所有样本点(已知分类+未知分类)进行归一化处理.然后,对未知分 ...
MLlearning（1）——kNN算法
这篇文章讲kNN(k近邻,k-Nearest Neighbour).这是一种lazy-learning,实现方便,很常用的分类方法.约定n为样本集中的样本数,m为样本的维度,则这个算法的训练复杂度为0 ...
KNN算法 - 数据挖掘算法（3）
(2017-04-10 银河统计) KNN算法即K Nearest Neighbor算法.这个算法是机器学习里面一个比较经典的.相对比较容易理解的算法.其中的K表示最接近自己的K个数据样本.KNN算法 ...
【机器学习】机器学习入门01 - kNN算法
0. 写在前面近日加入了一个机器学习的学习小组,每周按照学习计划学习一个机器学习的小专题.笔者恰好近来计划深入学习Python,刚刚熟悉了其基本的语法知识(主要是与C系语言的差别),决定以此作为对P ...
【Machine Learning】KNN算法虹膜图片识别
K-近邻算法虹膜图片识别实战作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
KNN算法
1.算法讲解 KNN算法是一个最基本.最简单的有监督算法,基本思路就是给定一个样本,先通过距离计算,得到这个样本最近的topK个样本,然后根据这topK个样本的标签,投票决定给定样本的标签: 训练过程 ...
kNN算法python实现和简单数字识别
kNN算法算法优缺点: 优点:精度高.对异常值不敏感.无输入数据假定缺点:时间复杂度和空间复杂度都很高适用数据范围:数值型和标称型算法的思路: KNN算法(全称K最近邻算法),算法的思想很简单 ...

随机推荐

微信小程序云端解决方案探索之路 - GITC 主题演讲
转自:https://github.com/tencentyun/blog/issues/1 在刚结束的全球互联网技术大会(GITC)里面,我在前端专场给大家分享了「微信小程序云端解决方案探索之路」, ...
nginx做yum源
我这边环境是原先有个nginx只是做了代理转发,现在需要在通过nginx做yum源方便后期安装源 1.原先的配置代理转发,为不影响原先配置及端口,在http中最末尾加“include include ...
Robot Framework+python的安装，配置，环境搭建（纯白篇）
弄了大半天终于把-Robot Framework-弄好了,总是一个发现问题,一个一个去解决的过程,只是时间嘛,咳咳咳咳言归正传第一. 记住了 Robot Framework 的库只支持 pyt ...
openTSDB （rpm）安装 + Grafana 视图
1.提前安装环境操作系统:CentOS OpenTSDB版本:2.0.1 JDK版本:1.8.1_101 Apache HBase版本:1.1.2 2.安装Grafana yum安装grafana ...
vim编辑器中没有高亮显示，退格键不能使用的问题
在~/.vimrc下添加如下内容,立即生效
Python Day 7
阅读目录内容回顾: 数据类型相互转换: 字符编码: ##内容回顾 #1.深浅拷贝 ls = [1, 'a', [10]] 值拷贝:直接赋值 ls1 = ls, ls中的任何值发生改变,ls1中的值都 ...
C++动态库的几点认识
1.动态库也有lib文件,称为导入库,一般大小只有几k: 2.动态库有静态调用和动态调用两种方式: 静态调用:使用.h和.lib文件动态调用: 先LoadLibrary,再GetProcAddres ...
gulp打包工具
首先安装全局gulp $ npm install --global gulp 下载成功后新建一个项目或者一个文件夹(做测试) mkdir testgulp 在该文件或者项目下下载gulp工具 $ n ...
Goldwave-5.7[逆向流程+算法分析]
目标程序:Goldwave 5.7 分析工具: 1.OllyDbg 2.IDAPro 目的:用C语言写Goldwave-5.7的注册机. 0x0思路: 1.注册机准备: 功能:输入用户名后经过计算输出 ...
第44章：MongoDB-集群--Sharding(分片)--分片的片键选择
①片键选择的重要性所谓片键,就是用来拆分数据的字段,通常为1-2个字段,由于片键一旦确定,并已经分片过后,基本上就不可能再修改片键了,因此初期设计和选择就非常重要了 ②片键规则 1:不可以是数组 2 ...

knn算法的c语言实现

knn算法的c语言实现的更多相关文章

随机推荐

热门专题