Relief 过滤式特征选择

给定训练集{(x1,y1),(x2,y2).....(xm,ym)} ，对每个示例xi，Relief在xi的同类样本中寻找其最近邻x_i,nh（猜中近邻），再从xi的异类样本中寻找其最近邻x_i,nm(猜错近邻)

代码如下：

#!/usr/bin/env python2

# -*- coding: utf-8 -*-

"""

Created on Wed Feb 28 20:16:09 2018

@author: jzc

"""

import numpy as np

import csv

from random import randrange

from sklearn import preprocessing

#抽样次数

m=8

def Compute_Distance_Discrete(diff_distance):

    # 使用欧几里得距离计算最近邻

    counter = np.power(diff_distance,2)

    counter = np.sum(counter)

    counter = np.sqrt(counter)

    return counter

def loadcsv(filename):

    """载入文件"""

    lines = csv.reader(open(filename,'r'))

    data = list(lines)

    for i in range(1,len(data)):

        data[i] = [float(x) for x in data[i]]

    result = np.array(data[1:])

    features = result[:,1:-1]

    labels = result[:,-1]

    return features,labels

def Relief(features,labels):

    #初始化

    (n_samples,n_features)=np.shape(features)

    distance = np.zeros((n_samples,n_samples))

    weights = np.zeros(n_features)

    nearHit= list()

    nearMiss= list()

    distance_sort=list()

    """寻找每个样本的距离"""

    for i in range(0,n_samples):

        for j in range(0,n_samples):

            diff_distance = features[i]-features[j]

            if i==j:

                distance[i,j]=99999

            else:

                distance[i,j] = Compute_Distance_Discrete(diff_distance)

    for i in range(0,m):

        one_sample = randrange(0,n_samples,1) #随机选择一个样本

        one_feature = features[one_sample]

        for index in range(n_samples):

            distance_sort.append([distance[one_sample,index],index,labels[index]])

        #从小到大排序

        distance_sort.sort(key = lambda x:x[0])

        """寻找样本的猜错近邻和猜中近邻"""

        for index in range(n_samples):

            if nearHit ==[] and distance_sort[index][2]==labels[one_sample]:

                nearHit = features[distance_sort[index][1]]

            elif nearMiss==[] and distance_sort[index][2]!=labels[one_sample]:

                nearMiss = features[distance_sort[index][1]]

            elif nearHit!=[] and nearMiss!=[]:

                break;

            else:

                continue;

        sum_nh = list()

        sum_nm =list()

        # 若属性j离散，Xaj==Xbj 则diff的值为0；否则为1

        for k in range(len(one_feature[:-2])):

            if one_feature[k] != nearHit[k]:

                sum_nh.append(1)

            else:

                sum_nh.append(0)

            if one_feature[k] != nearMiss[k]:

                sum_nm.append(1)

            else:

                sum_nm.append(0)

        #print sum_nh,sum_nm

        #print one_feature[-2:]-nearHit[-2:]

        """若为属性j为连续， diff(Xaj-Xbj)=|Xaj-Xbj| 并且Xaj,Xbj要归一化到[0,1]区间"""

        weights[-2:] = weights[-2:]-np.power(one_feature[-2:]-nearHit[-2:],2)

        +np.power(one_feature[-2:]-nearMiss[-2:],2)

        weights[:-2] = weights[:-2]-np.power(sum_nh,2)+np.power(sum_nm,2)

        #print weights/n_samples

    return weights/n_samples

filename = '/Users/jzc/DeepLearning(7.8-)/data/watermelon3_0.csv'

features,labels = loadcsv(filename)

#features[-2:] = preprocessing.normalize(features[-2:],norm='l2')

#print features

for x in range(1,10):

    result = Relief(features,labels)

    print result

#print features[0],labels[0]

Relief 过滤式特征选择的更多相关文章

特征选择与稀疏学习（Feature Selection and Sparse Learning）
本博客是针对周志华教授所著<机器学习>的"第11章特征选择与稀疏学习"部分内容的学习笔记. 在实际使用机器学习算法的过程中,往往在特征选择这一块是一个比较让人模棱两可 ...
Machine Learning-特征工程之特征选择
特征工程之特征选择目录简介 1 Filter(过滤式选择) 1.1 移除低方差特征(variance threshold) 1.2 信息增益(information gain) 1.3 单变量特征 ...
学习理论之正则化（Regularization）与模型选择
一.引言对于一个学习问题,可以假设很多不同的模型,我们要做的是根据某一标准选出最好的模型.例如,在多项式回归中,对于我们的假设模型,我们最要紧的是决定 k 到底取多少合适,能不能有一种方法可以自动选 ...
【机器学习PAI实践一】搭建心脏病预测案例
一.背景心脏病是人类健康的头号杀手.全世界1/3的人口死亡是因心脏病引起的,而我国,每年有几十万人死于心脏病. 所以,如果可以通过提取人体相关的体侧指标,通过数据挖掘的方式来分析不同特征对于心脏病的 ...
TensorFlow系列专题（二）：机器学习基础
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/ ,学习更多的机器学习.深度学习的知识! 目录: 数据预处理归一化标准化离散化二值化哑编码特征 ...
浅谈关于特征选择算法与Relief的实现
一. 背景 1) 问题在机器学习的实际应用中,特征数量可能较多,其中可能存在不相关的特征,特征之间也可能存在相关性,容易导致如下的后果: 1. 特征个数越多,分析特征.训练模型所需的时间就越 ...
特征选择：卡方检验、F 检验和互信息
特征选择是特征工程中的重要一环,其主要目的是从所有特征中选出相关特征 (relevant feature),或者说在不引起重要信息丢失的前提下去除掉无关特征 (irrelevant feature) ...
挑子学习笔记：特征选择——基于假设检验的Filter方法
转载请标明出处: http://www.cnblogs.com/tiaozistudy/p/hypothesis_testing_based_feature_selection.html Filter ...
用信息值进行特征选择(Information Value)
Posted by c cm on January 3, 2014 特征选择(feature selection)或者变量选择(variable selection)是在建模之前的重要一步.数据接口越 ...

随机推荐

分割nginx日志
#!/bin/bash #此脚本用于自动分割Nginx的日志,包括access.log和error.log #每天00:00执行此脚本将前一天的access.log重命名为access-xxxx-x ...
最新多点Dmalljava校招面经（含整理过的面试题大全）
从6月到10月,经过4个月努力和坚持,自己有幸拿到了网易雷火.京东.去哪儿.多点Dmall等10家互联网公司的校招Offer,因为某些自身原因最终选择了多点Dmall.6.7月主要是做系统复习.项目复 ...
湖南省第十三届大学生计算机程序设计竞赛 Football Training Camp 贪心
2007: Football Training Camp[原创-转载请说明] Submit Page Summary Time Limit: 1 Sec Memory Limit: 1 ...
jquery对div元素进行鼠标移动（稍稍修改下可以实现div跟随鼠标）
/* 网上找了资料都是对于event.clientX和offset().left进行了计算,但是去掉了这个计算方式,直接使用当前坐标也一样,效果都一样不太好 strHeader:标题 jquery定位 ...
GetComponentsInChildren<Transform>(true)
GetComponentsInChildren<Transform>(true);//游戏对象下的子物体激活的没激活的都会被拿到,包括游戏对象本身GetComponentsInChildr ...
[转帖]OLTP、OLAP与HTAP
OLTP.OLAP与HTAP https://blog.csdn.net/ZG_24/article/details/87854982 OLTP On-Line Transaction Proce ...
手撕面试官系列（八）：分布式通讯ActiveMQ+RabbitMQ+Kafka面试专题
ActiveMQ专题 (面试题+答案领取方式见主页) 什么是 ActiveMQ? ActiveMQ 服务器宕机怎么办? 丢消息怎么办? 持久化消息非常慢. 消息的不均匀消费. 死信队列. Active ...
【C语言】 strlen()入参空指针导致段错误
背景: 在工作中调试sqlite3相关代码的时候,调用printf()打印sqlite3_exec()的执行日志:因为sqlite3_exec()保存日志的参数传入时为NULL,且没有执行错误,所以再 ...
git第一次上传push失败解决
第一次上传有可能会遇到push失败的情况,那是因为跟SVN一样,github上有一个README.md 文件没有下载下来 .我们得先 git pull --rebase origin master ...
python 之面向对象（反射、__str__、__del__）
7.10 反射下述四个函数是专门用来操作类与对象属性的.通过字符串来操作类与对象的属性,这种操作称为反射 class People: country="China" def __ ...

Relief 过滤式特征选择

Relief 过滤式特征选择的更多相关文章

随机推荐

热门专题