Machine Learning-特征工程之特征选择

【Machine Learning-特征工程之特征选择】的更多相关文章

Machine Learning-特征工程之特征选择

特征工程之特征选择目录简介 1 Filter(过滤式选择) 1.1 移除低方差特征(variance threshold) 1.2 信息增益(information gain) 1.3 单变量特征选择 (Univariate feature selection) 1.3.1 卡方检验 (chi-square test) 1.3.2 Pearson 相关系数 (Pearson Correlation) 1.3.3 费雪分数(fisher score) 1.4 Relief(Relevant F…

【机器学习Machine Learning】资料大全

昨天总结了深度学习的资料,今天把机器学习的资料也总结一下(友情提示:有些网站需要"科学上网"^_^) 推荐几本好书: 1.Pattern Recognition and Machine Learning (by Hastie, Tibshirani, and Friedman's ) 2.Elements of Statistical Learning(by Bishop's) 这两本是英文的,但是非常全,第一本需要有一定的数学基础,第可以先看第二本.如果看英文觉得吃力,推荐看一下下面…

机器学习(Machine Learning)&深度学习(Deep Learning)资料【转】

转自:机器学习(Machine Learning)&深度学习(Deep Learning)资料 <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <Deep Learning in Neural Networks: An Overview> 介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写的最…

【Machine Learning】机器学习の特征

绘制了一张导图,有不对的地方欢迎指正: 下载地址机器学习中,特征是很关键的.其中包括,特征的提取和特征的选择.他们是降维的两种方法,但又有所不同: 特征抽取(Feature Extraction):Creatting a subset of new features by combinations of the exsiting features.也就是说,特征抽取后的新特征是原来特征的一个映射. 特征选择(Feature Selection):choosing a subset of all…

Extreme Learning Machine(ELM)的工程哲学

Extreme Learning Machine(ELM)的工程哲学 David_Wang2015 发布于2015年5月6日 11:29 工程问题往往需要的是一定精度范围内的结果,而不是“真正的”结果.得到问题解的一般方式是迭代求解,而ELM的求解方式是利用随机数和大数定律求解,这种方法论在20世纪40年代蒙特卡洛求积分(用于曼哈顿计划).80年代的模拟退火(求解复杂优化问题).90年代的Turbo码(首次使信道编码达到香农极限).21世纪初的压缩感知.鲁邦主成分分析都有体现.注意,不是简单地使…

机器学习实战基础（十八）：sklearn中的数据预处理和特征工程（十一）特征选择之 Wrapper包装法

Wrapper包装法包装法也是一个特征选择和算法训练同时进行的方法,与嵌入法十分相似,它也是依赖于算法自身的选择,比如coef_属性或feature_importances_属性来完成特征选择.但不同的是,我们往往使用一个目标函数作为黑盒来帮助我们选取特征,而不是自己输入某个评估指标或统计量的阈值.包装法在初始特征集上训练评估器,并且通过coef_属性或通过feature_importances_属性获得每个特征的重要性.然后,从当前的一组特征中修剪最不重要的特征.在修剪的集合上递归地重复该过…

机器学习实战基础（十七）：sklearn中的数据预处理和特征工程（十）特征选择之 Embedded嵌入法

Embedded嵌入法嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行.在使用嵌入法时,我们先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从大到小选择特征. 这些权值系数往往代表了特征对于模型的某种贡献或某种重要性,比如决策树和树的集成模型中的feature_importances_属性,可以列出各个特征对树的建立的贡献,我们就可以基于这种贡献的评估,找出对模型建立最有用的特征. 因此相比于过滤法,嵌入法的结果会更加精确到模型的效用本身,…

机器学习实战基础（十五）：sklearn中的数据预处理和特征工程（八）特征选择之 Filter过滤法（二）相关性过滤

相关性过滤方差挑选完毕之后,我们就要考虑下一个问题:相关性了. 我们希望选出与标签相关且有意义的特征,因为这样的特征能够为我们提供大量信息.如果特征与标签无关,那只会白白浪费我们的计算内存,可能还会给模型带来噪音.在sklearn当中,我们有三种常用的方法来评判特征与标签之间的相关性:卡方,F检验,互信息. 3 卡方过滤卡方过滤是专门针对离散型标签(即分类问题)的相关性过滤.卡方检验类feature_selection.chi2计算每个非负特征和标签之间的卡方统计量,并依照卡方统计量由高到低…

机器学习实战基础（十四）：sklearn中的数据预处理和特征工程（七）特征选择之 Filter过滤法（一）方差过滤

Filter过滤法过滤方法通常用作预处理步骤,特征选择完全独立于任何机器学习算法.它是根据各种统计检验中的分数以及相关性的各项指标来选择特征 1 方差过滤 1.1 VarianceThreshold 这是通过特征本身的方差来筛选特征的类.比如一个特征本身的方差很小,就表示样本在这个特征上基本没有差异,可能特征中的大多数值都一样,甚至整个特征的取值都相同,那这个特征对于样本区分没有什么作用.所以无论接下来的特征工程要做什么,都要优先消除方差为0的特征.VarianceThreshold有重要参数…

机器学习实战基础（十三）：sklearn中的数据预处理和特征工程（六）特征选择 feature_selection 简介

当数据预处理完成后,我们就要开始进行特征工程了. 在做特征选择之前,有三件非常重要的事:跟数据提供者开会!跟数据提供者开会!跟数据提供者开会!一定要抓住给你提供数据的人,尤其是理解业务和数据含义的人,跟他们聊一段时间.技术能够让模型起飞,前提是你和业务人员一样理解数据.所以特征选择的第一步,其实是根据我们的目标,用业务常识来选择特征.来看完整版泰坦尼克号数据中的这些特征其中是否存活是我们的标签.很明显,以判断“是否存活”为目的,票号,登船的舱门,乘客编号明显是无关特征,可以直接删除.姓名,舱位…