机器学习实战基础（十三）：sklearn中的数据预处理和特征工程（六）特征选择 feature

当数据预处理完成后，我们就要开始进行特征工程了。

在做特征选择之前，有三件非常重要的事：跟数据提供者开会！跟数据提供者开会！跟数据提供者开会！
一定要抓住给你提供数据的人，尤其是理解业务和数据含义的人，跟他们聊一段时间。技术能够让模型起飞，前提是你和业务人员一样理解数据。
所以特征选择的第一步，其实是根据我们的目标，用业务常识来选择特征。来看完整版泰坦尼克号数据中的这些特征

其中是否存活是我们的标签。很明显，以判断“是否存活”为目的，票号，登船的舱门，乘客编号明显是无关特征，可以直接删除。姓名，舱位等级，船舱编号，也基本可以判断是相关性比较低的特征。
性别，年龄，船上的亲人数量，这些应该是相关性比较高的特征。
所以，特征工程的第一步是：理解业务。
当然了，在真正的数据应用领域，比如金融，医疗，电商，我们的数据不可能像泰坦尼克号数据的特征这样少，这样明显，那如果遇见极端情况，我们无法依赖对业务的理解来选择特征，该怎么办呢？我们有四种方法可以用来选择特征：过滤法，嵌入法，包装法，和降维算法。

#导入数据，让我们使用digit recognizor数据来一展身手

import pandas as pd

data = pd.read_csv(r"C:\work\learnbetter\micro-class\week 3 Preprocessing\digit

recognizor.csv")

X = data.iloc[:,1:]

y = data.iloc[:,0]

X.shape

"""

这个数据量相对夸张，如果使用支持向量机和神经网络，很可能会直接跑不出来。使用KNN跑一次大概需要半个小时。

用这个数据举例，能更够体现特征工程的重要性。

"""

机器学习实战基础（十三）：sklearn中的数据预处理和特征工程（六）特征选择 feature_selection 简介的更多相关文章

机器学习实战基础（八）：sklearn中的数据预处理和特征工程（一）简介
1 简介数据挖掘的五大流程: 1. 获取数据 2. 数据预处理数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程可能面对的问题有:数据类型不同,比如有的是文字,有的是数字 ...
sklearn中的数据预处理和特征工程
小伙伴们大家好~o(￣▽￣)ブ,沉寂了这么久我又出来啦,这次先不翻译优质的文章了,这次我们回到Python中的机器学习,看一下Sklearn中的数据预处理和特征工程,老规矩还是先强调一下我的开发环境是 ...
机器学习实战基础（十八）：sklearn中的数据预处理和特征工程（十一）特征选择之 Wrapper包装法
Wrapper包装法包装法也是一个特征选择和算法训练同时进行的方法,与嵌入法十分相似,它也是依赖于算法自身的选择,比如coef_属性或feature_importances_属性来完成特征选择.但不 ...
机器学习实战基础（十七）：sklearn中的数据预处理和特征工程（十）特征选择之 Embedded嵌入法
Embedded嵌入法嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行.在使用嵌入法时,我们先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从大 ...
机器学习实战基础（十四）：sklearn中的数据预处理和特征工程（七）特征选择之 Filter过滤法（一）方差过滤
Filter过滤法过滤方法通常用作预处理步骤,特征选择完全独立于任何机器学习算法.它是根据各种统计检验中的分数以及相关性的各项指标来选择特征 1 方差过滤 1.1 VarianceThreshold ...
机器学习实战基础（十一）：sklearn中的数据预处理和特征工程（四）数据预处理 Preprocessing & Impute 之处理分类特征：编码与哑变量
处理分类特征:编码与哑变量在机器学习中,大多数算法,譬如逻辑回归,支持向量机SVM,k近邻算法等都只能够处理数值型数据,不能处理文字,在sklearn当中,除了专用来处理文字的算法,其他算法在ﬁt的 ...
机器学习实战基础（十）：sklearn中的数据预处理和特征工程（三）数据预处理 Preprocessing & Impute 之缺失值
缺失值机器学习和数据挖掘中所使用的数据,永远不可能是完美的.很多特征,对于分析和建模来说意义非凡,但对于实际收集数据的人却不是如此,因此数据挖掘之中,常常会有重要的字段缺失值很多,但又不能舍弃字段的 ...
机器学习实战基础（九）：sklearn中的数据预处理和特征工程（二）数据预处理 Preprocessing & Impute 之数据无量纲化
1 数据无量纲化在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“无量纲化”.譬如梯度和矩阵为核心的算法中,譬如逻辑回 ...
机器学习实战基础（十五）：sklearn中的数据预处理和特征工程（八）特征选择之 Filter过滤法（二）相关性过滤
相关性过滤方差挑选完毕之后,我们就要考虑下一个问题:相关性了. 我们希望选出与标签相关且有意义的特征,因为这样的特征能够为我们提供大量信息.如果特征与标签无关,那只会白白浪费我们的计算内存,可能还会 ...

随机推荐

网页元素居中的n种方法
导语:元素居中对齐在很多场景看上去很和谐很漂亮.除此之外,对于前端开发面试者的基础也是很好的一个考察点.下面跟着作者的思路,一起来看下吧. 场景分析一个元素,它有可能有背景,那我要它的背景居中对齐 ...
BUAA_OO_2020_Unit2_总结博客
BUAA_OO_2020_Unit2_总结 2020年春季学期第八周,OO第二单元落下帷幕,三次多线程任务作罢,萌新在OO的世界里又迈出了艰难但有意义的一步,下作总结: 一.三次作业设计策略回顾三次 ...
科学计算：Python 分析数据找问题，并图形化
对于记录的数据,如何用 Python 进行分析.或图形化呢? 本文将介绍 numpy, matplotlib, pandas, scipy 几个包,进行数据分析.与图形化. 准备环境 Python 环 ...
go 项目目录结构
网上有很多误人子弟的教程, 说项目下必须要有src, 傻逼玩意. 正确的路径应该是这样的: 所有go项目路径 src 项目1 项目2 项目N pkg bin 不是所有项目下必须建src, pk ...
从零开始手把手教你使用原生JS+CSS3实现幸运水果机游戏
项目体验地址免费视频教程游戏介绍幸运水果机是一款街机游戏,游戏界面由24个方格拼接成一个正方形,每个方格中都有一个不同的水果图形,方格下都有一个小灯.玩家使用游戏币选择希望押注的目标,按下开始后 ...
8、struct2解决中文乱码的方式
首先建立一个jsp页面列如页面编码统一问题,这个最容易解决. <%@ page language="java" import="java.util.*" ...
弹性配置为构建提速 - CODING & 腾讯云 CVM 最佳实践
CODING 中提供了内置云主机用来执行持续集成(CI)中的构建计划,能够胜任大部分构建任务.但如果碰上了大型项目的构建,或者需要在本地服务器生成构建成果,单个计算资源就显得有点捉急了.针对这一部分需 ...
基于Docker Compose的.NET Core微服务持续发布
是不是现在每个团队都需要上K8s才够潮流,不用K8s是不是就落伍了.今天,我就通过这篇文章来回答一下. 一.先给出我的看法和建议我想说的是,对于很多的微小团队来说,可能都不是一定要上K8s,毕竟上K ...
bugku社工writeup
最近bugku的web和杂项刷了多半,突然心血来潮想试试社工题,bugku的社工题比较基础,而且题量不多,和大家分享一下writeup. 1.密码根据提示,多猜几次密码就对了,然后得到flag. 2 ...
SpringBoot--数据库管理与迁移（LiquiBase）
随着开发时间积累,一个项目会越来越大,同时表结构也越来越多,管理起来比较复杂,特别是当想要把一个答的项目拆分成多个小项目时,表结构拆分会耗很大的精力:如果使用LiquiBase对数据库进行管理,那么就 ...

机器学习实战基础（十三）：sklearn中的数据预处理和特征工程（六）特征选择 feature_selection 简介

机器学习实战基础（十三）：sklearn中的数据预处理和特征工程（六）特征选择 feature_selection 简介的更多相关文章

随机推荐

热门专题