python数据预处理和特性选择后列的映射

我们在用python进行机器学习建模时，首先需要对数据进行预处理然后进行特征工程，在这些过程中，数据的格式可能会发生变化，前几天我遇到过的问题就是：

对数据进行标准化、归一化、方差过滤的时候数据都从DataFrame格式变为了array格式。

这样数据的列名就会消失，且进行特征选择之后列的数量也会发生改变，因此需要重新对列进行映射，为其加上列名并转化为DataFrame的格式。一般情况下可以分为三种情况：

1、对数据进行缺失值填补、编码（处理分类型变量）、二值化（处理连续型变量）一般都是按照列对数据进行处理，因此处理完之后，直接覆盖原数据即可。　　　　

data.loc[:,"Age"]= SimpleImputer(strategy="median").fit_transform(data.loc[:,"Age"].values.reshape(-1,1))

2、对数据进行标准化、归一化都是对整个特征矩阵进行处理，数据类型变为array，但是数据的列并没有发生任何改变。直接将原始的列名重新映射至处理好的数据上。

X_train1 = min_max_scaler.fit_transform(X_train)
X_train1=pd.DataFrame(X_train1)
X_train1.columns = X_train.columns

3、在所有特征选择方法，方差，SelectKBest+各种统计量（卡方过滤、F检验、互信息法），嵌入法和包装法，都有接口get_support，该接口有参数indices，get_support(indices=False)，参数为false的时候可以用来确定原特征矩阵中有哪些特征被选择出来，返回布尔值True或者False，如果设定indices=True，就可以确定被选择出来的特征在原特征矩阵中所在的位置的索引。

X_train_columns = X_train.columns

selector = VarianceThreshold(0.005071)
X_fsvar = selector.fit_transform(X_train)
X_fsvar.columns = X_train_columns[selector.get_support(indices=True)]

python数据预处理和特性选择后列的映射的更多相关文章

Python数据预处理：机器学习、人工智能通用技术（1）
Python数据预处理:机器学习.人工智能通用技术白宁超 2018年12月24日17:28:26 摘要:大数据技术与我们日常生活越来越紧密,要做大数据,首要解决数据问题.原始数据存在大量不完整.不 ...
python数据预处理for knn
机器学习实战一书中第20页数据预处理,从文本中解析数据的程序. import numpy as np def dataPreProcessing(fileName): with open(fileN ...
Python数据预处理—归一化，标准化，正则化
关于数据预处理的几个概念归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常用的 ...
python data analysis | python数据预处理（基于scikit-learn模块）
原文:http://www.jianshu.com/p/94516a58314d Dataset transformations| 数据转换 Combining estimators|组合学习器 Fe ...
Python数据预处理之清及
使用Pandas进行数据预处理数据清洗中不是每一步都是必须的,按实际需求操作. 内容目录 1.数据的生成与导入 2.数据信息查看 2.1.查看整体数据信息 2.2.查看数据维度.列名称.数据格式 2 ...
Python数据预处理(sklearn.preprocessing)—归一化(MinMaxScaler)，标准化(StandardScaler)，正则化(Normalizer, normalize)
关于数据预处理的几个概念归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常 ...
Python数据预处理：使用Dask和Numba并行化加速
如果你善于使用Pandas变换数据.创建特征以及清洗数据等,那么你就能够轻松地使用Dask和Numba并行加速你的工作.单纯从速度上比较,Dask完胜Python,而Numba打败Dask,那么Num ...
关系网络数据可视化：2. Python数据预处理
将数据中导演与演员的关系整理出来,得到导演与演员的关系数据,并统计合作次数 import numpy as np import pandas as pd import matplotlib.pyplo ...
Python数据预处理—训练集和测试集数据划分
使用sklearn中的函数可以很方便的将数据划分为trainset 和 testset 该函数为sklearn.cross_validation.train_test_split,用法如下: > ...

随机推荐

celery tasks always in pending
Result backend doesn't work or tasks are always in PENDING state¶All tasks are PENDING by default, s ...
一行导出所有任意微软SQL server数据脚本-基于Python的微软官方mssql-scripter工具使用全讲解
文章标题: 一行导出所有任意微软SQL serer数据脚本-基于Python的微软官方mssql-scripter工具使用全讲解关键字 : mssql-scripter,SQL Server 文章分 ...
Django笔记&教程 5-3 综合使用示例
Django 自学笔记兼学习教程第5章第3节--综合使用示例点击查看教程总目录 1 - 生成学号场景场景描述: 教务管理系统中,学生注册账号,学生选择年级后,生成唯一学号. 细节分析: 学生学号由 ...
菜鸡的Java笔记国际化程序实现原理
国际化程序实现原理 Lnternationalization 1. Locale 类的使用 2.国家化程序的实现,资源读取所谓的国际化的程序 ...
「3dmax」快速配置3DMax
3DMax学习 1.0.认识3dmax 3dmax(3D Studio Max),版权Autodesk公司持有.是基于PC系统的三维动画渲染和制作软件,主要用于模型构建和骨骼动画制作.行业使用分布广泛 ...
Jenkins教程（八）实现 GitLab 触发 Jenkins 自动按模块发布前端
楔子上篇文章解决了提交/合并请求自动触发的需求,但所有前端模块都在同一个代码仓库里,如何获取变更文件路径确定要发布哪个模块呢?本文将带你解决这个问题. 思路分别解决 3 个问题: 获取变更的文件列 ...
[源码解析] PyTorch 分布式(13) ----- DistributedDataParallel 之反向传播
[源码解析] PyTorch 分布式(13) ----- DistributedDataParallel 之反向传播目录 [源码解析] PyTorch 分布式(13) ----- Distribu ...
BehaviorTree.CPP.行为树XML格式（六）
The XML format XML模式的基础在第一个教程中,介绍了这个简单的树. <root main_tree_to_execute = "MainTree" > ...
Atcoder Grand Contest 005 E - Sugigma: The Showdown（思维题）
洛谷题面传送门 & Atcoder 题面传送门记先手移动棋子的树为红树,后手移动棋子的树为蓝树. 首先考虑一个性质,就是如果与当前红色棋子所在的点相连的边中存在一条边,满足这条边的两个端点在 ...
c6和c7
Centos6.x普遍采用 ext3\ext4(Fourth EXtended filesystem)文件系统格式, EXT3 支持的最大 16TB 文件系统和最大 2TB 文件 Ext4 分别支持1 ...

python数据预处理和特性选择后列的映射

python数据预处理和特性选择后列的映射的更多相关文章

随机推荐

热门专题