kaggle数据挖掘竞赛初步--Titanic<数据变换>
完整代码: https://github.com/cindycindyhi/kaggle-Titanic
特征工程系列:
缺失值填充之后,就要对其他格式有问题的属性进行处理了。比如Sex Embarked这些属性的值都是字符串类型的,而scikit learn中的模型都只能处理数值型的数据,需要将这些原始的字符串类型的数据转为数值型数据。所有数据通常可以分成两种类型:定量与定性。定量的属性(数值属性)通常蕴涵着可排序性,比如在泰坦尼克号数据集中,年龄就是一个定量属性。定性属性(标称 序数 二元属性)的值是一些符号或事务的名称,每个值代表某种类别编码或状态,不是可测量量,是不具有排序意义的,比如Embarked(登船地点)。
一 定性属性的数据变换
对于字符串型的定性属性转换,如果单纯的用数字来代替的化,比如对于Embarked的三个值S Q C分别用1 2 3来代替,模型会把它当成是有顺序的数值属性,对于一些根据距离来确定分类的算法来说,就不能准确运行啦。那么应该怎么将定性属性转为数字呢?
(1)dummy varibles(不知道中文应该说成啥。。虚设属性?)
什么是dummy呢,举个栗子,Emarked属性的取值有三个S Q C,分别代表三个上船地点。dummy这个属性呢,就是向数据集里再加入三个属性暂且命名为Embarked_S Embarkde_Q 和Embarked_C,如果一个人是在S地点上船的,那么这三个属性的值就是(1,0,0),在Q点上船的就是(0,1,0),每个属性都是二元属性,1代表是,0代表否。所以dummy适用于值范围相对较少的属性。
import pandas as pd
#creat dummy varibles from raw data
dummies_df = pd.get_dummies(df.Embarked)
#remana the columns to Embarked_S...
dummies_df = dummies_df.rename(columns=lambda x:'Embarked_'+str(x))
df = pd.concat([df,dummies_df],axis=1)
这样就会3个dummy属性加到数据集里啦,用df.info()看一下:
(2)factorizing(因子分解?)
用dummy可以处理像Embarked这样的值域范围较小的标称属性。对于Cabin(船舱号,A43 B55这种)这种标称属性,用dummy就不好处理了。pandas提供了一个factorize()函数,用以将标称属性的字符串值映射为一个数字,相同的字符串映射为同一个数字。不同于dummy,这种映射最后只生成一个属性。对于Cabin属性,我们可以将其分成两部分,字符串+数字,新建两个属性。对于字符串(A-E & U),可以用factorize()将其处理成数字。
import re
df['CabinLetter'] = df['Cabin'].map( lambda x: re.compile("([a-zA-Z]+)").\
search(x).group() )
df['CabinLetter'] = pd.factorize(df.CabinLetter)[0]
上一步呢,只是把Cabin船舱号前面的字母提出来作为一个新的属性,船舱号中的数字当然也要提出来作为一个新的属性啦。
#plus one for laplace assumption
df['CabinNumber'] = df['Cabin'].map( lambda x: getCabinNumber(x) ).\
astype(int) +1
def getCabinNumber(cabin):
match = re.compile("([0-9]+)").search(cabin)
if match:
return match.group()
else:
return 0
二 定量属性的数据变换
(1)数据规范化
数据规范化通过将数据压缩到一个范围内(通常是0-1或者-1-1)赋予所有属性相等的权重。对于涉及神经网络的分类算法或者基于距离度量的分类和聚类,规范化特别有用。规范化方法有多种,如rescaling logarithmic normalize等,可以在这里找到各种规范化方法的具体实现。但是有些时候并不需要规范化,比如算法使用相似度函数而不是距离函数的时候,比如随机森林,它从不比较一个特征与另一个特征,因此也不许要规范化,关于这个问题,详细信息可以参考这篇文章www.faqs.org/faqs/ai-faq/neural-nets/part2/section-16.html
如果对Age属性进行规范化的话(看最后分类算法使用哪种再确定要不要规范化,如果要规范化的话,其他属性也要处理),代码如下:
if keep_scaled:
scaler = preprocessing.StandardScaler()
df['Age_Scaled'] = scaler.fit_transform(df['Age'])
StandardScaler将数值压缩到[-1,1]区间,计算公式为(2x - max(x) - min(x)) / (max(x) - min(x)).
(2)Binning
就像直方图的bin将数据划分成几块一样,我们也可以将数值属性划分成几个bin,这是一种连续数据离散化的处理方式。我们使用pandas.qcut()函数来离散化连续数据,它使用分位数对数据进行划分,可以得到大小基本相等的bin。以下以Fare(船票价格)为例,对于其他连续属性如Age SibSp等也可以划分成bin。
def processFare():
global df
df['Fare'][df.Fare.isnull()] = df.Fare.dropna().mean()
#zero values divide -- laplace
df['Fare'][np.where(df['Fare']==0)[0]] = df['Fare'][df.Fare.\
nonzero()[0] ].min() / 10
df['Fare_bin'] = pd.qcut(df.Fare, 4)
这样产生的df['Fare_bin']的值是这样的,
0 [0.401, 7.91] 3 (31, 512.329]
1 (31, 512.329] 4 (7.91, 14.454]
2 (7.91, 14.454] 5 (7.91, 14.454]
因为是bin,所以属性都是一个个区间,代表这个数据属于哪个区间。对于这样的数据,我们需要factorize下,转为数值型数据。
df['Fare_bin_id'] = pd.factorize(df.Fare_bin)[0]+1
scaler = preprocessing.StandardScaler()
df['Fare_bin_id_scaled'] = scaler.fit_transform(df.Fare_bin_id)
kaggle数据挖掘竞赛初步--Titanic<数据变换>的更多相关文章
- kaggle数据挖掘竞赛初步--Titanic<派生属性&维归约>
完整代码: https://github.com/cindycindyhi/kaggle-Titanic 特征工程系列: Titanic系列之原始数据分析和数据处理 Titanic系列之数据变换 Ti ...
- kaggle数据挖掘竞赛初步--Titanic<原始数据分析&缺失值处理>
Titanic是kaggle上的一道just for fun的题,没有奖金,但是数据整洁,拿来练手最好不过啦. 这道题给的数据是泰坦尼克号上的乘客的信息,预测乘客是否幸存.这是个二元分类的机器学习问题 ...
- kaggle数据挖掘竞赛初步--Titanic<随机森林&特征重要性>
完整代码: https://github.com/cindycindyhi/kaggle-Titanic 特征工程系列: Titanic系列之原始数据分析和数据处理 Titanic系列之数据变换 Ti ...
- CIKM Competition数据挖掘竞赛夺冠算法陈运文
CIKM Competition数据挖掘竞赛夺冠算法陈运文 背景 CIKM Cup(或者称为CIKM Competition)是ACM CIKM举办的国际数据挖掘竞赛的名称.CIKM全称是Intern ...
- 使用sklearn进行数据挖掘-房价预测(4)—数据预处理
在使用机器算法之前,我们先把数据做下预处理,先把特征和标签拆分出来 housing = strat_train_set.drop("median_house_value",axis ...
- R学习笔记 第五篇:数据变换和清理
在使用R的分组操作之前,首先要了解R语言包,包实质上是实现特定功能的,预先写好的代码库(library),R拥有大量的软件包,许多包都是由某一领域的专家编写的,但并不是所有的包都有很高的质量的,在使用 ...
- R实战 第六篇:数据变换(aggregate+dplyr)
数据分析的工作,80%的时间耗费在处理数据上,而数据处理的主要过程可以分为:分离-操作-结合(Split-Apply-Combine),也就是说,首先,把数据根据特定的字段分组,每个分组都是独立的:然 ...
- 【干货】Kaggle 数据挖掘比赛经验分享(mark 专业的数据建模过程)
简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台.笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 C ...
- 数据挖掘竞赛kaggle初战——泰坦尼克号生还预测
1.题目 这道题目的地址在https://www.kaggle.com/c/titanic,题目要求大致是给出一部分泰坦尼克号乘船人员的信息与最后生还情况,利用这些数据,使用机器学习的算法,来分析预测 ...
随机推荐
- Spring+SpringMVC+MyBatis+LogBack+C3P0+Maven+Git小结(转)
摘要 出于兴趣,想要搭建一个自己的小站点,目前正在积极的准备环境,利用Spring+SpringMVC+MyBatis+LogBack+C3P0+Maven+Git,这里总结下最近遇到的一些问题及解决 ...
- 自定义圆饼(利用贝塞尔曲线和CGContext类完成)
-(void)drawRect:(CGRect)rect{ CGFloat w = self.bounds.size.width; CGFloat h = self.bounds.size.heigh ...
- winform 对话框,保存,另存为,还有打印控件
学习的对话框的种类: 1.打开文件对话框(OpenFileDialog) 2.保存文件对话框(SaveFileDialog) 3.字体对话框(FontDialog) 4.颜色对话框(ColorDial ...
- Python3基础 列表之间+ 合并,不去除重复项
镇场诗:---大梦谁觉,水月中建博客.百千磨难,才知世事无常.---今持佛语,技术无量愿学.愿尽所学,铸一良心博客.------------------------------------------ ...
- [POJ3111]K Best(分数规划, 二分)
题目链接:http://poj.org/problem?id=3111 求选k对数,使得上述式子值最大.容易想到设左边为一个值,对式子变形以下,得到sigma(v-r*w))==0的时候就是最大的,& ...
- 换个新的思路 代替解压jar包 例证:wechat4j 框架中的templateMsg类
很多朋友在写java的程序的时候都喜欢用第三方的jar包和框架,有可能遇到jar包中的内容已经跟不上官方开发者文档的更新,导致部分内容出错了,这个时候可能就要放弃这个jar的使用,但是这个jar中的其 ...
- 《与小卡特一起学Python》Code4 GUI easygui的使用
EasyGui是基于TKinter的,所以可以跨平台使用. 使用方法很简单,下载之后解压把easygui.py放到python安装目录下的lib/site-packages/下面即可 import e ...
- DuiLib 源码分析之解析xml类CMarkup & CMarkupNode 头文件
xml使用的还是比较多的,duilib界面也是通过xml配置实现的 duilib提供了CMarkkup和CMarkupNode类解析xml,使用起来也是比较方便的,比较好奇它是怎么实现的,如果自己来写 ...
- 你的指纹还安全吗? - BlackHat 2015 黑帽大会总结 day 2
你的指纹还安全吗? 0x03 FINGERPRINTS ON MOBILE DEVICES: ABUSING AND LEAKING speaker是来自FireEye的Wei Tao和Zhang ...
- gdb调试基本命令(常用)
gdb调试命令 1>. 启动gdb gdb 可执行程序的名字 2>. 查看代码 l -- 查看当前文件 -- 默认main函数 2. 查看其它文件: l 文件名:行号, 显示指定行号的上下 ...