Kaggle 房价预测问题参考资料

作者的 Kaggle 主页：https://www.kaggle.com/pavansanagapati

筛选出数值型变量

numeric_features = train.select_dtypes(include=[np.number])

numeric_features.columns

筛选出类别型变量

categorical_features = train.select_dtypes(include=[np.object])

categorical_features.columns

介绍了 msno 的使用，这是一个观察缺失值分布的工具。
计算每个特征的偏度和峰度：train.skew() 、train.kurt()。

关于偏度和峰度的知识补充：

1、偏度指的是尾部偏向哪里；
把目标变量经过变换，处理成符合正态分布的样子，这个变换是对数变换（保证了单调性）

target = np.log(train['SalePrice'])

target.skew()

plt.hist(target,color='blue')

通过线性相关系数矩阵筛选重要的特征：

correlation = numeric_features.corr()

print(correlation['SalePrice'].sort_values(ascending = False),'\n')

说明：找出与目标变量 SalePrice 线性相关的特征。

从相关系数矩阵中，找到与关系的变量最“正”线性相关的 10 个变量：cols = correlation.nlargest(k, 'SalePrice')['SalePrice'].index

k= 11

cols = correlation.nlargest(k, 'SalePrice')['SalePrice'].index

print(cols)

cm = np.corrcoef(train[cols].values.T)

f , ax = plt.subplots(figsize = (14, 12))

sns.heatmap(cm, vmax=.8, linewidths=0.01, square=True,annot=True,cmap='viridis',

            linecolor="white",xticklabels = cols.values ,annot_kws = {'size':12}, yticklabels = cols.values)

说明：为了避免多重共线性，自变量之间如果高度线性相关，我们取与目标变量线性相关最高的一个，另一个舍弃。

绘制 pairplot 图

sns.set()

columns = ['SalePrice','OverallQual','TotalBsmtSF','GrLivArea','GarageArea','FullBath','YearBuilt','YearRemodAdd']

sns.pairplot(train[columns],size = 2 ,kind ='scatter',diag_kind='kde')

plt.show()

Kaggle 房价预测问题参考资料的更多相关文章

梯度消失、梯度爆炸以及Kaggle房价预测
梯度消失.梯度爆炸以及Kaggle房价预测梯度消失和梯度爆炸考虑到环境因素的其他问题 Kaggle房价预测梯度消失和梯度爆炸深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸( ...
Kaggle（一）：房价预测
Kaggle(一) 房价预测 (随机森林.岭回归.集成学习) 项目介绍:通过79个解释变量描述爱荷华州艾姆斯的住宅的各个方面,然后通过这些变量训练模型, 来预测房价. kaggle项目链接:ht ...
通过房价预测入门Kaggle
今天看了个新闻,说是中国社会科学院城市发展与环境研究所及社会科学文献出版社共同发布<房地产蓝皮书:中国房地产发展报告No.16(2019)>指出房价上涨7.6%,看得我都坐不住了,这房价上 ...
Ames房价预测特征工程
最近学人工智能,讲到了Kaggle上的一个竞赛任务,Ames房价预测.本文将描述一下数据预处理和特征工程所进行的操作,具体代码Click Me. 原始数据集共有特征81个,数值型特征38个,非数值型特 ...
动手学深度学习17-kaggle竞赛实践小项目房价预测
kaggle竞赛获取和读取数据集数据预处理找出所有数值型的特征,然后标准化处理离散值特征转化为DNArray后续训练训练模型 k折交叉验证预测样本,并提交结果 kaggle竞赛本节将动 ...
机器学习实战二：波士顿房价预测 Boston Housing
波士顿房价预测 Boston housing 这是一个波士顿房价预测的一个实战,上一次的Titantic是生存预测,其实本质上是一个分类问题,就是根据数据分为1或为0,这次的波士顿房价预测更像是预测一 ...
使用sklearn进行数据挖掘-房价预测(4)—数据预处理
在使用机器算法之前,我们先把数据做下预处理,先把特征和标签拆分出来 housing = strat_train_set.drop("median_house_value",axis ...
使用sklearn进行数据挖掘-房价预测(6)—模型调优
通过上一节的探索,我们会得到几个相对比较满意的模型,本节我们就对模型进行调优网格搜索列举出参数组合,直到找到比较满意的参数组合,这是一种调优方法,当然如果手动选择并一一进行实验这是一个十分繁琐的工 ...
使用sklearn进行数据挖掘-房价预测(1)
使用sklearn进行数据挖掘系列文章: 1.使用sklearn进行数据挖掘-房价预测(1) 2.使用sklearn进行数据挖掘-房价预测(2)-划分测试集 3.使用sklearn进行数据挖掘-房价预 ...

随机推荐

input输入框的的input事件和change事件以及change和blur事件的区别
input输入框的 oninput事件 ,在用户输入的时候触发,只要元素值发生变化就会触发 input输入框的 onchange事件 ,要在输入框失去焦点的时候触发事件,当鼠标在其他地方点击一下才会触 ...
有序无序ul->li ol->li菜单，默认点击当前弹出下拉，再次点击收起下拉菜单
实现这一效果利用css和js技术结合以ul->li为例子 <!DOCTYPE html><html lang="en"><head> & ...
思维体操: HDU1008 Elevator
Elevator Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total S ...
Cypher 语句实战
Cypher 语句实战下载和安装 Neo4j windows 桌面版- 环境设置 https://www.w3cschool.cn/neo4j/neo4j_exe_environment_setup ...
JS中For循环中嵌套setTimeout()方法的执行顺序
在For循环中执行setTimeOut()方法的代码,执行顺序是怎样的呢? 代码如下 function time() { for(var i= 0;i<5;i++){ setTimeout(fu ...
oracle比较两个查询结果的差异
可以使用minus select * from A minus select * from B; select * from B minus select * from A;
4、LayIM 开发者文档
一.配置文档目录 1.好友列表状态 2.当前会话状态 3.查看群成员 4.业务暂无此必要 5.发送消息 6.接受消息 7.监听我主面板的在线状态 8.弹出申请好友面板(业务场景用于好友添加需申请) 9 ...
LoadPicture函数用法示例
VB语言中LoadPicture函数用法示例: 本例使用 LoadPicture 函数将图片加载到窗体的 PictureBox 控件并从控件上清除掉该图片. 要试用此例,将 PictureBox 控件 ...
django + celery的队列，路由与弹性
#celery_app.py #!/usr/bin/env python # -*- coding: utf-8 -*- from __future__ import absolute_import ...
4Linux 终端命令格式
Linux 终端命令格式转自目标了解终端命令格式知道如何查阅终端命令帮助信息 01. 终端命令格式 command [-options] [parameter] 说明: command:命令名 ...

Kaggle 房价预测问题参考资料

作者的 Kaggle 主页：https://www.kaggle.com/pavansanagapati

Tutorial - Housing Prices Model Prediction

一份探索性数据分析的简单教程

如何处理缺失值数据的简单教程

绘制 pairplot 图

Kaggle 房价预测问题参考资料的更多相关文章

随机推荐

热门专题