最近学人工智能,讲到了Kaggle上的一个竞赛任务,Ames房价预测.本文将描述一下数据预处理和特征工程所进行的操作,具体代码Click Me. 原始数据集共有特征81个,数值型特征38个,非数值型特征43个.有很多缺失值. 1.离群点检测 以GrLivArea(地上面积)和SalePrice(房价)为自变量和因变量,得到如下散点图: 从上图中可以看出有2个极端的离群点在图的右下角(面积很大,但价格很低).该数据集的提供者建议移除面积大于4000 square feet的数据点(这样就去掉了4个…