入门kaggle,开始机器学习应用之旅. 参看一些入门的博客,感觉pandas,sklearn需要熟练掌握,同时也学到了一些很有用的tricks,包括数据分析和机器学习的知识点.下面记录一些有趣的数据分析方法和一个自己撸的小程序. 1.Tricks 1) df.info():数据的特征属性,包括数据缺失情况和数据类型. df.describe(): 数据中各个特征的数目,缺失值为NaN,以及数值型数据的一些分布情况,而类目型数据看不到. 缺失数据处理:缺失的样本占总数比例极高,则直接舍弃:缺失样…