以下是Coursera上的How to Win a Data Science Competition: Learn from Top Kagglers课程笔记. Statistics and distance based features 该部分专注于此高级特征工程:计算由另一个分组的一个特征的各种统计数据和从给定点的邻域分析得到的特征. groupby and nearest neighbor methods 例子:这里有一些CTR任务的数据 我们可以暗示广告有 页面上的最低价格将吸引大部分注
一:sklearn中决策树的参数: 1,criterion: ”gini” or “entropy”(default=”gini”)是计算属性的gini(基尼不纯度)还是entropy(信息增益),来选择最合适的节点. 2,splitter: ”best” or “random”(default=”best”)随机选择属性还是选择不纯度最大的属性,建议用默认. 3,max_features: 选择最适属性时划分的特征不能超过此值. 当为整数时,即最大特征数:当为小数时,训练集特征数*小数: if