參考:http://scikit-learn.org/stable/modules/clustering.html 在实际项目中,我们真的非常少用到那些简单的模型,比方LR.kNN.NB等.尽管经典,但在project中确实不有用. 今天我们不关注详细的模型,而关注无监督的聚类方法. 之所以关注无监督聚类方法.是由于.在实际项目中,我们除了使用PCA等方法降维外.有时候我们也会考虑使用聚类的方法降维特征. Overview of clustering methods: A comparison
由于异常数据的两个特征(少且不同: few and different) 异常数据只占很少量; 异常数据特征值和正常数据差别很大. iTree的构成过程如下: l 随机选择一个属性Attr: l 随机选择该属性的一个值Value: l 根据Attr对每条记录进行分类,把Attr小于Value的记录放在左女儿,把大于等于Value的记录放在右孩子: l 然后递归的构造左女儿和右女儿,直到满足以下条件: l 传入的数据集只有一条记录或者多条一样的记录: l 树的高度达到了限定高度: iT