异常值概念:是指那些远离正常值的观测,即“不合群”观测.异常值的出现一般是人为的记录错误或者是设备的故障等,异常值的出现会对模型的创建和预测产生 严重的后果.当然异常值也不一定是坏事,有些情况下,通过寻找异常值就能够给业务带来良好的发展,如销毁“钓鱼”网站,关闭“薅羊毛”用户的权限等. 异常值的判定方法: 1.n个标准差法 2.箱线图法 标准差法,就是用以样本均值+样本标准差为基准,如果样本离平均值相差2个标准差以上的就是异常值 箱线图法:以上下四分位作为参考, x > Q3+nIQR 或者 x