最近在刷kaggle的时候碰到了两种处理类别型特征的方法:label encoding和one hot encoding.我从stackexchange, quora等网上搜索了相关的问题,总结如下. label encoding在某些情况下很有用,但是场景限制很多.比如有一列 [dog,cat,dog,mouse,cat],我们把其转换为[1,2,1,3,2].这里就产生了一个奇怪的现象:dog和mouse的平均值是cat.而且像decision tree,random forest和xgbo…