样本不平衡问题 如在二分类中正负样本比例存在较大差距,导致模型的预测偏向某一类别.如果正样本占据1%,而负样本占据99%,那么模型只需要对所有样本输出预测为负样本,那么模型轻松可以达到99%的正确率.一般此时需使用其他度量标准来判断模型性能.比如召回率ReCall(查全率:样本中所有标记为正样本的有多少被模型预测为正样本). 从数据层解决办法: 1.欠采样(undersampling):将模型中类别较多的样例除去一些,使类别样本数量平衡.但此法由于除去一些样本,导致丢失许多信息.一种改进办法是…