L1正则会产生稀疏解,让很多无用的特征的系数变为0,只留下一些有用的特征 L2正则不让某些特征的系数变为0,即不产生稀疏解,只让他们接近于0.即L2正则倾向于让权重w变小.见第二篇的推导. 所以,样本量比较少,但是特征特别多的时候,可以用L1正则,把一部分不显著的特征系数变成0: 而样本量多,特征偏少的时候,可以使用L2正则,保留住所有的特征,只是让系数变小,接近于0. 机器学习中的范数规则化之(一)L0.L1与L2范数 :http://blog.csdn.net/zouxy09/article