建立模型 当使用机器学习的方法来解决问题时,比如垃圾邮件分类等,一般的步骤是这样的: 1)从一个简单的算法入手这样可以很快的实现这个算法,并且可以在交叉验证集上进行测试: 2)画学习曲线以决定是否更多的数据,更多的特征或者其他方式会有所帮助: 3)人工检查那些算法预测错误的例子(在交叉验证集上),看看能否找到一些产生错误的原因. 评估模型 首先,引入一个概念,非对称性分类.考虑癌症预测问题,y=1 代表癌症,y=0 代表没有癌症,对于一个数据集,我们建立logistic 回归模型,经过以上建模的…