在实际应用中,一般会选择将数据集划分为训练集(training set).验证集(validation set)和测试集(testing set).其中,训练集用于训练模型,验证集用于调参.算法选择等,而测试集则在最后用于模型的整体性能评估. 1. 留出法 (Hold-out) 将数据集D划分为2个互斥子集,其中一个作为训练集S,另一个作为测试集T,即有: D = S ∪ T, S ∩ T = ∅ 用训练集S训练模型,再用测试集T评估误差,作为泛化误差估计. 特点:单次使用留出法得到的估计结果往…