“特征工程”这个华丽的术语,它以尽可能容易地使模型达到良好性能的方式,来确保你的预测因子被编码到模型中.例如,如果你有一个日期字段作为一个预测因子,并且它在周末与平日的响应上有着很大的不同,那么以这种方式编码日期,它更容易取得好的效果. 但是,这取决于许多方面. 首先,它是依赖模型的.例如,如果类边界是一个对角线,那么树可能会在分类数据集上遇到麻烦,因为分类边界使用的是数据的正交分解(斜树除外). 其次,预测编码过程从问题的特定学科知识中受益最大.在我刚才列举的例子中,你需要了解数据模式,然后改