作为天池上的新手,第一次参加天池阿里云线上的比赛,糖尿病预测, 一般的数据挖掘比赛,流程:数据清洗,特征工程(找特征,特征组合),不断的尝试的不同算法,不断调参,也可以考虑将多个模型进行线性组合 大赛初赛数据共包含两个文件,训练文件d_train.csv和测试文件d_test.csv,每个文件第一行是字段名,之后每一行代表一个个体.文件共包含42个字段,包含数值型.字符型.日期型等众多数据类型,部分字段内容在部分人群中有缺失,其中第一列为个体ID号.训练文件的最后一列为标签列,既需要预测的目标血