Spark提供了便利的Pipeline模型,可以轻松的创建自己的学习模型. 但是大部分模型都是需要提供参数的,如果不提供就是默认参数,那么怎么选择参数就是一个比较常见的问题.Spark提供在org.apache.spark.ml.tuning包下提供了模型选择器,可以替换参数然后比较模型输出. 目前有CrossValidator和TrainValidationSplit两种,比如一个文本情感预测模型. Pipeline只有三步,第一步切词,第二步HashingTF,第三步NB分类 Pipelin…