Spark快速获得CrossValidator的最佳模型参数

Spark提供了便利的Pipeline模型，可以轻松的创建自己的学习模型。

但是大部分模型都是需要提供参数的，如果不提供就是默认参数，那么怎么选择参数就是一个比较常见的问题。Spark提供在org.apache.spark.ml.tuning包下提供了模型选择器，可以替换参数然后比较模型输出。

目前有CrossValidator和TrainValidationSplit两种，比如一个文本情感预测模型。

Pipeline只有三步，第一步切词，第二步HashingTF，第三步NB分类

Pipeline pipeline = new Pipeline()

                .setStages(new PipelineStage[]{tokenizer, hashingTF, naiveBayes});

ParamMap[] paramMaps = new ParamGridBuilder()

                .addGrid(hashingTF.numFeatures(), new int[]{, , , })

                .build();

CrossValidator cv = new CrossValidator()

                .setEstimator(pipeline)

                .setEvaluator(new BinaryClassificationEvaluator())

                .setEstimatorParamMaps(paramMaps);

其中HashingTF的参数选择非常重要，我们这里就随便尝试几种，然后放在CrossValidator中去。

最后我们会获得一个CrossValidatorModel类，这里有两种选择。

第一种是自己手动获取其中的参数，因为bestModel的参数就是我们最后选择的参数

Pipeline bestPipeline = (Pipeline) model.bestModel().parent();

PipelineStage stage = bestPipeline.getStages()[];

stage.extractParamMap().get(stage.getParam("numFeatures"));

这种方法可以获得值，但是需要根据你模型情况修改获取的位置。

如果你只是想知道最佳参数是多少，并不是需要在上下文中使用，那还有一个更简单的方法。

修改log4j的配置，添加

log4j.logger.org.apache.spark.ml.tuning.TrainValidationSplit=INFO

log4j.logger.org.apache.spark.ml.tuning.CrossValidator=INFO

效果如下：

Spark快速获得CrossValidator的最佳模型参数的更多相关文章

Spark快速入门 - Spark 1.6.0
Spark快速入门 - Spark 1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 快速入门(Quick Start) 本文简单介绍了Spark的使用方式.首 ...
Spark快速入门
Spark 快速入门本教程快速介绍了Spark的使用. 首先我们介绍了通过Spark 交互式shell调用API( Python或者scala代码),然后演示如何使用Java, Scala或者P ...
利用 TFLearn 快速搭建经典深度学习模型
利用 TFLearn 快速搭建经典深度学习模型使用 TensorFlow 一个最大的好处是可以用各种运算符(Ops)灵活构建计算图,同时可以支持自定义运算符(见本公众号早期文章<Tenso ...
深度学习方法（七）：最新SqueezeNet 模型详解，CNN模型参数降低50倍，压缩461倍！
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 继续前面关于深度学习CNN经典模型的 ...
[转] Spark快速入门指南 – Spark安装与基础使用
[From] https://blog.csdn.net/w405722907/article/details/77943331 Spark快速入门指南 – Spark安装与基础使用 2017年09月 ...
Spark流式编程介绍 - 编程模型
来源Spark官方文档 http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#programm ...
fluent批量处理——模型参数的设置
对于常见的工程应用来说,计算的工况很多,尤其优化工作,少则几百,多则上千,面对如此之多的case文件要写,假如按照一个一个的读写的话,相信你一定会为这么机械的工作烦躁,甚至影响今后好几天的心情,那么有 ...
spark快速大数据分析学习笔记*初始化sparkcontext(一)
初始化SparkContext 1// 在java中初始化spark import org.apache.spark.SparkConf; import org.apache.spark.api.ja ...
LTE Module User Documentation（翻译1）——背景、使用概述、基本的仿真程序和配置LTE模型参数
LTE用户文档 (如有不当的地方,欢迎指正!) 1.背景假定读者已经熟悉 ns-3 simulator ,能运行一般的仿真程序.如果不是的话,强烈推荐读者参考 [ns3tutorial]. 2. ...

随机推荐

Android开发训练之第五章第七节——Transmitting Network Data Using Volley
Transmitting Network Data Using Volley GET STARTED DEPENDENCIES AND PREREQUISITES Android 1.6 (API L ...
css - Grid网格布局
.wrapper{ display: grid; grid-template-columns: 100px 100px 100px; grid-template-rows: 100px 100px 1 ...
Failed to resolve: com.android.support:appcompat-v7:27.0.1问题解决
今天,在毫无征兆的情况下AndroidStudio又抽风了,搞了大半天,试了网上众多方案,终于解决了这个问题.咱们一步一步来第一步:这是最开始的bug Error:Failed to resolve ...
美团店铺评价语言处理以及分类（tfidf，SVM，决策树，随机森林，Knn，ensemble）
第一篇数据清洗与分析部分第二篇可视化部分, 第三篇朴素贝叶斯文本分类支持向量机分类支持向量机网格搜索临近法决策树随机森林 bagging方法 import pandas as pd ...
版本控制 version control和团队协作
这些技术你可能暂时不会用到,但是一旦软件体量变大,开发人数增加,这就带来质变,需要借助一些工具或者技术才能完成这些复杂的工程. 你可以从最简单的情况思考,你可以对任何类型的文件进行版本控制,比如一个p ...
redis（二）--用Redis作MySQL数据库缓存
用Redis作MySQL数据库缓存,必须解决2个问题.首先,应该确定用何种数据结构存储来自mysql的数据:在确定数据结构之后,还要考虑用什么标识作为该数据结构的键. 直观上看,Mysql中的数据都是 ...
Flask web开发之路六
紧接着上篇文档,写模板继承和block,URL链接和加载静态文件模板继承和block 项目结构主app文件代码: from flask import Flask,render_template a ...
洛谷P1126 机器人搬重物【bfs】
题目链接:https://www.luogu.org/problemnew/show/P1126 题意: 给定一个n*m的方格,机器人推着直径是1.6的球在格子的线上运动. 每一秒钟可以向左转,向右转 ...
体验 PHP under .NET Core
昨天在 The week in .NET 中发现 Scott Hanselman 的这篇博文 Peachpie - Open Source PHP Compiler to .NET and WordP ...
cocoa开发Mac小试笔记
急需纠正自己的错误认识,Mac开发和iOS开发UI显示.事件交互.生命周期等存在极大的差距首先点击事件NSButton和UIButton完全是两个不同的东西列表UITableView和NSTabl ...

Spark快速获得CrossValidator的最佳模型参数

Spark快速获得CrossValidator的最佳模型参数的更多相关文章

随机推荐

热门专题