Spark MLlib机器学习（一）—

决策树模型，适用于分类、回归。
简单地理解决策树呢，就是通过不断地设置新的条件标准对当前的数据进行划分，最后以实现把原始的杂乱的所有数据分类。

就像下面这个图，如果输入是一大堆追求一个妹子的汉子，妹子内心里有个筛子，最后菇凉也就决定了和谁约（举栗而已哦，不代表什么～大家理解原理重要～～）

训练数据：

0,32 帅 收入中等 不是公务员

1,25 帅 收入中等 是公务员

0,25 帅 收入中等 不是公务员

1,29 帅 收入中等 是公务员

1,24 帅 收入高 不是公务员

0,31 帅 收入高 不是公务员

0,35 帅 收入中等 是公务员

0,30 不帅 收入中等 不是公务员

0,31 帅 收入高 不是公务员

1,30 帅 收入中等 是公务员

1,21 帅 收入高 不是公务员

0,21 帅 收入中等 不是公务员

1,21 帅 收入中等 是公务员

0,29 不帅 收入中等 是公务员

0,29 帅 收入底 是公务员

0,29 不帅 收入底 是公务员

1,30 帅 收入高 不是公务员

测试数据：

0,32 帅 收入中等 不是公务员

1,27 帅 收入高 是公务员

1,29 帅 收入高 不是公务员

1,25 帅 收入中等 是公务员

0,23 不帅 收入中等 是公务员

代码实现：

package com.test;

import java.util.Arrays;

import java.util.HashMap;

import java.util.Map;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.api.java.function.VoidFunction;

import org.apache.spark.mllib.feature.HashingTF;

import org.apache.spark.mllib.linalg.Vector;

import org.apache.spark.mllib.linalg.Vectors;

import org.apache.spark.mllib.regression.LabeledPoint;

import org.apache.spark.mllib.tree.DecisionTree;

import org.apache.spark.mllib.tree.model.DecisionTreeModel;

import org.apache.spark.sql.SparkSession;

import scala.Tuple2;

public class DecisionTreeTest2 {

	public static void main(String[] args) {

		//SparkConf conf = new SparkConf().setMaster("local").setAppName("DecisionTreeTest").config("spark.sql.warehouse.dir","file:///D://test").getOrCreate() ;

		SparkSession spark = SparkSession.builder().master("local[5]")

				.appName("DecisionTreeTest")

				.config("spark.sql.warehouse.dir", "/user/hive/warehouse/").enableHiveSupport()

				.getOrCreate();

		JavaSparkContext jsc = new JavaSparkContext(spark.sparkContext());

		JavaRDD<String> lines = jsc.textFile("C://tree3.txt");

		final HashingTF tf = new HashingTF(10000);

		JavaRDD<LabeledPoint> transdata = lines.map(new Function<String, LabeledPoint>() {

			private static final long serialVersionUID = 1L;

			@Override

			public LabeledPoint call(String str) throws Exception {

				String[] t1 = str.split(",");

				String[] t2 = t1[1].split(" ");

				LabeledPoint lab = new LabeledPoint(Double.parseDouble(t1[0]),tf.transform(Arrays.asList(t2)));

				return lab;

			}

		});

		// 设置决策树参数，训练模型

		Integer numClasses = 3;

		Map<Integer, Integer> categoricalFeaturesInfo = new HashMap<Integer, Integer>();

		String impurity = "gini";

		Integer maxDepth = 5;

		Integer maxBins = 32;

		final DecisionTreeModel tree_model = DecisionTree.trainClassifier(transdata, numClasses,

				categoricalFeaturesInfo, impurity, maxDepth, maxBins);

		System.out.println("决策树模型：");

		System.out.println(tree_model.toDebugString());

		// 保存模型

		tree_model.save(jsc.sc(), "C://DecisionTreeModel");

		// 未处理数据，带入模型处理

		JavaRDD<String> testLines = jsc.textFile("C://tree4.txt");

		JavaPairRDD<String, String> res = testLines.mapToPair(new PairFunction<String, String, String>() {

			private static final long serialVersionUID = 1L;

			@Override

			public Tuple2<String, String> call(String line) throws Exception {

				String[] t2 = line.split(",")[1].split(" ");

				Vector v = tf.transform(Arrays.asList(t2));

				double res = tree_model.predict(v);

				return new Tuple2<String, String>(line, Double.toString(res));

			}

		}).cache();

		// 打印结果

		res.foreach(new VoidFunction<Tuple2<String, String>>() {

			private static final long serialVersionUID = 1L;

			@Override

			public void call(Tuple2<String, String> a) throws Exception {

				System.out.println(a._1 + " : " + a._2);

			}

		});

		// 将结果保存在本地

		res.saveAsTextFile("C://res");

	}

}

测试结果：

0,32 帅 收入中等 不是公务员 : 0.0

1,27 帅 收入高 是公务员 : 1.0

1,29 帅 收入高 不是公务员 : 1.0

1,25 帅 收入中等 是公务员 : 1.0

0,23 不帅 收入中等 是公务员 : 0.0

Spark MLlib机器学习（一）——决策树的更多相关文章

Spark MLlib 机器学习
本章导读机器学习(machine learning, ML)是一门涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多领域的交叉学科.ML专注于研究计算机模拟或实现人类的学习行为,以获取新知识.新 ...
《Spark MLlib机器学习实践》内容简介、目录
http://product.dangdang.com/23829918.html Spark作为新兴的.应用范围最为广泛的大数据处理开源框架引起了广泛的关注,它吸引了大量程序设计和开发人员进行相 ...
Spark MLlib机器学习
前言 Spark MLlib是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器.
《Spark MLlib 机器学习实战》1——读后总结
1 概念 2 安装 3 RDD RDD包含两种基本的类型:Transformation和Action.RDD的执行是延迟执行,只有Action算子才会触发任务的执行. 宽依赖和窄依赖用于切分任务,如果 ...
Spark Mllib里如何采用保序回归做回归分析（图文详解）
不多说,直接上干货! 相比于决策树,保序回归的应用范围没有决策树算法那么广泛. 特别在数据处理较为庞大的时候,采用保序回归做回归分析,可以极大地节省资源,从而提高计算效率. 保序回归的思想,是对数据进 ...
Spark Mllib里如何生成KMeans的训练样本数据、生成线性回归的训练样本数据、生成逻辑回归的训练样本数据和其他数据生成
不多说,直接上干货! 具体,见 Spark Mllib机器学习(算法.源码及实战详解)的第2章 Spark数据操作
Spark Mllib里的卡方检验
不多说,直接上干货! import org.apache.spark.mllib.stat.Statistics 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mlli ...
Spark Mllib里的分层抽样（使用map作为分层抽样的数据标记）
不多说,直接上干货! 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计
Spark Mllib里的如何对单个数据集用斯皮尔曼计算相关系数
不多说,直接上干货! import org.apache.spark.mllib.stat.Statistics 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mlli ...

随机推荐

CSS插入的四种方式
一.什么是CSS CSS(Cascading style sheets 层叠样式表),CSS可以用以为网页构建样式表,通过样式表来达到对网页进行美化的效果.所谓层叠可以将网页想象成一层层的结构,高层 ...
tomcat 启动一傘而过问题
tomcat 启动一傘而过问题 D:\apache-tomcat-7.0.75\bin startup.bat打开记事本打开第一行:设置启动环境变量JAVA_HOME,CATALINA_HOME S ...
Bugku web web2
web2 打开后发现是个大滑稽啊!F12检查元素拿到flag
Java——容器（泛型）
[泛型] 起因:JDK1.4之前类型不明确 <1>装入集合的类型都被当做Object对待,从而失去自己的实际类型. <2>从集合中取出时往往需要转型,效率低,且很容易出错 ...
Python_018( isinstance,issubclass详解)
1.isinstance() 1)class A:pass class B:pass b = B() print(isinstance(b,B) #True #isinstance(obj,type ...
【PowerOJ1751&网络流24题】数字梯形问题（费用流）
题意: 思路: [问题分析] 求图的最大权不相交路径及其变种,用费用最大流解决. [建模方法] 规则(1) 把梯形中每个位置抽象为两个点<i.a>,<i.b>,建立附加源S汇T ...
<知识整理>2019清北学堂提高储备D4
今天主要讲一下数学的知识. 一.进制转换: 十进制到k进制:短除法:顺除至0,逆序取余. k进制转十进制:乘权相加. 常见进制:四进制(对应2位二进制).八进制(对应3位二进制).十六进制(对应4位二 ...
[spring cloud feign] [bug] 使用对象传输get请求参数
前言最近在研究 srping cloud feign ,遇到了一个问题,就是当 get 请求的参数使用对象接收时,就会进入熔断返回.经过百度,发现网上大部分的解决方案都是将请求参数封装到Reque ...
IntelliJ IDEA 开发工具的一些设置
IntelliJ IDEA 开发工具的一些设置参考资料 IntelliJ IDEA 的学习,离不开网络上技术热爱者们的分享,在此向他们表示感谢. 成吨提高开发效率:https://github.co ...
CSS - 初始值、指定值、计算值、应用值、实际值
初始值:未提供指定值且未从父元素指定值继承的 CSS 属性的值. 指定值:通过直接声明或 CSS 属性的值. 计算值:通过需要计算得到的值,如,继承和相对的尺寸.(注意:有些计算要等到布局确定才能进行 ...

Spark MLlib机器学习（一）——决策树

Spark MLlib机器学习（一）——决策树的更多相关文章

随机推荐

热门专题