Spark 机器学习------逻辑回归

package Spark_MLlib

import javassist.bytecode.SignatureAttribute.ArrayType

import org.apache.spark.sql.SparkSession

import org.apache.spark.ml.{Pipeline, PipelineModel}

import org.apache.spark.ml.classification.LogisticRegression

import org.apache.spark.ml.feature.{HashingTF, Tokenizer}

import org.apache.spark.ml.linalg.Vector

import org.apache.spark.sql.Row

/**

  * Spark逻辑回归的库

  * http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.package
*/

object 逻辑回归 {

      val spark=SparkSession.builder().master("local[2]").appName("逻辑回归").getOrCreate()

      import spark.implicits._

  def main(args: Array[String]): Unit = {

      val training = spark.createDataFrame(Seq((,"soyo spark soyo1",1.0),(,"hadoop spark",1.0),(,"zhouhang xiaohai",0.0),(,"hbase spark hive soyo",1.0))).

        toDF("id","text","label")

      //转换器

       val tokenizer=new Tokenizer().setInputCol("text").setOutputCol("words")

       val hashingTF=new HashingTF().setNumFeatures().setInputCol(tokenizer.getOutputCol).setOutputCol("features")

       //评估器

       val lr= new LogisticRegression().setMaxIter(). //设置最大迭代次数

         setRegParam(0.01) // 设置正则化参数

       val pipeline= new Pipeline().setStages(Array(tokenizer,hashingTF,lr))

       //训练出的模型

       val model=pipeline.fit(training)

       //测试数据

       val test= spark.createDataFrame(Seq((,"spark i like"),(,"hadoop spark book"),(,"soyo9 soy 88"))).toDF("id","text")

          test.show()

//           test.createOrReplaceTempView("soyo")

//           spark.sql("").show()

       model.transform(test).schema.foreach(println)

           model.transform(test)

             .select("id","text","probability","prediction")

             .collect()

             .foreach { case Row(id: Int, text: String, prob: Vector, prediction: Double) =>

                 println(s"($id,$text)----->prob=$prob,prediction=$prediction")

               }

       //转换器生成的一些中间数据

    model.transform(test).select("id","text","features","rawPrediction")

            .collect()

               .foreach{

                 case Row(id:Int,text:String,features:Vector,rawPrediction:Vector)=>

                   println(s"id=$id,text=$text,features=$features,rawPrediction=$rawPrediction")

               }

    spark.stop()

  }

}

结果：

+---+-----------------+
| id|             text|
+---+-----------------+
| 4|     spark i like|
| 5|hadoop spark book|
| 6|     soyo9 soy 88|
+---+-----------------+

StructField(id,IntegerType,false)
StructField(text,StringType,true)
StructField(words,ArrayType(StringType,true),true)
StructField(features,org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7,true)
StructField(rawPrediction,org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7,true)
StructField(probability,org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7,true)
StructField(prediction,DoubleType,true)
(4,spark i like)----->prob=[0.033501882964501836,0.9664981170354981],prediction=1.0                                准确率
(5,hadoop spark book)----->prob=[0.011175823696937707,0.9888241763030623],prediction=1.0                  准确率
(6,soyo9 soy 88)----->prob=[0.26222944363302514,0.7377705563669748],prediction=1.0                              准确率（误判了）但值较低
id=4,text=spark i like,features=(1000,[105,329,330],[1.0,1.0,1.0]),rawPrediction=[-3.3620777052692805,3.3620777052692805]
id=5,text=hadoop spark book,features=(1000,[105,181,393],[1.0,1.0,1.0]),rawPrediction=[-4.482763689867715,4.482763689867715]
id=6,text=soyo9 soy 88,features=(1000,[543,602,976],[1.0,1.0,1.0]),rawPrediction=[-1.0344130174468225,1.0344130174468225]

Spark 机器学习------逻辑回归的更多相关文章

机器学习---逻辑回归（二）（Machine Learning Logistic Regression II）
在<机器学习---逻辑回归(一)(Machine Learning Logistic Regression I)>一文中,我们讨论了如何用逻辑回归解决二分类问题以及逻辑回归算法的本质.现在 ...
Spark Mllib逻辑回归算法分析
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3816289.html 本文以spark 1.0.0版本MLlib算法为准进行分析一.代码结构逻辑回归 ...
Spark ML逻辑回归
import org.apache.log4j.{Level, Logger} import org.apache.spark.ml.classification.LogisticRegression ...
Spark LogisticRegression 逻辑回归之建模
导入包 import org.apache.spark.sql.SparkSession import org.apache.spark.sql.Dataset import org.apache.s ...
Spark机器学习5·回归模型(pyspark)
分类模型的预测目标是:类别编号回归模型的预测目标是:实数变量回归模型种类线性模型最小二乘回归模型应用L2正则化时--岭回归(ridge regression) 应用L1正则化时--LASSO ...
机器学习/逻辑回归（logistic regression）/--附python代码
个人分类: 机器学习本文为吴恩达<机器学习>课程的读书笔记,并用python实现. 前一篇讲了线性回归,这一篇讲逻辑回归,有了上一篇的基础,这一篇的内容会显得比较简单. 逻辑回归(log ...
Spark 多项式逻辑回归__多分类
package Spark_MLlib import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.{B ...
Spark 多项式逻辑回归__二分类
package Spark_MLlib import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.{L ...
机器学习---逻辑回归（一）（Machine Learning Logistic Regression I）
逻辑回归(Logistic Regression)是一种经典的线性分类算法.逻辑回归虽然叫回归,但是其模型是用来分类的. 让我们先从最简单的二分类问题开始.给定特征向量x=([x1,x2,...,xn ...

随机推荐

洛谷——P1273 有线电视网
P1273 有线电视网题目大意: 题目描述某收费有线电视网计划转播一场重要的足球比赛.他们的转播网和用户终端构成一棵树状结构,这棵树的根结点位于足球比赛的现场,树叶为各个用户终端,其他中转站为该树 ...
52.基于doc value正排索引的聚合内部原理
主要知识点: 本节没有太懂,以后复习时补上聚合分析的内部原理是什么????aggs,term,metric avg max,执行一个聚合操作的时候,内部原理是怎样的呢?用了什么样的数据结 ...
自己动手编写vue插件
一.为什么要自己动手写插件呢,原因有二: 其一:是因为最近产品了提了一个在web端接收,消息通知的需求,产品要求在若干个页面内如果有消息,就要弹出消息弹窗展示给用户,略加思索之后,第一反应就是写个消息 ...
3.3.3 char 类型
char类型原本用于表示单个字符.不过,现在情况已经有所变化.如今,有些Unicode字符可以用一个char值描述,另外一些Unicode字符则需要两个 char 值. char类 ...
Spring核心技术（五）——Spring中Bean的作用域
前文概述了Spring的容器,Bean,以及依赖的一些信息,本文将描述一下Bean的作用域 Bean的作用域当开发者定义Bean的时候,同时也会定义了该如何创建Bean实例.这些具体创建的过程是很重 ...
【Codeforces 1096D】Easy Problem
[链接] 我是链接,点我呀:) [题意] 让你将一个字符串删掉一些字符. 使得字符串中不包含子序列"hard" 删掉每个字符的代价已知为ai 让你求出代价最小的方法. [题解] 设 ...
Windows学习总结（8）——DOS窗口查看历史执行过的命令的三种方式
在DOS窗口执行了一些列命令完成某项工作后,如果要查看都执行了那些命令,该如何办呢?(前提:DOS窗口未关闭的情况下) 一.方法一: 使用↑↓箭头上下翻看执行过的命令,此方式适宜执行命令较少的情况. ...
Uva12657 Boxes in a Line
题目链接:传送门分析:每次操作都会花费大量时间,显然我们只需要关注每个元素的左边是啥,右边是啥就够了,那么用双向链表,l[i]表示i左边的数,r[i]表示i右边的数,每次操作模拟一下数组的变化就好了 ...
常州模拟赛d5t3 appoint
分析:这道题比较奇葩.因为字符串没有swap函数,所以一个一个字符串交换只有30分.但是我们可以不用直接交换字符串,而是交换字符串的指针,相当于当前位置是哪一个字符串,每次交换int,可以拿60分. ...
（三）用openCV在图片上绘画标记
1.在图片上画图(直线,矩形,圆形,多边形) import numpy as np import cv2 img = cv2.imread('watch.jpg',cv2.IMREAD_COLOR) ...

Spark 机器学习------逻辑回归

Spark 机器学习------逻辑回归的更多相关文章

随机推荐

热门专题