1. import org.apache.log4j.{Level, Logger}
  2. import org.apache.spark.ml.classification.LogisticRegression
  3. import org.apache.spark.ml.linalg.Vectors
  4. import org.apache.spark.sql.SparkSession
  5.  
  6. /**
  7. * 逻辑回归
  8. * Created by zhen on 2018/11/20.
  9. */
  10. object LogisticRegression {
  11. Logger.getLogger("org").setLevel(Level.WARN) // 设置日志级别
  12. def main(args: Array[String]) {
  13. val spark = SparkSession.builder()
  14. .appName("LogisticRegression")
  15. .master("local[2]")
  16. .getOrCreate()
  17. val sqlContext = spark.sqlContext
  18. // 加载训练数据和测试数据
  19. val data = sqlContext.createDataFrame(Seq(
  20. (1.0, Vectors.dense(0.0, 1.1, 0.1)),
  21. (0.0, Vectors.dense(2.0, 1.0, -1.1)),
  22. (1.0, Vectors.dense(1.0, 2.1, 0.1)),
  23. (0.0, Vectors.dense(2.0, -1.3, 1.1)),
  24. (0.0, Vectors.dense(2.0, 1.0, -1.1)),
  25. (1.0, Vectors.dense(1.0, 2.1, 0.1)),
  26. (1.0, Vectors.dense(2.0, 1.3, 1.1)),
  27. (0.0, Vectors.dense(-2.0, 1.0, -1.1)),
  28. (1.0, Vectors.dense(1.0, 2.1, 0.1)),
  29. (0.0, Vectors.dense(2.0, -1.3, 1.1)),
  30. (1.0, Vectors.dense(2.0, 1.0, -1.1)),
  31. (1.0, Vectors.dense(1.0, 2.1, 0.1)),
  32. (0.0, Vectors.dense(-2.0, 1.3, 1.1)),
  33. (1.0, Vectors.dense(0.0, 1.2, -0.4))
  34. ))
  35. .toDF("label", "features")
  36. val weights = Array(0.8,0.2) //设置训练集和测试集的比例
  37. val split_data = data.randomSplit(weights) // 拆分训练集和测试集
  38. // 创建逻辑回归对象
  39. val lr = new LogisticRegression()
  40. // 设置参数
  41. lr.setMaxIter(10).setRegParam(0.01)
  42. // 训练模型
  43. val model = lr.fit(split_data(0))
  44. model.transform(split_data(1))
  45. .select("label", "features", "probability", "prediction")
  46. .collect()
  47. .foreach(println(_))
  48. //关闭spark
  49. spark.stop()
  50. }
  51. }

结果:

Spark ML逻辑回归的更多相关文章

  1. Spark LogisticRegression 逻辑回归之建模

    导入包 import org.apache.spark.sql.SparkSession import org.apache.spark.sql.Dataset import org.apache.s ...

  2. Spark 多项式逻辑回归__多分类

    package Spark_MLlib import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.{B ...

  3. Spark 多项式逻辑回归__二分类

    package Spark_MLlib import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.{L ...

  4. Spark 机器学习------逻辑回归

    package Spark_MLlib import javassist.bytecode.SignatureAttribute.ArrayType import org.apache.spark.s ...

  5. Spark Mllib逻辑回归算法分析

    原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3816289.html 本文以spark 1.0.0版本MLlib算法为准进行分析 一.代码结构 逻辑回归 ...

  6. Spark LR逻辑回归中RDD转DF中VectorUDT设置

    System.setProperty("hadoop.home.dir", "C:\\hadoop-2.7.2"); val spark = SparkSess ...

  7. ML 逻辑回归 Logistic Regression

    逻辑回归 Logistic Regression 1 分类 Classification 首先我们来看看使用线性回归来解决分类会出现的问题.下图中,我们加入了一个训练集,产生的新的假设函数使得我们进行 ...

  8. 成功秀了一波scala spark ML逻辑斯蒂回归

    1.直接上官方代码,调整过的,方可使用 package com.test import org.apache.spark.{SparkConf, SparkContext} import org.ap ...

  9. Spark LogisticRegression 逻辑回归之简介

    LogisticRegression简介

随机推荐

  1. Windows10开发手记-Windows App Certification Kit使用教程

    最近有同学通过MVP的渠道询问我Windows 10应用提交审核前是否有工具能够像win7一样做App兼容性测试,其实Windows SDK已经继承了一套优秀的App测试认证工具,这可以帮助我们快速通 ...

  2. 07-部署Flanneld网络

    部署Flanneld网络 Flanneld:用于解决容器之间网络互通,这里我们要配置TLS认证. Docker1.12.5:docker的安装很简单,这里也不说了. 配置Flanneld 这里我们使用 ...

  3. 解决Eclipse中DDMS一直打印输出Connection attempts的问题

    Eclipse/MyEclipse出现以下错误的解决方案: [2015-01-25 16:10:29 - DeviceMonitor] Adb connection Error:远程主机强迫关闭了一个 ...

  4. ubuntu18.04 运行时提示缺少libstdc++.so.6

    解决方法:输入命令 sudo apt- 提示:ubuntu默认软件包管理器不是yum,而是dpkg,安装软件时用apt-get PS:在ubuntu下最好不要去装yum,不然可能会出现一些奇怪的问题

  5. springboot shiro开启注释

    shiroconfiguration中增加 @Bean public AuthorizationAttributeSourceAdvisor authorizationAttributeSourceA ...

  6. C#效率优化(1)-- 使用泛型时避免装箱

    本想接着上一篇详解泛型接着写一篇使用泛型时需要注意的一个性能问题,但是后来想着不如将之前的详解XX系列更正为现在的效率优化XX系列,记录在工作时遇到的一些性能优化的经验和技巧,如果有什么不足,还请大家 ...

  7. leetcode — longest-substring-without-repeating-characters

    import java.util.HashSet; import java.util.Set; /** * Source : https://oj.leetcode.com/problems/long ...

  8. 【PyTorch深度学习60分钟快速入门 】Part2:Autograd自动化微分

      在PyTorch中,集中于所有神经网络的是autograd包.首先,我们简要地看一下此工具包,然后我们将训练第一个神经网络. autograd包为张量的所有操作提供了自动微分.它是一个运行式定义的 ...

  9. 深入学习卷积神经网络(CNN)的原理知识

    网上关于卷积神经网络的相关知识以及数不胜数,所以本文在学习了前人的博客和知乎,在别人博客的基础上整理的知识点,便于自己理解,以后复习也可以常看看,但是如果侵犯到哪位大神的权利,请联系小编,谢谢.好了下 ...

  10. [CF833B] The Bakery

    Description 将一个长度为n的序列分为k段 使得总价值最大一段区间的价值表示为区间内不同数字的个数 \(n\leq 35000,k\leq 50,1\leq a_i\leq n\) Solu ...