SparkMLlib分类算法之逻辑回归算法

SparkMLlib分类算法之逻辑回归算法

（一），逻辑回归算法的概念（参考网址：http://blog.csdn.net/sinat_33761963/article/details/51693836）

　　　　逻辑回归与线性回归类似，但它不属于回归分析家族（主要为二分类），而属于分类家族，差异主要在于变量不同，因此其解法与生成曲线也不尽相同。逻辑回归是无监督学习的一个重要算法，对某些数据与事物的归属（分到哪个类别）及可能性（分到某一类别的概率）进行评估。

（二），SparkMLlib逻辑回归应用

1，数据集的选择：http://www.kaggle.com/c/stumbleupon/data 中的（train.txt和test.txt）

2，数据集描述：关于涉及网页中推荐的页面是短暂（短暂存在，很快就不流行了）还是长久（长时间流行）的分类

3，数据预处理及获取训练集和测试集

val orig_file=sc.textFile("train_nohead.tsv")

    //println(orig_file.first())

    val data_file=orig_file.map(_.split("\t")).map{

      r =>

        val trimmed =r.map(_.replace("\"",""))

        val lable=trimmed(r.length-1).toDouble

        val feature=trimmed.slice(4,r.length-1).map(d => if(d=="?")0.0

        else d.toDouble)

        LabeledPoint(lable,Vectors.dense(feature))

    }.randomSplit(Array(0.7,0.3),11L)

    val data_train=data_file(0)//训练集

    val data_test=data_file(1)//测试集

4，逻辑回归模型训练及模型评价

val model_log=new LogisticRegressionWithLBFGS().setNumClasses(2).run(data_train)

/*

有两种最优化算法可以求解逻辑回归问题并求出最优参数：mini-batch gradient descent(梯度下降法），L-BFGS法。我们更推荐使用L-BFGS，因为它能更快聚合,而且现在spark2.1.0已经放弃LogisticRegressionWithLSGD()模式了*/

/*性能评估：使用精确度，PR曲线，AOC曲线*/

 val predictionAndLabels=data_test.map(point =>

      (model_log.predict(point.features),point.label)

    )

    val metricsLG=new MulticlassMetrics(predictionAndLabels)//0.6079335793357934

val metrics=Seq(model_log).map{

      model =>

        val socreAndLabels=data_test.map {

          point => (model.predict(point.features), point.label)

        }

        val metrics=new BinaryClassificationMetrics(socreAndLabels)

        (model.getClass.getSimpleName,metrics.areaUnderPR(),metrics.areaUnderROC())

    }

val allMetrics = metrics

    allMetrics.foreach{ case (m, pr, roc) =>

      println(f"$m, Area under PR: ${pr * 100.0}%2.4f%%, Area under ROC: ${roc * 100.0}%2.4f%%")

    }

/*LogisticRegressionModel, Area under PR: 73.1104%, Area under ROC: 60.4200%*/

5，模型优化

　　特征标准化处理

val orig_file=sc.textFile("train_nohead.tsv")

    //println(orig_file.first())

    val data_file=orig_file.map(_.split("\t")).map{

      r =>

        val trimmed =r.map(_.replace("\"",""))

        val lable=trimmed(r.length-1).toDouble

        val feature=trimmed.slice(4,r.length-1).map(d => if(d=="?")0.0

        else d.toDouble)

        LabeledPoint(lable,Vectors.dense(feature))

    }

   /*特征标准化优化*/

    val vectors=data_file.map(x =>x.features)

    val rows=new RowMatrix(vectors)

    println(rows.computeColumnSummaryStatistics().variance)//每列的方差

    val scaler=new StandardScaler(withMean=true,withStd=true).fit(vectors)//标准化

    val scaled_data=data_file.map(point => LabeledPoint(point.label,scaler.transform(point.features)))

        .randomSplit(Array(0.7,0.3),11L)

    val data_train=scaled_data(0)

    val data_test=scaled_data(1)

/*训练逻辑回归模型*/

    val model_log=new LogisticRegressionWithLBFGS().setNumClasses(2).run(data_train)

/*在使用模型做预测时，如何知道预测到底好不好呢？换句话说，应该知道怎么评估模型性能。

    通常在二分类中使用的评估方法包括：预测正确率和错误率、准确率和召回率、准确率  召回率

    曲线下方的面积、 ROC 曲线、 ROC 曲线下的面积和 F-Measure*/

    val predictionAndLabels=data_test.map(point =>

      (model_log.predict(point.features),point.label)

    )

    val metricsLG=new MulticlassMetrics(predictionAndLabels)//精确度：0.6236162361623616

val metrics=Seq(model_log).map{

      model =>

        val socreAndLabels=data_test.map {

          point => (model.predict(point.features), point.label)

        }

        val metrics=new BinaryClassificationMetrics(socreAndLabels)

        (model.getClass.getSimpleName,metrics.areaUnderPR(),metrics.areaUnderROC())

    }

val allMetrics = metrics

    allMetrics.foreach{ case (m, pr, roc) =>

      println(f"$m, Area under PR: ${pr * 100.0}%2.4f%%, Area under ROC: ${roc * 100.0}%2.4f%%")

    }

/*LogisticRegressionModel, Area under PR: 74.1103%, Area under ROC: 62.0064%*/

6，总结

　　1，如何能提高更明显的精度。。。。。

　　2，对逻辑回归的认识还不够。。。。

SparkMLlib分类算法之逻辑回归算法的更多相关文章

SparkMLlib学习分类算法之逻辑回归算法
SparkMLlib学习分类算法之逻辑回归算法 (一),逻辑回归算法的概念(参考网址:http://blog.csdn.net/sinat_33761963/article/details/51693 ...
分类算法之逻辑回归（Logistic Regression
分类算法之逻辑回归(Logistic Regression) 1.二分类问题现在有一家医院,想要对病人的病情进行分析,其中有一项就是关于良性\恶性肿瘤的判断,现在有一批数据集是关于肿瘤大小的,任务就 ...
sklearn调用逻辑回归算法
1.逻辑回归算法即可以看做是回归算法,也可以看作是分类算法,通常用来解决分类问题,主要是二分类问题,对于多分类问题并不适合,也可以通过一定的技巧变形来间接解决. 2.决策边界是指不同分类结果之间的边界 ...
逻辑回归算法的原理及实现(LR)
Logistic回归虽然名字叫"回归" ,但却是一种分类学习方法.使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素.逻辑回归(Logistic Regression, L ...
一小部分机器学习算法小结: 优化算法、逻辑回归、支持向量机、决策树、集成算法、Word2Vec等
优化算法先导知识:泰勒公式 \[ f(x)=\sum_{n=0}^{\infty}\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n \] 一阶泰勒展开: \[ f(x)\approx ...
Spark机器学习(2)：逻辑回归算法
逻辑回归本质上也是一种线性回归,和普通线性回归不同的是,普通线性回归特征到结果输出的是连续值,而逻辑回归增加了一个函数g(z),能够把连续值映射到0或者1. MLLib的逻辑回归类有两个:Logist ...
《BI那点儿事》Microsoft 逻辑回归算法——预测股票的涨跌
数据准备:一组股票历史成交数据(股票代码:601106 中国一重),起止日期:2011-01-04至今,其中变量有“开盘”.“最高”.“最低”.“收盘”.“总手”.“金额”.“涨跌”等 UPDATE ...
Python实现机器学习算法：逻辑回归
import numpy as np import matplotlib.pyplot as plt from sklearn.datasets.samples_generator import ma ...
每日一个机器学习算法——LR(逻辑回归)
本系列文章用于汇集知识点,查漏补缺,面试找工作之用.数学公式较多,解释较少. 1.假设 2.sigmoid函数: 3.假设的含义: 4.性质: 5.找一个凸损失函数 6.可由最大似然估计推导出单个样 ...

随机推荐

BZOJ 3223 Tyvj 1729 文艺平衡树 | Splay 维护序列关系
题解: 每次reverse(l,r) 把l-1转到根,r+1变成他的右儿子,给r+1的左儿子打个标记就是一次反转操作了每次find和dfs输出的时候下放标记,把左儿子和右儿子换一下记得建树的时候建 ...
c语言数组传递
转自:http://blog.csdn.net/xgmiao/article/details/9570825 点击打开链接数组作为函数实参: C语言中数组作为函数实参时,编译器总是将其解析为指向数组 ...
js中哪些语句在if语句中默认为真
结论:js中有一个函数是:Boolean(value)这个函数把一个value值转换成相应的boolean值. 当value为以下值是为true:1.任意的非空字符串 .2.任意的非0数字而当val ...
python使用openpyxl操作excel
def initExcel(): file_path = "test.xlsx" file = load_workbook(file_path) table = file[&quo ...
vs2012 有效产品密钥
VS2012 有效注册密钥下载地址:https://www.malavida.com/en/soft/visual-studio-2012/ Microsoft Visual Studio Ulti ...
常用sql语句 DML语句
1.select *|字段名 from 表名 [where 条件] [order by 排序 asc|desc] [limit 限制输出 startrow,pagesize] 查询 2.insert ...
转：Java NIO
Java NIO(New IO)是从Java 1.4版本开始引入的一个新的IO API,可以替代标准的Java IO API.本系列教程将有助于你学习和理解Java NIO.感谢并发编程网的翻译和投递 ...
我们曾经心碎的C#之第三章.如何使用C#属性
第三章 . 如何使用C#属性 1.Private访问修饰符访问修饰符可以用来修饰类成员字段和方法,每个访问修饰符只能为紧随其后的成员指定特定的访问权限如果将字段或方法声明为public 就表示 ...
整数拆分问题_C++
一.问题背景整数拆分,指把一个整数分解成若干个整数的和如 3=2+1=1+1+1 共2种拆分我们认为2+1与1+2为同一种拆分二.定义在整数n的拆分中,最大的拆分数为m,我们记它的方案数 ...
第20章 HOOK和数据库访问
转自: https://blog.csdn.net/u014162133/article/details/46573873 通过安装Hook过程,可以用来屏蔽消息队列中某些消息 The SetWind ...

SparkMLlib分类算法之逻辑回归算法

SparkMLlib分类算法之逻辑回归算法的更多相关文章

随机推荐

热门专题