逻辑斯蒂回归

一、概念

逻辑斯蒂回归（logistic regression）是统计学习中的经典分类方法，属于对数线性模型。logistic回归的因变量可以是二分类的，也可以是多分类的。logistic回归的因变量可以是二分非线性差分方程类的，也可以是多分类的，但是二分类的更为常用，也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。

二、logistic分布

设X是连续随机变量，X服从逻辑斯蒂分布是指X具有下列分布函数和密度函数：

分布函数和密度函数

式中，μ为位置参数，γ>0为形状参数。

密度函数是脉冲函数

分布函数是一条Sigmoid曲线(sigmoid curve)即为阶跃函数

Sigmoid曲线

三、二项逻辑斯谛回归模型

二项逻辑斯谛回归模型是如下的条件概率分布

回归模型

x∊Rn是输入，Y∊{0,1}是输出，w∊Rn和b∊R是参数，

w称为权值向量，b称为偏置，w·x为w和x的内积。

可以求得P(Y＝1|x)和P(Y＝0|x)。

逻辑斯谛回归比较两个条件概率值的大小，将实例x分到概率值较大的那一类。

四、LR模型参数估计

可以应用极大似然估计法估计模型参数

极大似然估计

对L(w)求极大值，得到w的估计值。

问题就变成了以对数似然函数为目标函数的最优化问题。

LR学习中通常采用的方法是梯度下降法及拟牛顿法。

五、代码实现

我们以iris数据集（https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data）为例进行分析。iris以鸢尾花的特征作为数据来源，数据集包含150个数据集，分为3类，每类50个数据，每个数据包含4个属性，是在数据挖掘、数据分类中非常常用的测试集、训练集。

import org.apache.spark.SparkConf;

import org.apache.spark.SparkContext;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.mllib.classification.LogisticRegressionModel;

import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGS;

import org.apache.spark.mllib.evaluation.MulticlassMetrics;

import org.apache.spark.mllib.regression.LabeledPoint;

import org.apache.spark.mllib.util.MLUtils;

5.1、读取数据

首先，读取文本文件；然后，通过map将每行的数据用“,”隔开，在我们的数据集中，每行被分成了5部分，前4部分是鸢尾花的4个特征，最后一部分是鸢尾花的分类。把这里我们用LabeledPoint来存储标签列和特征列。
LabeledPoint在监督学习中常用来存储标签和特征，其中要求标签的类型是double，特征的类型是Vector。这里，先把莺尾花的分类进行变换，”Iris-setosa”对应分类0，”Iris-versicolor”对应分类1，其余对应分类2；然后获取莺尾花的4个特征，存储在Vector中。

SparkConf conf = new  SparkConf().setAppName("LogisticRegression").setMaster("local");

JavaSparkContext sc = new  JavaSparkContext(conf);

JavaRDD<String> source =  sc.textFile("data/mllib/iris.data");

JavaRDD<LabeledPoint> data = source.map(line->{

            String[] splits = line.split(",");

            Double label = 0.0;

            if(splits[4].equals("Iris-setosa"))  {

                label = 0.0;

            }else  if(splits[4].equals("Iris-versicolor")) {

                label = 1.0;

            }else {

                label = 2.0;

            }

            return new  LabeledPoint(label,Vectors.dense(Double.parseDouble(splits[0]),

                    Double.parseDouble(splits[1]),

                    Double.parseDouble(splits[2]),

                    Double.parseDouble(splits[3])));

 });

打印数据：

// 控制台输出结果：

(0.0,[5.1,3.5,1.4,0.2])

(0.0,[4.9,3.0,1.4,0.2])

(0.0,[4.7,3.2,1.3,0.2])

(0.0,[4.6,3.1,1.5,0.2])

(0.0,[5.0,3.6,1.4,0.2])

(0.0,[5.4,3.9,1.7,0.4])

(0.0,[4.6,3.4,1.4,0.3])

(0.0,[5.0,3.4,1.5,0.2])

(0.0,[4.4,2.9,1.4,0.2])

(0.0,[4.9,3.1,1.5,0.1])

(0.0,[5.4,3.7,1.5,0.2])

... ...

5.2、构建模型：

// 首先进行数据集的划分，这里划分60%的训练集和40%的测试集：

JavaRDD<LabeledPoint>[] splits =  data.randomSplit(new double[] {0.6,0.4},11L);

JavaRDD<LabeledPoint> traning =  splits[0].cache();

JavaRDD<LabeledPoint> test = splits[1];

构建逻辑斯蒂模型，用set的方法设置参数，比如说分类的数目，这里可以实现多分类逻辑斯蒂模型:

LogisticRegressionModel model = new LogisticRegressionWithLBFGS().setNumClasses(3).run(traning.rdd());

输出结果：

org.apache.spark.mllib.classification.LogisticRegressionModel: intercept = 0.0,  numFeatures = 8, numClasses = 3, threshold = 0.5

接下来，调用多分类逻辑斯蒂模型用的predict方法对测试数据进行预测，并把结果保存在MulticlassMetrics中。这里的模型全名为LogisticRegressionWithLBFGS，加上了LBFGS，表示Limited-memory BFGS。其中，BFGS是求解非线性优化问题（L(w)求极大值）的方法，是一种秩-2更新，以其发明者Broyden, Fletcher, Goldfarb和Shanno的姓氏首字母命名。

JavaPairRDD<Object,Object> predictionAndLables =  test.mapToPair(p->

            new  Tuple2<>(model.predict(p.features()),p.label())

);

这里，采用了test部分的数据每一行都分为标签label和特征features，然后利用map方法，对每一行的数据进行model.predict(features)操作，获得预测值。并把预测值和真正的标签放到predictionAndLabels中。我们可以打印出具体的结果数据来看一下：

(0.0,0.0)

(0.0,0.0)

(0.0,0.0)

(0.0,0.0)

(0.0,0.0)

(0.0,0.0)

(0.0,0.0)

(0.0,0.0)

(0.0,0.0)

(0.0,0.0)

(0.0,0.0)

(0.0,0.0)

(0.0,0.0)

(0.0,0.0)

(0.0,0.0)

(0.0,0.0)

(0.0,0.0)

(0.0,0.0)

(1.0,1.0)

(1.0,1.0)

(1.0,1.0)

(1.0,1.0)

(1.0,1.0)

(1.0,1.0)

(1.0,1.0)

(1.0,1.0)

(2.0,1.0)

(1.0,1.0)

(1.0,1.0)

(1.0,1.0)

(1.0,1.0)

(1.0,1.0)

(1.0,1.0)

(1.0,1.0)

(2.0,2.0)

(2.0,2.0)

(2.0,2.0)

(2.0,2.0)

(2.0,2.0)

(2.0,2.0)

(2.0,2.0)

(2.0,2.0)

(2.0,2.0)

(2.0,2.0)

(2.0,2.0)

(1.0,2.0)

(2.0,2.0)

(2.0,2.0)

(2.0,2.0)

(2.0,2.0)

(2.0,2.0)

(2.0,2.0)

可以看出，大部分的预测是对的。其中(2.0,1.0)，(1.0,2.0)的预测与实际标签不同。

5.3、模型评估

模型预测的准确性打印：

//准确性打印：

metrics:0.9615384615384616

spark机器学习从0到1逻辑斯蒂回归之(四）的更多相关文章

【转】机器学习笔记之（3）——Logistic回归（逻辑斯蒂回归）
原文链接:https://blog.csdn.net/gwplovekimi/article/details/80288964 本博文为逻辑斯特回归的学习笔记.由于仅仅是学习笔记,水平有限,还望广大读 ...
机器学习之LinearRegression与Logistic Regression逻辑斯蒂回归(三)
一评价尺度 sklearn包含四种评价尺度 1 均方差(mean-squared-error) 2 平均绝对值误差(mean_absolute_error) 3 可释方差得分(explained_v ...
python机器学习实现逻辑斯蒂回归
逻辑斯蒂回归关注公众号"轻松学编程"了解更多. [关键词]Logistics函数,最大似然估计,梯度下降法 1.Logistics回归的原理利用Logistics回归进行分类的 ...
[置顶] 局部加权回归、最小二乘的概率解释、逻辑斯蒂回归、感知器算法——斯坦福ML公开课笔记3
转载请注明:http://blog.csdn.net/xinzhangyanxiang/article/details/9113681 最近在看Ng的机器学习公开课,Ng的讲法循循善诱,感觉提高了不少 ...
【分类器】感知机+线性回归+逻辑斯蒂回归+softmax回归
一.感知机详细参考:https://blog.csdn.net/wodeai1235/article/details/54755735 1.模型和图像: 2.数学定义推导和优化: 3.流程 ...
【项目实战】pytorch实现逻辑斯蒂回归
视频指导:https://www.bilibili.com/video/BV1Y7411d7Ys?p=6 一些数据集在pytorch框架下,里面面有配套的数据集,pytorch里面有一个torchv ...
成功秀了一波scala spark ML逻辑斯蒂回归
1.直接上官方代码,调整过的,方可使用 package com.test import org.apache.spark.{SparkConf, SparkContext} import org.ap ...
逻辑斯蒂回归（Logistic Regression）
逻辑回归名字比较古怪,看上去是回归,却是一个简单的二分类模型. 逻辑回归的模型是如下形式: 其中x是features,θ是feature的权重,σ是sigmoid函数.将θ0视为θ0*x0(x0取值为 ...
[转]逻辑斯蒂回归 via python
# -*- coding:UTF-8 -*-import numpydef loadDataSet(): return dataMat,labelMat def sigmoid(inX): retur ...

随机推荐

rabbitMQ安装docker版 /权限管理命令
1.进入docker hub镜像仓库地址:https://hub.docker.com/ 2.搜素rabbitMQ 查询镜像,可以看到多种类型,选择带有web页面的(managment) 3.拉取镜像 ...
PCA主成分分析（上）
PCA主成分分析 PCA目的最大可分性(最大投影方差) 投影优化目标关键点推导为什么要找最大特征值对应的特征向量呢? 之前看3DMM的论文的看到其用了PCA的方法,一开始以为自己对于PCA已 ...
Linux利用sed批量修改文件名
初始文件名 # ls -lh total 5.5G -rw-r--r-- 1 root root 193K Sep 28 09:38 20180908.txt drwxr-xr-x 2 root ro ...
oracle查询当前系统时间前10天的数据
select * from eo_c_order t where t.create_time>systimestamp-interval'1'day; 转载于:https://www.cnblo ...
以内存级速度实现存储？XPoint正是我们的计划
随着计算能力虚拟化技术的普及,存储机制在速度上远逊于内存这一劣势开始变得愈发凸显. 这一巨大的访问速度鸿沟一直是各项存储技术想要解决的核心难题:纸带.磁带.磁盘驱动器乃至闪存记忆体等等,而如今最新一代 ...
《JavaScript和jQuery实战手册（原书第2版）》——2.1节语句
2.1 语句JavaScript语句是基本的编程单元,通常表示JavaScript程序中的单个步骤.可以把一条语句看做一个句子一样,就好像成串的句子一起组成一个段落(或一章,或一本书)一样,把语句组合 ...
showModalDialog使用讲解
基本介绍: showModalDialog() (IE 4+ 支持) showModelessDialog ...
JS异步与同步
这里展示一个操作场景:需要对数据进行异步处理,但这次操作可能会失败,所以需要定期对数据进行再次处理,直至处理成功. 实现:手动触发的处理以及定期触发的处理,是相同的,即可以抽取出来成一个公共函数,定期 ...
SQL 文件导入数据库
1.首先通过 xshell 连接数据库服务器,执行命令 mysql -u root -p 命令,按照提示输入密码,连接上数据库 2.在连接终端上执行命令 create database JD_Mode ...
洛谷P5018 对称二叉树
不多扯题目直接题解= = 1.递归由题目可以得知,子树既可以是根节点和叶节点组成,也可以是一个节点,题意中的对称二叉子树是必须由一个根节点一直到树的最底部所组成的树. 这样一来就简单了,我们很容易 ...

spark机器学习从0到1逻辑斯蒂回归之(四）