# -*-coding=utf-8 -*-

from pyspark import SparkConf, SparkContext

sc = SparkContext('local')

from pyspark.mllib.classification import LogisticRegressionWithLBFGS, LogisticRegressionModel

from pyspark.mllib.regression import LabeledPoint

# Load and parse the data 加载和解析数据，将每一个数转化为浮点数。每一行第一个数作为标记，后面的作为特征

def parsePoint(line):

    values = [float(x) for x in line.split(' ')]

    return LabeledPoint(values[0], values[1:])

data = sc.textFile("data/mllib/sample_svm_data.txt")

print data.collect()[0] #1 0 2.52078447201548 0 0 0 2.004684436494304 2.00034729926846.....

parsedData = data.map(parsePoint)

print parsedData.collect()[0] #(1.0,[0.0,2.52078447202,0.0,0.0,0.0,2.00468....

# Build the model 建立模型

model = LogisticRegressionWithLBFGS.train(parsedData)

# Evaluating the model on training data 评估模型在训练集上的误差

labelsAndPreds = parsedData.map(lambda p: (p.label, model.predict(p.features)))

trainErr = labelsAndPreds.filter(lambda lp: lp[0] != lp[1]).count() / float(parsedData.count())

print("Training Error = " + str(trainErr)) #Training Error = 0.366459627329

# Save and load model 保存模型和加载模型

model.save(sc, "pythonLogisticRegressionWithLBFGSModel")

sameModel = LogisticRegressionModel.load(sc,"pythonLogisticRegressionWithLBFGSModel")

print sameModel.predict(parsedData.collect()[0].features) #

【Spark机器学习速成宝典】模型篇02逻辑斯谛回归【Logistic回归】（Python版）的更多相关文章

【Spark机器学习速成宝典】模型篇08保序回归【Isotonic Regression】（Python版）
目录保序回归原理保序回归代码(Spark Python) 保序回归原理待续... 返回目录保序回归代码(Spark Python) 代码里数据:https://pan.baidu.com/s/ ...
【Spark机器学习速成宝典】模型篇07梯度提升树【Gradient-Boosted Trees】（Python版）
目录梯度提升树原理梯度提升树代码(Spark Python) 梯度提升树原理待续... 返回目录梯度提升树代码(Spark Python) 代码里数据:https://pan.baidu.co ...
【Spark机器学习速成宝典】模型篇06随机森林【Random Forests】（Python版）
目录随机森林原理随机森林代码(Spark Python) 随机森林原理参考:http://www.cnblogs.com/itmorn/p/8269334.html 返回目录随机森林代码(Sp ...
【Spark机器学习速成宝典】模型篇05决策树【Decision Tree】（Python版）
目录决策树原理决策树代码(Spark Python) 决策树原理详见博文:http://www.cnblogs.com/itmorn/p/7918797.html 返回目录决策树代码(Spar ...
【Spark机器学习速成宝典】模型篇04朴素贝叶斯【Naive Bayes】（Python版）
目录朴素贝叶斯原理朴素贝叶斯代码(Spark Python) 朴素贝叶斯原理详见博文:http://www.cnblogs.com/itmorn/p/7905975.html 返回目录朴素贝叶 ...
【Spark机器学习速成宝典】模型篇03线性回归【LR】（Python版）
目录线性回归原理线性回归代码(Spark Python) 线性回归原理详见博文:http://www.cnblogs.com/itmorn/p/7873083.html 返回目录线性回归代码( ...
【Spark机器学习速成宝典】模型篇01支持向量机【SVM】（Python版）
目录支持向量机原理支持向量机代码(Spark Python) 支持向量机原理详见博文:http://www.cnblogs.com/itmorn/p/8011587.html 返回目录支持向量 ...
【Spark机器学习速成宝典】模型篇08支持向量机【SVM】（Python版）
目录什么是支持向量机(SVM) 线性可分数据集的分类线性可分数据集的分类(对偶形式) 线性近似可分数据集的分类线性近似可分数据集的分类(对偶形式) 非线性数据集的分类 SMO算法合页损失函数 ...
【Spark机器学习速成宝典】基础篇01Windows下spark开发环境搭建+sbt+idea（Scala版）
注意: spark用2.1.1 scala用2.11.11 材料准备 spark安装包 JDK 8 IDEA开发工具 scala 2.11.8 (注:spark2.1.0环境于scala2.11环境开 ...

随机推荐

MySql查询进阶
1.1 as关键字用于给显示结果中字段或者表起别名 select 别名.字段名 from 表名 as 别名 where 条件语句 # 对字段起别名 select id as '编号', na ...
js 禁用F12 和右键查看源码
<script> window.onkeydown = function(e) { if (e.keyCode === 123) { e.preventDefault() } } wind ...
淘宝flexible.js的使用
首先大家最关注的怎么使用,原理不原理是后面的事比如设计稿量来的宽度是100px 那么我们布局的时候,就这么写{width:1.3333rem},1.3333rem是由100/75算出来的,以此类推2 ...
C#程序集及程序集概念介绍
一.源代码-面向CLR的编译器-托管模块-(元数据&IL代码)中介绍了编译器将源文件编译成托管模块(中间语言和元数据),本文主要介绍如何将托管模块合并成程序集. 1.程序集的基本概念 2.程序 ...
CssSyntaxError (2:1) Unknown word 1 | > 2 | var content = require("!!./index.css");
项目引入css文件后报错 Module build failed (from ./node_modules/_css-loader@2.1.1@css-loader/dist/cjs.js):CssS ...
Mybatis分页-利用Mybatis Generator插件生成基于数据库方言的分页语句，统计记录总数 (转)
众所周知,Mybatis本身没有提供基于数据库方言的分页功能,而是基于JDBC的游标分页,很容易出现性能问题.网上有很多分页的解决方案,不外乎是基于Mybatis本机的插件机制,通过拦截Sql做分页. ...
MySQL 中 EXISTS 的用法
在MySQL中 EXISTS 和 IN 的用法有什么关系和区别呢? 假定数据库中有两个表分别为表 a 和表 b create table a ( a_id int, a_name varchar( ...
Delphi 使用断点
2019/9/18 IIS服务器 ftp站安装：隔离模式
net user ftp1 /add 添加两个账户在d盘下创建ftp站的文件夹ftptest,进入文件夹,创建文件夹LocalUser,进入LocalUser 分别创建administrator ...
HAproxy企业应用，TCP/HTTP动静分离
HAProxy的是一个免费的.开源的的tcp/http反向代理工具.负载均衡器,是一个企业非常快速和可靠的安全的解决方案,提供高可用性.高并发性,负载均衡和代理对TCP和基于HTTP的应用程序.它特别 ...

【Spark机器学习速成宝典】模型篇02逻辑斯谛回归【Logistic回归】（Python版）

目录

Logistic回归原理

Logistic回归代码(Spark Python)

【Spark机器学习速成宝典】模型篇02逻辑斯谛回归【Logistic回归】（Python版）的更多相关文章

随机推荐

热门专题