# -*-coding=utf-8 -*-

from pyspark import SparkConf, SparkContext

sc = SparkContext('local')

from pyspark.mllib.regression import LabeledPoint, LinearRegressionWithSGD, LinearRegressionModel

# Load and parse the data 加载和解析数据，将每一个数转化为浮点数。每一行第一个数作为标记，后面的作为特征

def parsePoint(line):

    values = [float(x) for x in line.replace(',', ' ').split(' ')]

    return LabeledPoint(values[0], values[1:])

data = sc.textFile("data/mllib/ridge-data/lpsa.data")

print data.collect()[0] #-0.4307829,-1.63735562648104 -2.00621178480549 -1.86242597251066 -1.024....-0.864466507337306

parsedData = data.map(parsePoint)

print parsedData.collect()[0] #(-0.4307829,[-1.63735562648,-2.00621178481,-1.86242597251,-1.024....,-0.864466507337])

# Build the model 建立模型

model = LinearRegressionWithSGD.train(parsedData, iterations=1000, step=0.1)

# Evaluate the model on training data 评估模型在训练集上的误差

valuesAndPreds = parsedData.map(lambda p: (p.label, model.predict(p.features)))

MSE = valuesAndPreds \

    .map(lambda vp: (vp[0] - vp[1])**2) \

    .reduce(lambda x, y: x + y) / valuesAndPreds.count()

print("Mean Squared Error = " + str(MSE)) #Mean Squared Error = 6.32693963099

# Save and load model 保存模型和加载模型

model.save(sc, "pythonLinearRegressionWithSGDModel")

sameModel = LinearRegressionModel.load(sc, "pythonLinearRegressionWithSGDModel")

print sameModel.predict(parsedData.collect()[0].features) #-1.86583391312

【Spark机器学习速成宝典】模型篇03线性回归【LR】（Python版）的更多相关文章

【Spark机器学习速成宝典】模型篇08保序回归【Isotonic Regression】（Python版）
目录保序回归原理保序回归代码(Spark Python) 保序回归原理待续... 返回目录保序回归代码(Spark Python) 代码里数据:https://pan.baidu.com/s/ ...
【Spark机器学习速成宝典】模型篇07梯度提升树【Gradient-Boosted Trees】（Python版）
目录梯度提升树原理梯度提升树代码(Spark Python) 梯度提升树原理待续... 返回目录梯度提升树代码(Spark Python) 代码里数据:https://pan.baidu.co ...
【Spark机器学习速成宝典】模型篇06随机森林【Random Forests】（Python版）
目录随机森林原理随机森林代码(Spark Python) 随机森林原理参考:http://www.cnblogs.com/itmorn/p/8269334.html 返回目录随机森林代码(Sp ...
【Spark机器学习速成宝典】模型篇05决策树【Decision Tree】（Python版）
目录决策树原理决策树代码(Spark Python) 决策树原理详见博文:http://www.cnblogs.com/itmorn/p/7918797.html 返回目录决策树代码(Spar ...
【Spark机器学习速成宝典】模型篇04朴素贝叶斯【Naive Bayes】（Python版）
目录朴素贝叶斯原理朴素贝叶斯代码(Spark Python) 朴素贝叶斯原理详见博文:http://www.cnblogs.com/itmorn/p/7905975.html 返回目录朴素贝叶 ...
【Spark机器学习速成宝典】模型篇02逻辑斯谛回归【Logistic回归】（Python版）
目录 Logistic回归原理 Logistic回归代码(Spark Python) Logistic回归原理详见博文:http://www.cnblogs.com/itmorn/p/7890468 ...
【Spark机器学习速成宝典】模型篇01支持向量机【SVM】（Python版）
目录支持向量机原理支持向量机代码(Spark Python) 支持向量机原理详见博文:http://www.cnblogs.com/itmorn/p/8011587.html 返回目录支持向量 ...
【Spark机器学习速成宝典】模型篇08支持向量机【SVM】（Python版）
目录什么是支持向量机(SVM) 线性可分数据集的分类线性可分数据集的分类(对偶形式) 线性近似可分数据集的分类线性近似可分数据集的分类(对偶形式) 非线性数据集的分类 SMO算法合页损失函数 ...
【Spark机器学习速成宝典】基础篇03数据读取与保存（Python版）
目录保存为文本文件:saveAsTextFile 保存为json:saveAsTextFile 保存为SequenceFile:saveAsSequenceFile 读取hive 保存为文本文件:s ...

随机推荐

优秀java博客
https://www.jianshu.com/p/efb58b7115bf?utm_source=tuicool https://www.nowcoder.com/discuss/110317 ht ...
01 Redis基础
NoSQL 学名(not only sql) 特点: 存储结构与mysql这一种关系型数据库完全不同,nosql存储的是KV形式 nosql有很多产品,都有自己的api和语法,以及业务场景产品种类: ...
this —— javascript
目录为什么要讨论this this是什么如何改变this的指向箭头函数中的this 为什么要讨论this 代码一: function fun1(){ var aa = 'I am aa'; co ...
redis一键部署脚本
1.新建一个名为 auto_install_redis.sh的文件 2.将下面脚本拷贝到文件中,具体步骤在注释里面 #环境 linux #一键安装redis,在linux环境中使用脚本运行该文件(sh ...
MyEclipse_10.7安装及破解
MyEclipse_10.7 0.解压文件如下两图操作:1.运行安装程序,双击myeclipse-10.7-offline-installer-windows.exe进入安装界面,下一步:2.同意协议 ...
Win10下注册APlayer组件的正确姿势
1. 官网下载SDK 和解码器 APlayer媒体播放引擎 2.解压SDK和解码器,把解码器codecs文件夹内所有文件复制到SDK文件夹内的bin\codecs目录里面 3.使用管理员权限打开CM ...
杜教BM模板
#include<bits/stdc++.h> using namespace std; #define rep(i,a,n) for (int i=a;i<n;i++) #defi ...
sql练习03
准备数据建表语句CREATE TABLE students(sno VARCHAR(3) NOT NULL, sname VARCHAR(4) NOT NULL,ssex VARCHAR(2) NOT ...
第二章 Vue快速入门-- 24 过滤器-Vue中全局过滤器的基本使用
<!DOCTYPE html> <html lang="en"> <head> <meta charset="utf-8&quo ...
CentOS下phpMyAdmin安装
1.phpMyAdmin官网下载https://www.phpmyadmin.net/downloads/ 2.下载程序包 wget https://files.phpmyadmin.net/phpM ...

【Spark机器学习速成宝典】模型篇03线性回归【LR】（Python版）

目录

线性回归原理

线性回归代码(Spark Python)

【Spark机器学习速成宝典】模型篇03线性回归【LR】（Python版）的更多相关文章

随机推荐

热门专题