# -*-coding=utf-8 -*-

from pyspark import SparkConf, SparkContext

sc = SparkContext('local')

from pyspark.mllib.classification import SVMWithSGD, SVMModel

from pyspark.mllib.regression import LabeledPoint

# Load and parse the data 加载和解析数据，将每一个数转化为浮点数。每一行第一个数作为标记，后面的作为特征

def parsePoint(line):

    values = [float(x) for x in line.split(' ')]

    return LabeledPoint(values[0], values[1:])

data = sc.textFile("data/mllib/sample_svm_data.txt")

print data.collect()[0] #1 0 2.52078447201548 0 0 0 2.004684436494304 2.00034729926846.....

parsedData = data.map(parsePoint) 

print parsedData.collect()[0] #(1.0,[0.0,2.52078447202,0.0,0.0,0.0,2.00468....

# Build the model 建立模型

model = SVMWithSGD.train(parsedData, iterations=100)

# Evaluating the model on training data 评估模型在训练集上的误差

labelsAndPreds = parsedData.map(lambda p: (p.label, model.predict(p.features)))

trainErr = labelsAndPreds.filter(lambda lp: lp[0] != lp[1]).count() / float(parsedData.count())

print("Training Error = " + str(trainErr))

# Save and load model 保存模型和加载模型

model.save(sc, "pythonSVMWithSGDModel")

sameModel = SVMModel.load(sc, "pythonSVMWithSGDModel")

print sameModel.predict(parsedData.collect()[0].features) #

【Spark机器学习速成宝典】模型篇01支持向量机【SVM】（Python版）的更多相关文章

【Spark机器学习速成宝典】模型篇08支持向量机【SVM】（Python版）
目录什么是支持向量机(SVM) 线性可分数据集的分类线性可分数据集的分类(对偶形式) 线性近似可分数据集的分类线性近似可分数据集的分类(对偶形式) 非线性数据集的分类 SMO算法合页损失函数 ...
【Spark机器学习速成宝典】模型篇08保序回归【Isotonic Regression】（Python版）
目录保序回归原理保序回归代码(Spark Python) 保序回归原理待续... 返回目录保序回归代码(Spark Python) 代码里数据:https://pan.baidu.com/s/ ...
【Spark机器学习速成宝典】模型篇07梯度提升树【Gradient-Boosted Trees】（Python版）
目录梯度提升树原理梯度提升树代码(Spark Python) 梯度提升树原理待续... 返回目录梯度提升树代码(Spark Python) 代码里数据:https://pan.baidu.co ...
【Spark机器学习速成宝典】模型篇06随机森林【Random Forests】（Python版）
目录随机森林原理随机森林代码(Spark Python) 随机森林原理参考:http://www.cnblogs.com/itmorn/p/8269334.html 返回目录随机森林代码(Sp ...
【Spark机器学习速成宝典】模型篇05决策树【Decision Tree】（Python版）
目录决策树原理决策树代码(Spark Python) 决策树原理详见博文:http://www.cnblogs.com/itmorn/p/7918797.html 返回目录决策树代码(Spar ...
【Spark机器学习速成宝典】模型篇04朴素贝叶斯【Naive Bayes】（Python版）
目录朴素贝叶斯原理朴素贝叶斯代码(Spark Python) 朴素贝叶斯原理详见博文:http://www.cnblogs.com/itmorn/p/7905975.html 返回目录朴素贝叶 ...
【Spark机器学习速成宝典】模型篇03线性回归【LR】（Python版）
目录线性回归原理线性回归代码(Spark Python) 线性回归原理详见博文:http://www.cnblogs.com/itmorn/p/7873083.html 返回目录线性回归代码( ...
【Spark机器学习速成宝典】模型篇02逻辑斯谛回归【Logistic回归】（Python版）
目录 Logistic回归原理 Logistic回归代码(Spark Python) Logistic回归原理详见博文:http://www.cnblogs.com/itmorn/p/7890468 ...
【Spark机器学习速成宝典】基础篇01Windows下spark开发环境搭建+sbt+idea（Scala版）
注意: spark用2.1.1 scala用2.11.11 材料准备 spark安装包 JDK 8 IDEA开发工具 scala 2.11.8 (注:spark2.1.0环境于scala2.11环境开 ...

随机推荐

Git复习（七）之自定义git、忽略特殊文件、配置文件
前言 config 配置有system级别(系统级别). global(用户级别).local(当前仓库)三个设置先从system->global->local 底层配置会覆盖顶层配置 ...
JVM内存模型入门
JVM内存模型入门本文是学习笔记,原文地址在:https://www.bilibili.com/video/av62009886 综述其实没有太多新东西 JVM主要分为五个区域:栈区.堆区.本地方 ...
09 Python两种创建类的方式
第一种比较普遍的方式: class Work(): def __init__(self,name): self.name = name w = Work('well woker') 这样就简单创建了一 ...
python 利用已有Ner模型进行数据清洗合并
# -*- coding: utf-8 -*- from kashgari.corpus import DataReader import re from tqdm import tqdm def c ...
Java缓存要点
1.缓存一般是这样的:先查缓存,查不到就查DB,如果DB查不到就结束,DB查到了就写入缓存. 如果用户一直在大量地查询不存在的数据,则所有的请求都会落到DB,而且没有数据写入缓存. 解决方法:把查不到 ...
12、rpm
1.什么是rpm 由红帽开发用于软件包的安装升级卸载查询 2.rpm包是什么样? 组成部分是什么样的? zip-3.0-11.el7.x86_64.rpm #el7 zip-3.0-1. el6 ...
02-jar包操作---引用本地包--maven项目
在idea工具中,普通项目的话,直接在jar上右键add as library就行了. 如果是maven项目可以将包,放入lib目录下,然后在pom文件配置引用.例子: <!--引入非本地仓库 ...
l洛谷P4779 【模板】单源最短路径（标准版）（dijkstra）
题目描述给定一个 NN 个点,MM 条有向边的带非负权图,请你计算从 SS 出发,到每个点的距离. 数据保证你能从 SS 出发到任意点. 输入格式第一行为三个正整数 N, M, SN,M,S. 第 ...
windows时钟服务设置
运行Regedit,打开注册表编辑器. 找到注册表项HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\W32Time\Config\,将Anno ...
JS 深拷贝/合并
var mix = function(r, s, ov) { if (!s || !r) return r; if (ov === undefined) ov = true; for (var p i ...

【Spark机器学习速成宝典】模型篇01支持向量机【SVM】（Python版）

目录

支持向量机原理

支持向量机代码(Spark Python)

【Spark机器学习速成宝典】模型篇01支持向量机【SVM】（Python版）的更多相关文章

随机推荐

热门专题