Spark MLlib Data Type

MLlib 支持存放在单机上的本地向量和矩阵，也支持通过多个RDD实现的分布式矩阵。因此MLlib的数据类型主要分为两大类：一个是本地单机向量；另一个是分布式矩阵。下面分别介绍一下这两大类都有哪些类型：

1、Local vector（本地向量）

（1）Vector

　　最基本的类型是Vector，该类型索引是从0开始的整型类型，值类型是double类型。并提供了两个实现：DenseVector and SparseVector。但是一把情况下都是推荐使用工厂方法来创建Vector。如下所示：

import org.apache.spark.mllib.linalg.{Vector, Vectors}

// Create a dense vector (1.0, 0.0, 3.0).

val dv: Vector = Vectors.dense(1.0, 0.0, 3.0)

// Create a sparse vector (1.0, 0.0, 3.0) by specifying its indices and values corresponding to nonzero entries.

val sv1: Vector = Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0))

// Create a sparse vector (1.0, 0.0, 3.0) by specifying its nonzero entries.

val sv2: Vector = Vectors.sparse(3, Seq((0, 1.0), (2, 3.0)))

（2）LabeledPoint

　　LabeledPoint类型一般用于有监督的学习算法当中，因为该类型会标记对应的标签。并且第一个参数就是标签，第二个参数是一个vector类型的数据。

val pos = LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0))

（3）Local matrix

　　Local matrix是有一个int类型的行索引和列索引，和double类型的值。并且存储在单机。Local matrix最基本的类型是Matrix ，也提供了两个实现类型：DenseMatrix, and SparseMatrix。但是依伴推荐使用工厂方法：Matrices 。如下所示：

    val dm: Matrix = Matrices.dense(3, 2, Array(1.0, 3.0, 5.0, 2.0, 4.0, 6.0))

    val sm: Matrix = Matrices.sparse(3, 2, Array(0, 1, 3), Array(0, 2, 1), Array(9, 6, 8))

2、Distributed matrix（分布式矩阵）

（1）RowMatrix

　　RowMatrix矩阵是一个基于行的，且没有索引的一个分布式矩阵，它的所有行组成一个RDD，它的每一行是一个local Vector。由于它的行类型是Local Vector，所以它的列应该是有限的。因为它必须能保证能够存储在一台机器内。如下所示：

    val rows = sc.textFile("/user/liujiyu/spark/mldata1.txt")

      .map(_.split(' ') //     转换为RDD[Array[String]]类型

        .map(_.toDouble)) //            转换为RDD[Array[Double]]类型

      .map(line => Vectors.dense(line)) //转换为RDD[Vector]类型

    // Create a RowMatrix from an RDD[Vector].

    val mat: RowMatrix = new RowMatrix(rows)

（2）IndexedRowMatrix

　　IndexedRowMatrix类型与RowMatrix类型相似，但是IndexedRowMatrix拥有强大的行索引。IndexedRowMatrix能够由RDD[IndexedRow]创建，而IndexedRow是由（Long,Vector）封装。

val rows1 = sc.textFile("/user/liujiyu/spark/mldata1.txt")

      .map(_.split(' ') //     转换为RDD[Array[String]]类型

        .map(_.toDouble)) //            转换为RDD[Array[Double]]类型

      .map(line => Vectors.dense(line)) //转换为RDD[Vector]类型

      .map((vc) => new IndexedRow(vc.size, vc)) //IndexedRow 带有行索引的矩阵，初始化的参数，列数和每一行的vector

val irm = new IndexedRowMatrix(rows1)

（3）CoordinateMatrix（坐标矩阵）

　　CoordinateMatrix是一个分布式矩阵，它是由Entry组成的一个RDD，每一个Entry是由（i:Long，j:Long，value:Double）封装。这里的i表示的是行索引，j表示的是列索引，value表示的对应的值。CoordinateMatrix能够通过RDD[MatrixEntry]来创建。如果矩阵是非常大的而且稀疏，坐标矩阵一定是最好的选择。坐标矩阵则是通过RDD[MatrixEntry]实例创建，MatrixEntry是(long,long.Double)封装形式。如下所示：

对应的矩阵文件mldata1.txt：
                  1 1 4
                  2 6 2
                  1 3 4
                  2 3 4
                  2 8 1
                  3 2 4
                  5 1 3
读取该文件，并初始化为CoordinateMatrix：

val rows2 = sc.textFile("/user/liujiyu/spark/mldata1.txt")

      .map(_.split(' ') //     转换为RDD[Array[String]]类型

  //      .map(_.toDouble)) //            转换为RDD[Array[Double]]类型

      .map(m => (m(0).toLong, m(1).toLong, m(2).toDouble))

      .map((vc) => new MatrixEntry(vc._1, vc._2, vc._3)) //IndexedRow 带有行索引的矩阵，初始化的参数，列数和每一行的vector

    val cm = new CoordinateMatrix(rows2)

（4）BlockMatrix

　　BlockMatrix是一个分布式矩阵，它是由MatrixBlocks组成的一个RDD 。这里的MatrixBlocks是由字典类型（（Int，Int），Matrix）组成。这里（Int,Int）是block的索引，Matrix是这个给定的尺寸rowsPerBlock x colsPerBlock的子矩阵。

　　BlockMatrix能够容易通过IndexedRowMatrix or CoordinateMatrix的toBlockMatrix方法来创建。toBlockMatrix方法默认创建的blocks的大小是1024*1024。用户可以通过传递参数的方式来改变这个blocks的大小，如：toBlockMatrix(rowsPerBlock, colsPerBlock)。

    //A BlockMatrix can be most easily created from an IndexedRowMatrix or CoordinateMatrix by calling toBlockMatrix.

    val matA: BlockMatrix = cm.toBlockMatrix().cache()

    // Validate whether the BlockMatrix is set up properly. Throws an Exception when it is not valid.

    // Nothing happens if it is valid.

    matA.validate()

    // Calculate A^T A.

    val ata = matA.transpose.multiply(matA)

Spark MLlib Data Type的更多相关文章

Spark MLlib之线性回归源代码分析
1.理论基础线性回归(Linear Regression)问题属于监督学习(Supervised Learning)范畴,又称分类(Classification)或归纳学习(Inductive Le ...
Spark MLlib - Decision Tree源码分析
http://spark.apache.org/docs/latest/mllib-decision-tree.html 以决策树作为开始,因为简单,而且也比较容易用到,当前的boosting或ran ...
Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.1
3.Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.1 http://blog.csdn.net/sunbow0 ...
Spark Mllib框架1
1. 概述 1.1 功能 MLlib是Spark的机器学习(machine learing)库,其目标是使得机器学习的使用更加方便和简单,其具有如下功能: ML算法:常用的学习算法,包括分类.回归.聚 ...
spark MLlib Classification and regression 学习
二分类:SVMs,logistic regression,decision trees,random forests,gradient-boosted trees,naive Bayes 多分类: ...
RandomForest in Spark MLLib
决策树类模型 ml中的classification和regression主要基于以下几类: classification:决策树及其相关的集成算法,Logistics回归,多层感知模型: regres ...
Spark Mllib源码分析
1. Param Spark ML使用一个自定义的Map(ParmaMap类型),其实该类内部使用了mutable.Map容器来存储数据. 如下所示其定义: Class ParamMap privat ...
Spark MLlib框架详解
1. 概述 1.1 功能 MLlib是Spark的机器学习(machine learing)库,其目标是使得机器学习的使用更加方便和简单,其具有如下功能: ML算法:常用的学习算法,包括分类.回归.聚 ...
Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.1
Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.1 http://blog.csdn.net/sunbow0 Spark ML ...

随机推荐

Evolutionary Computing: 5. Evolutionary Strategies(1)
resource: Evolutionary computing, A.E.Eiben Outline What is Evolution Strategies Introductory Exampl ...
[分享] 史上最简单的封装教程，五分钟学会封装系统（以封装Windows 7为例）
[分享] 史上最简单的封装教程,五分钟学会封装系统(以封装Windows 7为例) 踏雁寻花发表于 2015-8-23 23:31:28 https://www.itsk.com/thread-35 ...
冰球项目日志3-yjw
小组讨论今天大家讨论了之前各自想的方案的问题,基本确定了寻找击球点的方案,以及击球手运动轨迹规划的方案,这里我只是简单的说下我们的击球点的确定方案. 击球策略方案方案分析首先我们建立平面在直角坐 ...
开发微信小程序中遇到的坑及解决方法
1.wx.request 只能访问 https 解决: 新建项目不填appid 即可访问 localhost 2.页面中多重三元表达式解析有问题解决: <!--{{index}} { ...
[ubuntu]用ubuntu开发的日子----win7 ubuntu双系统
小子终于忍不了win7某些蛋疼的设定,看群里好多大牛推荐mac,但资金紧张,只好推而求其次使用ubuntu,但是由于公司工作环境是windows,所以还必须保留windows系统,一次决定双系统. 下 ...
从世界坐标转换成ui的rect坐标的方法
这个东西整整折磨了我一个通宵.原谅我先这样放上来.明天整理整理 using UnityEngine; using System.Collections; using UnityEngine.UI; p ...
《高级Web应用程序设计》课程
一.课堂课件全部授课内容二.作业访问ftp://192.168.42.254:22,登录后找到自己的姓名文件夹,放入作业即可.登录账号为stu1,密码为空. 已布置练习练习1(截止日期10月1 ...
Java_ToolKit用法
转自:http://blog.sina.com.cn/s/blog_9e4556250100z5kv.html 此类是所有 Abstract Window Toolkit 实际实现的抽象超类.Tool ...
HTML页面优化
第一步:加载优化减少HTTP请求. 因为手机浏览器同时响应请求为4个请求(Android支持4个,iOS 5后可支持6个),所以要尽量减少页面的请求数,首次加载同时请求数不能超过4个.a) 合并CS ...
flume介绍与原理(一)
1 .背景 flume是由cloudera软件公司产出的可分布式日志收集系统,后与2009年被捐赠了apache软件基金会,为hadoop相关组件之一.尤其近几年随着flume的不断被完善以及升级版本 ...

Spark MLlib Data Type

Spark MLlib Data Type的更多相关文章

随机推荐

热门专题