一、spark 数据类型(Data Types)

Data Types - MLlib（数据类型）

MLlib支持存储在单机上的局部向量和局部矩阵，也可以支持通过一个或多个RDD(可伸缩数据集)表示的分布式矩阵。局部向量和局部矩阵是用作公共接口的简单数据模型，实际上底层的线性代数运算由Breeze （机器学习和数值运算的Scala库）和 jblas (Java线性代数运算库)提供。在有监督机器学习中，MLlib使用标记点(labeled point)来表示单个训练语料。

局部向量[Local vector]:

局部向量存储在单机上，使用整数表示索引，索引从0开始；使用双精度浮点数(double)存储数值。MLlib支持两种类型的局部向量：密集型和稀疏型。密集向量(dense vector)使用double数组表示元素值，而稀疏向量(sparse vector)通过两个并列的数组来表示：一个表示索引，一个表示数值。例如：向量(1.0, 0.0, 3.0)使用密集型可表示为：[1.0, 0.0, 3.0], 而使用稀疏型可以表示为：(3, [0, 2], [1.0, 3.0]], 其中3是向量的长度。

import org.apache.spark.mllib.linalg.Vector;

import org.apache.spark.mllib.linalg.Vectors;

// Create a dense vector (1.0, 0.0, 3.0).

Vector dv = Vectors.dense(1.0, 0.0, 3.0);

// Create a sparse vector (1.0, 0.0, 3.0) by specifying its indices and values corresponding to nonzero entries.

Vector sv = Vectors.sparse(3, new int[] {0, 2}, new double[] {1.0, 3.0});

标记点[Labeled point]:

标记点是局部向量，向量可以是密集型或者稀疏型，每个向量会关联了一个标签(label)。MLlib的标记点用于有监督学习算法。我们使用double来存储标签值，这样标记点既可以用于回归又可以用于分类。在二分类中，标签要么是0要么是1;在多分类中，标签是0, 1, 2, ….

import org.apache.spark.mllib.linalg.Vectors;

import org.apache.spark.mllib.regression.LabeledPoint;

// Create a labeled point with a positive label and a dense feature vector.

LabeledPoint pos = new LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0));

// Create a labeled point with a negative label and a sparse feature vector.

LabeledPoint neg = new LabeledPoint(0.0, Vectors.sparse(3, new int[] {0, 2}, new double[] {1.0, 3.0}));

稀疏数据[Sparse data]:

在实践中经常用到稀疏训练数据。MLlib支持读取LIBSVM格式的训练语料数据，这个是 LIBSVM 和LIBLINERAR 中用到的默认格式(LIBSVM和LIBLINERAR是台湾林智仁教授开发的的SVM库和线性分类器）。这是一种文本格式，每行表示一个标记的稀疏特征向量，示例如下：

label index1:value1 index2:value2 ...

字符串使用空格分隔，索引从0开始，以递增的训练排列。导入系统后，特征索引自动转为从0开始索引。

import org.apache.spark.mllib.regression.LabeledPoint;

import org.apache.spark.mllib.util.MLUtils;

import org.apache.spark.api.java.JavaRDD;

JavaRDD<LabeledPoint> examples = MLUtils.loadLibSVMFile(jsc.sc(), "data/mllib/sample_libsvm_data.txt").toJavaRDD();

局部矩阵[Local matrix]:

局部矩阵使用整型行列索引和浮点(double)数值,存储在单机上。MLIB支持密集型矩阵，元素值按列优先以double数组的方式存储。例如，下面的矩阵：

会被存储为一维数组[1.0, 3.0, 5.0, 2.0, 4.0, 6.0],矩阵的大小是(3, 2)。

import org.apache.spark.mllib.linalg.Matrix;

import org.apache.spark.mllib.linalg.Matrices;

// Create a dense matrix ((1.0, 2.0), (3.0, 4.0), (5.0, 6.0))

Matrix dm = Matrices.dense(3, 2, new double[] {1.0, 3.0, 5.0, 2.0, 4.0, 6.0});

// Create a sparse matrix ((9.0, 0.0), (0.0, 8.0), (0.0, 6.0))

Matrix sm = Matrices.sparse(3, 2, new int[] {0, 1, 3}, new int[] {0, 2, 1}, new double[] {9, 6, 8});

分布式矩阵[Distributed matrix]:

基本类型是行矩阵(RowMatrix)。行矩阵按行分布式存储，这个时候行号没有意义。例如，特征向量集就可以表示为行矩阵，通过RDD来支撑矩阵的部分行，每行是一个局部向量。我们认为RowMatrix的列数不是特别巨大，所以单个局部向量可以方便地跟驱动程序交互，并且能够在单个节点上存储和操作。索引行矩阵(IndexedRowMatrix)跟RowMatrix类似，但是IndexedRowMatrix带有行号，从而可以标记行并且执行join操作。坐标矩阵(CoordinateMatrix)是以coordinate list (COO)（COO用于存储稀疏矩阵，以链表的形式(list)存放(rowIndex, colIndex, value）元组）格式存储的分布式矩阵，其底层支撑也是RDD。

注意：分布式矩阵底层的RDD必须是确定的，因为我们缓存了矩阵的大小(size)。通常使用不确定的RDD会导致出错。

行矩阵[RowMatrix]:

行矩阵(RowMatrix)按行分布式存储，无行索引，底层支撑结构是多行数据组成的RDD，每行是一个局部向量。正因为每行是局部向量，列数受限于整数的范围，不过在实践中已经够用了。

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.mllib.linalg.Vector;

import org.apache.spark.mllib.linalg.distributed.RowMatrix;

JavaRDD<Vector> rows = ... // a JavaRDD of local vectors

// Create a RowMatrix from an JavaRDD<Vector>.

RowMatrix mat = new RowMatrix(rows.rdd());

// Get its size.

long m = mat.numRows();

long n = mat.numCols();

// QR decomposition

QRDecomposition<RowMatrix, Matrix> result = mat.tallSkinnyQR(true);

索引行矩阵[IndexedRowMatrix]:

索引行矩阵(IndexedRowMatrix)跟RowMatrix类似，但是有行索引。其底层支撑结构是索引的行组成的RDD，所以每行可以通过索引(long)和局部向量表示。

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.mllib.linalg.distributed.IndexedRow;

import org.apache.spark.mllib.linalg.distributed.IndexedRowMatrix;

import org.apache.spark.mllib.linalg.distributed.RowMatrix;

JavaRDD<IndexedRow> rows = ...// a JavaRDD of indexed rows

// Create an IndexedRowMatrix from a JavaRDD<IndexedRow>.

IndexedRowMatrix mat = new IndexedRowMatrix(rows.rdd());

// Get its size.

long m = mat.numRows();

long n = mat.numCols();

// Drop its row indices.

RowMatrix rowMat = mat.toRowMatrix();

坐标矩阵[CoordinateMatrix]:

坐标矩阵（CoordinateMatrix）也是由RDD做底层结构的分布式矩阵。每个RDD元素是由多个(i : long, j : long, value: Double)组成的元组，其中i是行索引，j是列索引，value是元素值。CoordinateMatrix 只应该应用于矩阵纬度高并且稀疏的情况下。

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.mllib.linalg.distributed.CoordinateMatrix;

import org.apache.spark.mllib.linalg.distributed.IndexedRowMatrix;

import org.apache.spark.mllib.linalg.distributed.MatrixEntry;

JavaRDD<MatrixEntry> entries = ... // a JavaRDD of matrix entries

// Create a CoordinateMatrix from a JavaRDD<MatrixEntry>.

CoordinateMatrix mat = new CoordinateMatrix(entries.rdd());

// Get its size.

long m = mat.numRows();

long n = mat.numCols();

// Convert it to an IndexRowMatrix whose rows are sparse vectors.

IndexedRowMatrix indexedRowMatrix = mat.toIndexedRowMatrix();

分块矩阵[BlockMatrix]:

分块矩阵(BlockMatrix)是由RDD支撑的分布式矩阵，RDD中的元素为MatrixBlock。MatrixBlock是多个((Int, Int), Matrix)组成的元组，其中(Int, Int)是分块索引, Matriax是指定索引处的子矩阵, 该矩阵的大小为rowsPerBlock xcolsPerBlock。BlockMatrix支持跟其他BlockMatrix做add(加)和multiply(乘）操作。BlockMatrix还有一个辅助方法validate，这个方法可以检查BlockMatrix是否设置是否恰当。

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.mllib.linalg.distributed.BlockMatrix;

import org.apache.spark.mllib.linalg.distributed.CoordinateMatrix;

import org.apache.spark.mllib.linalg.distributed.IndexedRowMatrix;

JavaRDD<MatrixEntry> entries = ... // a JavaRDD of (i, j, v) Matrix Entries

// Create a CoordinateMatrix from a JavaRDD<MatrixEntry>.

CoordinateMatrix coordMat = new CoordinateMatrix(entries.rdd());

// Transform the CoordinateMatrix to a BlockMatrix

BlockMatrix matA = coordMat.toBlockMatrix().cache();

// Validate whether the BlockMatrix is set up properly. Throws an Exception when it is not valid.

// Nothing happens if it is valid.

matA.validate();

// Calculate A^T A.

BlockMatrix ata = matA.transpose().multiply(matA);

一、spark 数据类型(Data Types)的更多相关文章

Entity Framework Code First （七）空间数据类型 Spatial Data Types
声明:本文针对 EF5+, Visual Studio 2012+ 空间数据类型(Spatial Data Types)是在 EF5 中引入的,空间数据类型表现有两种: Geography (地理学上 ...
【12c】扩展数据类型（Extended Data Types）-- MAX_STRING_SIZE
[12c]扩展数据类型(Extended Data Types)-- MAX_STRING_SIZE 在12c中,与早期版本相比,诸如VARCHAR2, NAVARCHAR2以及 RAW这些数据类型的 ...
表达式，数据类型和变量(Expressions，Data Types & Variables)
(一)表达式: 1)4+4就是表达式,它是程序中最基本的编程指令:表达式包含一个值(4)和操作符号(+),然后就会计算出一个单独的值; 2)一个单独的值没有包含操作符号也可以叫表达式,尽管它只计算它本 ...
ExtJS笔记 Ext.data.Types
This is a static class containing the system-supplied data types which may be given to a Field. Type ...
TypeScript学习指南第一章--基础数据类型(Basic Types)
基础数据类型(Basic Types) 为了搭建应用程序,我们需要使用一些基础数据类型比如:numbers,strings,structures,boolean等等. 在TypeScript中除了Ja ...
Data Types
原地址: Home / Database / Oracle Database Online Documentation 11g Release 2 (11.2) / Database Administ ...
Oracle Schema Objects——Tables——Oracle Data Types
Oracle Schema Objects Oracle Data Types 数据类型 Data Type Description NUMBER(P,S) Number value having a ...
4.Data Types in the mongo Shell-官方文档摘录
总结: 1.MongoDB 的BSON格式支持额外的数据类型 2 Date 对象内部存储64位字节存整数,存储使用NumberLong()这个类来存,使用NumberInt()存32位整数,128位十 ...
【翻译】苹果官网的命名规范之 Naming Properties and Data Types
苹果官方原文:Naming Properties and Data Types 前言:纯属练习英语和学习.翻译错误和不通顺的地方敬请谅解和指正.O(∩_∩)O 属性和数据类型的命名本节讲述了属性定义 ...

随机推荐

printf用法之打印2进制，八进制，十进制，十六进制
printf是格式化输出函数,它可以直接打印十进制,八进制,十六进制,输出控制符分别为%d, %o, %x, 但是它不存在二进制,如果输出二进制,可以手写,但是也可以调用stdlib.h里面的itoa ...
NYOJ 10 skiing动态规划心得
这道题目,拿到手中,首先想到的是搜索,但是,后来想了想搜索不知道从哪搜起,就看了一下分类,一看属于动态规划类的,因为以前没有接触过动态规划,所以在网上搜了一下动态规划的思想,看过之后也有想到将它们到周 ...
ViewPage 大圣归来原生示例
VP简介 android-support-v4.jar 是谷歌官方给我们提供的一个兼容低版本安卓设备的软件包,里面包囊了只有在安卓3.0以上可以使用的api.而ViewPage就是其中之一,利用它,我 ...
（转）html5 Placeholder属性兼容IE6、7方法
使低版本浏览器支持Placeholder有很多方法,都不是很完美,或多或少有点问题,且有些原生支持的浏览器在获得焦点时会清空Placeholder提示.发现zhihu的解决方法不错,特记录下 wind ...
php单例模式深入讲解
避免多次初始化数据库连接DAO 需要多次初始化数据库连接的场景场景1: 首先PHP单例模式我觉得只是针对单次页面级请求时出现多个应用场景并需要共享同一对象资源时是非常有意义的一个类A需要调用多个类 ...
(转)\r \r\n \t 的区别
小风吹雪 \r \r\n \t 的区别 http://www.360doc.com/content/12/0530/15/16538_214756101.shtml \n 软回车: 在Wi ...
BIND9详解之日志篇
在默认情况下,BIND把日志消息写到/var/log/messages文件中,而这些日志消息是非常少的,主要就是启动,关闭的日志记录和一些严重错误的消息,所以要详细记录服务器的运行状况,需要自己配置服 ...
wininet API调用，检测网络
[DllImport("wininet")] private extern static bool InternetGetConnectedState(out int ...
C#数组的使用
//计算数组中最大值,最小值,平均值和总和 //类中main最先执行 static void Main(string[] args) { //声明一个数组,数组长度一定固定就不能更改了 , , , , ...
自定义分页标签，并使分页标签能获得url中的参数
如题,要实现一个分页功能,其次,要让分页标签“智能一点”,在分页时能自动带上url后面的参数 <tag> <description>分页标签</description&g ...

一、spark 数据类型(Data Types)

一、spark 数据类型(Data Types)的更多相关文章

随机推荐

热门专题