Spark Distributed matrix 分布式矩阵

RowMatrix行矩阵

import org.apache.spark.rdd.RDD

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.mllib.linalg.distributed.RowMatrix

val df1 = Seq(

     |       (1.0, 2.0, 3.0),

     |       (1.1, 2.1, 3.1),

     |       (1.2, 2.2, 3.2)).toDF("c1", "c2", "c3")

df1: org.apache.spark.sql.DataFrame = [c1: double, c2: double ... 1 more field]

df1.show

+---+---+---+

| c1| c2| c3|

+---+---+---+

|1.0|2.0|3.0|

|1.1|2.1|3.1|

|1.2|2.2|3.2|

+---+---+---+

// DataFrame转换成RDD[Vector]

val rowsVector= df1.rdd.map {

     |       x =>

     |         Vectors.dense(

     |           x(0).toString().toDouble,

     |           x(1).toString().toDouble,

     |           x(2).toString().toDouble)

     |     }

rowsVector: org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector] = MapPartitionsRDD[4] at map

// Create a RowMatrix from an RDD[Vector].

val mat1: RowMatrix = new RowMatrix(rowsVector)

mat1: org.apache.spark.mllib.linalg.distributed.RowMatrix = org.apache.spark.mllib.linalg.distributed.RowMatrix@7ba821ef

// Get its size.

val m = mat1.numRows()

m: Long = 3                                                                     

val n = mat1.numCols()

n: Long = 3

// 将RowMatrix转换成DataFrame

val resDF = mat1.rows.map {

     |       x =>

     |         (x(0).toDouble,

     |           x(1).toDouble,

     |           x(2).toDouble)

     |     }.toDF("c1", "c2", "c3")

resDF: org.apache.spark.sql.DataFrame = [c1: double, c2: double ... 1 more field]

resDF.show

+---+---+---+

| c1| c2| c3|

+---+---+---+

|1.0|2.0|3.0|

|1.1|2.1|3.1|

|1.2|2.2|3.2|

+---+---+---+

mat1.rows.collect().take(10)

res3: Array[org.apache.spark.mllib.linalg.Vector] = Array([1.0,2.0,3.0], [1.1,2.1,3.1], [1.2,2.2,3.2])

CoordinateMatrix坐标矩阵

import org.apache.spark.rdd.RDD

import org.apache.spark.mllib.linalg.distributed.{CoordinateMatrix, MatrixEntry}

// 第一列：行坐标；第二列：列坐标；第三列：矩阵元素

val df = Seq(

     |       (0, 0, 1.1), (0, 1, 1.2), (0, 2, 1.3),

     |       (1, 0, 2.1), (1, 1, 2.2), (1, 2, 2.3),

     |       (2, 0, 3.1), (2, 1, 3.2), (2, 2, 3.3),

     |       (3, 0, 4.1), (3, 1, 4.2), (3, 2, 4.3)).toDF("row", "col", "value")

df: org.apache.spark.sql.DataFrame = [row: int, col: int ... 1 more field]

df.show

+---+---+-----+

|row|col|value|

+---+---+-----+

|  0|  0|  1.1|

|  0|  1|  1.2|

|  0|  2|  1.3|

|  1|  0|  2.1|

|  1|  1|  2.2|

|  1|  2|  2.3|

|  2|  0|  3.1|

|  2|  1|  3.2|

|  2|  2|  3.3|

|  3|  0|  4.1|

|  3|  1|  4.2|

|  3|  2|  4.3|

+---+---+-----+

// 生成入口矩阵

val entr = df.rdd.map { x =>

     |       val a = x(0).toString().toLong

     |       val b = x(1).toString().toLong

     |       val c = x(2).toString().toDouble

     |       MatrixEntry(a, b, c)

     |     }

entr: org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.distributed.MatrixEntry] = MapPartitionsRDD[20] at map

// 生成坐标矩阵

val mat: CoordinateMatrix = new CoordinateMatrix(entr)

mat: org.apache.spark.mllib.linalg.distributed.CoordinateMatrix = org.apache.spark.mllib.linalg.distributed.CoordinateMatrix@5381deec

mat.numRows()

res5: Long = 4                                                                  

mat.numCols()

res6: Long = 3

mat.entries.collect().take(10)

res7: Array[org.apache.spark.mllib.linalg.distributed.MatrixEntry] = Array(MatrixEntry(0,0,1.1), MatrixEntry(0,1,1.2), MatrixEntry(0,2,1.3), MatrixEntry(1,0,2.1), MatrixEntry(1,1,2.2), MatrixEntry(1,2,2.3), MatrixEntry(2,0,3.1), MatrixEntry(2,1,3.2), MatrixEntry(2,2,3.3), MatrixEntry(3,0,4.1))

// 坐标矩阵转成，带行索引的DataFrame，行索引为行坐标

val t = mat.toIndexedRowMatrix().rows.map { x =>

     |       val v=x.vector

     |       (x.index,v(0).toDouble, v(1).toDouble, v(2).toDouble)

     |     }

t: org.apache.spark.rdd.RDD[(Long, Double, Double, Double)] = MapPartitionsRDD[33] at map

t.toDF().show

+---+---+---+---+

| _1| _2| _3| _4|

+---+---+---+---+

|  0|1.1|1.2|1.3|

|  1|2.1|2.2|2.3|

|  2|3.1|3.2|3.3|

|  3|4.1|4.2|4.3|

+---+---+---+---+

// 坐标矩阵转成DataFrame

val t1 = mat.toRowMatrix().rows.map { x =>

     |       (x(0).toDouble, x(1).toDouble, x(2).toDouble)

     |     }

t1: org.apache.spark.rdd.RDD[(Double, Double, Double)] = MapPartitionsRDD[26] at map

t1.toDF().show

+---+---+---+

| _1| _2| _3|

+---+---+---+

|1.1|1.2|1.3|

|3.1|3.2|3.3|

|2.1|2.2|2.3|

|4.1|4.2|4.3|

+---+---+---+

Spark Distributed matrix 分布式矩阵的更多相关文章

Spark Mllib里的分布式矩阵（行矩阵、带有行索引的行矩阵、坐标矩阵和块矩阵概念、构成）（图文详解）
不多说,直接上干货! Distributed matrix : 分布式矩阵一般能采用分布式矩阵,说明这数据存储下来,量还是有一定的.在Spark Mllib里,提供了四种分布式矩阵存储形式,均由支 ...
Spark机器学习MLlib系列１（for python）－－数据类型，向量，分布式矩阵，API
Spark机器学习MLlib系列1(for python)--数据类型,向量,分布式矩阵,API 关键词:Local vector,Labeled point,Local matrix,Distrib ...
[CareerCup] 1.7 Set Matrix Zeroes 矩阵赋零
1.7 Write an algorithm such that if an element in an MxN matrix is 0, its entire row and column are ...
A Practical Guide to Distributed Scrum - 分布式Scrum的实用指南 - 读书笔记
最近读了这本IBM出的<A Practical Guide to Distributed Scrum>(分布式Scrum的实用指南),书中的章节结构比较清楚,是针对Scrum项目进行,一个 ...
在Hadoop2.2基础上安装Spark（伪分布式）
没想到,在我的hadoop2.2.0小集群上上安装传说中的Spark竟然如此顺利,可能是因为和搭建Hadoop时比较像,更多需要学习的地方还是scala编程和RDD机制吧总之,开个好头原来的集群: ...
css3 matrix 2D矩阵和canvas transform 2D矩阵
一看到“2D矩阵”这个高大上的名词,有的同学可能会有种畏惧感,“矩阵”,看起来好高深的样子,我还是看点简单的吧.其实本文就很简单,你只需要有一点点css3 transform的基础就好. 没有前戏,直 ...
Leetcode 54:Spiral Matrix 螺旋矩阵
54:Spiral Matrix 螺旋矩阵 Given a matrix of m x n elements (m rows, n columns), return all elements of t ...
bzoj 4128: Matrix ——BSGS&&矩阵快速幂&&哈希
题目给定矩阵A, B和模数p,求最小的正整数x满足 A^x = B(mod p). 分析与整数的离散对数类似,只不过普通乘法换乘了矩阵乘法. 由于矩阵的求逆麻烦,使用 $A^{km-t} = B( ...
【Distributed】分布式解决方案【汇总】
一.问题引出二.分布式Session问题三.网站跨域问题四.分布式任务调度平台五.分布式配置中心六.分布式锁解决方案七.缓存技术一.问题引出 [Distributed]分布式系统中遇到的 ...

随机推荐

Miller Rabin素数检测
#include<iostream> #include<cstdio> #include<queue> #include<cstring> #inclu ...
Windows远程桌面(mstsc)不能复制粘贴的解决办法
原来通过mstsc远程连接Windows能够直接在本地和服务器之间复制.粘贴一些文字和文件,最近突然无法直接复制粘贴了,只能通过远程映射的本地磁盘方式交换文件,太为繁琐. 已经确认远程桌面连接选项“本 ...
搜狗拼音输入法 V9.1.0.2589 最新去广告精简优化版
搜狗拼音输入法9.0 正式版例行发布,最新版字母代号b,详细版本号为v9.1.0.2589:搜狗拼音输入法是电脑装机必备软件,版本有传统版和智慧版之分,其打字超准.词库超大.速度飞快.外观漂亮,因此使 ...
golang的dlv调试工具print打印字符串显示more,无法显示更多
使用dlv (delve golang调试器)打印字符串无法打印全,只能打印一部分(64个字节),在gdb中有 (gdb) set print elements Argument required ( ...
SAP传输请求自动发布
最近公司服务器做迁移,原R3 PRE需要迁到另外的地方,迁移后一段时间内,需要两套PRE环境同时运行,过一段时间后才将传输路线切换到新的PRE.在切换前,要求新PRE环境也要正常同步发布请求, ...
SSH方式连接Git服务器需要注意的地方
如何安装Git?这个我这里就不再多说了,想要了解的可以自行百度,以下文字是基于本地Git安装OK,且Git服务器可用的情况下,我的Git是GitLab 接下来开始操作 1:首先在本地生成私钥和公钥,这 ...
推荐系统算法学习（一）——协同过滤(CF) MF FM FFM
https://blog.csdn.net/qq_23269761/article/details/81355383 1.协同过滤(CF)[基于内存的协同过滤] 优点:简单,可解释缺点:在稀疏情况下 ...
Android application捕获崩溃异常
Java代码 .收集所有 avtivity 用于彻底退出应用 .捕获崩溃异常,保存错误日志,并重启应用 , intent, , restartIntent); // 关闭当前应用 finishAllA ...
【C++】C++中的流
目录结构: contents structure [-] 1.IO类 IO对象无拷贝状态条件状态文件流文件模式 string流 1.IO类除了istream和ostream之外,标准库还定义了 ...
server后台TCP连接存活问题
公司的server后台部署在某一个地方,接入的是用户的APP,而该地方的网络信号较差,导致了server后台在执行一段时间后用户无法接入,那边的同事反馈使用netstat查看系统.存在较多的TCP连接 ...

Spark Distributed matrix 分布式矩阵

RowMatrix行矩阵

CoordinateMatrix坐标矩阵

Spark Distributed matrix 分布式矩阵的更多相关文章

随机推荐

热门专题