spark 创建稀疏向量和矩阵

http://blog.csdn.net/canglingye/article/details/41316193 [相互转换]:http://stackoverflow.com/questions/32456808/sparsevector-to-densevector-conversion-in-pyspark 1.稀疏矩阵和稠密矩阵可以转换成数组 2.数组可以转换成稠密矩阵 3.稀疏矩阵不能直接转换为稠密矩阵,需要先转换为数组:但是,数组和稠密矩阵都不能直接转换为稀疏矩阵 from pysp…

python 稀疏向量和矩阵的表示形式

http://blog.csdn.net/nkwangjie/article/details/17502443 http://blog.csdn.net/bitcarmanlee/article/details/52668477 稀疏矩阵有很多种,这里总结2种: from scipy import sparse 1.csr_matrix [行压缩矩阵) (与之对应,列压缩举证:csc_matrix] csr_matrix,全名为Compressed Sparse Row,是按行对矩阵进行压…

【RS】Sparse Probabilistic Matrix Factorization by Laplace Distribution for Collaborative Filtering - 基于拉普拉斯分布的稀疏概率矩阵分解协同过滤

[论文标题]Sparse Probabilistic Matrix Factorization by Laplace Distribution for Collaborative Filtering (24th-IJCAI ) (Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence (IJCAI 2015) ) [论文作者]Liping Jing, PengWa…

Spark创建空的DataFrame

前言本文主要给出Spark创建空的DataFrame的代码示例,这里讲的空的DataFrame主要指有列名(可以自己随意指定),但是没有行的DataFrame,因为自己在开发过程中有这个需求,之前并不知道怎么创建,就查了一下,发现资料并不多,不知道因为太简单还是用的人少,至于具体什么需求就不阐述了,主要给有这方面需求的小伙伴参考一下.还有另一种空的DataFrame就是没有任何行任何列的DataFrame,不知道有什么用,反正贴在代码里,万一有人用呢 1.代码代码较简单,如下 import…

idea在本地调试，spark创建hiveContext的时候报错

spark版本:1.6.1 scala版本:2.10 问题呢场景: 在idea调试本地程序的时候创建hiveContext报错,上午的时候是没有这个问题的,下午在项目中写了一个小deamon,出现了而这个问题,下面是我的代码: import cn.com.xxx.common.config.SparkConfig import org.apache.spark.sql.hive.HiveContext object test{ def main(args: Array[String]): Uni…

Spark Distributed matrix 分布式矩阵

RowMatrix行矩阵 import org.apache.spark.rdd.RDD import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.linalg.distributed.RowMatrix val df1 = Seq( | (1.0, 2.0, 3.0), | (1.1, 2.1, 3.1), | (1.2, 2.2, 3.2)).toDF("c1", "c2"…

26.Spark创建RDD集合

打开eclipse创建maven项目 pom.xml文件 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0…

SWM格式稀疏权重矩阵转换为方阵形式全过程分享

在进行空间统计实验过程中,经常涉及到空间权重矩阵的处理,有时候需要将ArcGIS生成的swm格式的权重矩阵转换为形如“0 1”的方阵格式.这里将我的办法整理出来. 1.用如下工具箱生成swm格式的权重矩阵 2.将swm格式的权重矩阵转换为dbf属性表 3.用excel打开dbf将其转换为txt文本文件 4.写程序转换格式并保存代码如下: static void Main(string[] args) { //读取文件并转换格式 StreamReader sr = File.OpenT…

向量和矩阵的范数及MATLAB调用函数

范数就是长度的一种推广形式,数学语言叫一种度量.比如有一个平面向量,有两个分量来描述:横坐标和纵坐标.向量的二范数就是欧几里得意义下的这个向量的长度.还有一些诸如极大值范数,就是横坐标或者纵坐标的最大的那个,也可以视为这个向量的一个度量,具体来说就代表了这个向量在坐标轴上投影的最大长度.推广到一般的N维空间,范数还是类似的.对于矩阵,可以理解了多个向量放在一起.矩阵的行范数和列范数都是从不同的角度出发,选择了这组向量元素之和最大的作为矩阵范数.代表了该矩阵在N维空间中所“覆盖”的一个范围.矩阵的…

SPARK 创建新任务

1.应用程序创建 SparkContext 的实例 sc 2.利用 SparkContext 的实例来创建生成 RDD 3.经过一连串的 transformation 操作,原始的 RDD 转换成为其它类型的 RDD 4.当 action 作用于转换之后 RDD 时,会调用 SparkContext 的 runJob 方法 5.sc.runJob 的调用是后面一连串反应的起点,关键性跃变发生…

【348】通过 Numpy 创建各式各样的矩阵

参考:NumPy之array-一个程序媛的自我修养-51CTO博客参考:numpy中数组和矩阵的区别 - jiangsujiangjiang的博客 - CSDN博客一.使用系统方法二.用指定的数据填充…

第三十九篇入门机器学习——Numpy.array的基础操作——合并与分割向量和矩阵

No.1. 初始化状态 No.2. 合并多个向量为一个向量 No.3. 合并多个矩阵为一个矩阵 No.4. 借助vstack和hstack实现矩阵与向量的快速合并.或多个矩阵快速合并 No.5. 分割向量 No.6. 分割矩阵 No.7. 使用vsplit和hsplit对矩阵进行快速垂直分割及水平分割 No.8. 分割的应用:从矩阵中抽出最后一列,然后将其转化成向量…

c#调用R

R.NET使用文档介绍本页面涉及R.NET1.5.13. 1.5.13版本在功能上等同于1.5.12,但可作为一个包在NuGet.org上获得. R.NET使.NET框架与R统计语言在同一进程进行互操作. R.NET需要.NET Framework 4的并有R环境中安装的本地的DLL.您可以使用R.NET用在.NET的任何语言(它已被用于至少C#,F#,Vb.NET,IronPython中).你使用这个文档之前有几个相关的事项都必须被提及.对于F#,你应该考虑F# - [R提供商.一个动机释…

spark-mllib 密集向量和稀疏向量

spark-mllib 密集向量和稀疏向量 MLlib支持局部向量和矩阵存储在单台服务器,也支持存储于一个或者多个rdd的分布式矩阵 . 局部向量和局部矩阵是用作公共接口的最简单的数据模型. 基本的线性代数运算由Breeze提供. 在监督学习中使用的训练示例在MLlib中称为"标记点". 因此,向量和矩阵,标记点是 spark-mllib基本的数据模型,也是学习sparl-mllib的基础. 局部向量一个局部向量具有存储在单个机器上的integer整数类型的基于0的索引和doubl…

spark 类标签的稀疏特征向量

一个向量(1.0,0.0,3.0)它有2中表示的方法密集:[1.0,0.0,3.0] 其和一般的数组无异稀疏:(3,[0,2],[1.0,3.0]) 其表示的含义(向量大小,序号,值) 序号从0开始本地向量和矩阵本地向量(Local Vector)存储在单台机器上,索引采用0开始的整型表示,值采用Double类型的值表示.Spark MLlib中支持两种类型的矩阵,分别是密度向量(Dense Vector)和稀疏向量(Spasre Vector),密度向量会存储所有的值…

Spark Mllib里的本地矩阵概念、构成（图文详解）

不多说,直接上干货! Local matrix:本地矩阵数组Array(1,2,3,4,5,6)被重组成一个新的2行3列的矩阵. testMatrix.scala package zhouls.bigdata.chapter4 import org.apache.spark.mllib.linalg.{Matrix, Matrices} object testMatrix { def main(args: Array[String]) { val mx = Matrices.dense(2,…

用Spark学习矩阵分解推荐算法

在矩阵分解在协同过滤推荐算法中的应用中,我们对矩阵分解在推荐算法中的应用原理做了总结,这里我们就从实践的角度来用Spark学习矩阵分解推荐算法. 1. Spark推荐算法概述在Spark MLlib中,推荐算法这块只实现了基于矩阵分解的协同过滤推荐算法.而基于的算法是FunkSVD算法,即将m个用户和n个物品对应的评分矩阵M分解为两个低维的矩阵:$$M_{m \times n}=P_{m \times k}^TQ_{k \times n}$$ 其中k为分解成低维的维数,一般远比m和n小.如果大…

spark 中如何查看单个RDD分区的内容（创建分区，查看分区数）

spark 创建分区 val scores = Array(("Fred", 88), ("Fred", 95), ("Fred", 91), ("Wilma", 93), ("Wilma", 95), ("Wilma", 98)) val input = sc.parallelize(scores,3) #这里创建了3个分区查看分区数: input.partitions.size…

numpy模块之创建矩阵、矩阵运算

本文参考给妹子讲python https://zhuanlan.zhihu.com/p/34673397 NumPy是Numerical Python的简写,是高性能科学计算和数据分析的基础包,他是许多高级工具的构建基础. 他的核心功能是: 1.多维向量的描述和快速高效计算能力,让数组和矩阵的使用更加自然: 2.大量实用的数学函数,支撑复杂的线性代数.随机数生成以及傅里叶变换函数 3.具备数据的磁盘读写工具对于同样的数值计算任务,使用NumPy要比直接编写Python代码便捷的多.这是因为Nu…

Spark MLlib Data Type

MLlib 支持存放在单机上的本地向量和矩阵,也支持通过多个RDD实现的分布式矩阵.因此MLlib的数据类型主要分为两大类:一个是本地单机向量:另一个是分布式矩阵.下面分别介绍一下这两大类都有哪些类型: 1.Local vector(本地向量) (1)Vector 最基本的类型是Vector,该类型索引是从0开始的整型类型,值类型是double类型.并提供了两个实现:DenseVector and SparseVector.但是一把情况下都是推荐使用工厂方法来创建Vector.如下所示: imp…