首页
Python
Java
IOS
Andorid
NodeJS
JavaScript
HTML5
【
spark 创建稀疏向量和矩阵
】的更多相关文章
spark 创建稀疏向量和矩阵
http://blog.csdn.net/canglingye/article/details/41316193 [相互转换]:http://stackoverflow.com/questions/32456808/sparsevector-to-densevector-conversion-in-pyspark 1.稀疏矩阵和稠密矩阵可以转换成数组 2.数组可以转换成稠密矩阵 3.稀疏矩阵不能直接转换为稠密矩阵,需要先转换为数组:但是,数组和稠密矩阵都不能直接转换为稀疏矩阵 from pysp…
python 稀疏向量和矩阵的表示形式
http://blog.csdn.net/nkwangjie/article/details/17502443 http://blog.csdn.net/bitcarmanlee/article/details/52668477 稀疏矩阵有很多种,这里总结2种: from scipy import sparse 1.csr_matrix [行压缩矩阵) (与之对应,列压缩举证:csc_matrix] csr_matrix,全名为Compressed Sparse Row,是按行对矩阵进行压…
【RS】Sparse Probabilistic Matrix Factorization by Laplace Distribution for Collaborative Filtering - 基于拉普拉斯分布的稀疏概率矩阵分解协同过滤
[论文标题]Sparse Probabilistic Matrix Factorization by Laplace Distribution for Collaborative Filtering (24th-IJCAI ) (Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence (IJCAI 2015) ) [论文作者]Liping Jing, PengWa…
Spark创建空的DataFrame
前言 本文主要给出Spark创建空的DataFrame的代码示例,这里讲的空的DataFrame主要指有列名(可以自己随意指定),但是没有行的DataFrame,因为自己在开发过程中有这个需求,之前并不知道怎么创建,就查了一下,发现资料并不多,不知道因为太简单还是用的人少,至于具体什么需求就不阐述了,主要给有这方面需求的小伙伴参考一下.还有另一种空的DataFrame就是没有任何行任何列的DataFrame,不知道有什么用,反正贴在代码里,万一有人用呢 1.代码 代码较简单,如下 import…
idea在本地调试,spark创建hiveContext的时候报错
spark版本:1.6.1 scala版本:2.10 问题呢场景: 在idea调试本地程序的时候创建hiveContext报错,上午的时候是没有这个问题的,下午在项目中写了一个小deamon,出现了而这个问题,下面是我的代码: import cn.com.xxx.common.config.SparkConfig import org.apache.spark.sql.hive.HiveContext object test{ def main(args: Array[String]): Uni…
Spark Distributed matrix 分布式矩阵
RowMatrix行矩阵 import org.apache.spark.rdd.RDD import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.linalg.distributed.RowMatrix val df1 = Seq( | (1.0, 2.0, 3.0), | (1.1, 2.1, 3.1), | (1.2, 2.2, 3.2)).toDF("c1", "c2"…
26.Spark创建RDD集合
打开eclipse创建maven项目 pom.xml文件 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0…
SWM格式稀疏权重矩阵转换为方阵形式全过程分享
在进行空间统计实验过程中,经常涉及到空间权重矩阵的处理,有时候需要将ArcGIS生成的swm格式的权重矩阵转换为形如“0 1”的方阵格式.这里将我的办法整理出来. 1.用如下工具箱生成swm格式的权重矩阵 2.将swm格式的权重矩阵转换为dbf属性表 3.用excel打开dbf将其转换为txt文本文件 4.写程序转换格式并保存 代码如下: static void Main(string[] args) { //读取文件并转换格式 StreamReader sr = File.OpenT…
向量和矩阵的范数及MATLAB调用函数
范数就是长度的一种推广形式,数学语言叫一种度量.比如有一个平面向量,有两个分量来描述:横坐标和纵坐标.向量的二范数就是欧几里得意义下的这个向量的长度.还有一些诸如极大值范数,就是横坐标或者纵坐标的最大的那个,也可以视为这个向量的一个度量,具体来说就代表了这个向量在坐标轴上投影的最大长度.推广到一般的N维空间,范数还是类似的.对于矩阵,可以理解了多个向量放在一起.矩阵的行范数和列范数都是从不同的角度出发,选择了这组向量元素之和最大的作为矩阵范数.代表了该矩阵在N维空间中所“覆盖”的一个范围.矩阵的…
SPARK 创建新任务
1.应用程序创建 SparkContext 的实例 sc 2.利用 SparkContext 的实例来创建生成 RDD 3.经过一连串的 transformation 操作,原始的 RDD 转换成为其它类型的 RDD 4.当 action 作用于转换之后 RDD 时,会调用 SparkContext 的 runJob 方法 5.sc.runJob 的调用是后面一连串反应的起点,关键性跃变发生…
【348】通过 Numpy 创建各式各样的矩阵
参考:NumPy之array-一个程序媛的自我修养-51CTO博客 参考:numpy中数组和矩阵的区别 - jiangsujiangjiang的博客 - CSDN博客 一.使用系统方法 二.用指定的数据填充…
第三十九篇 入门机器学习——Numpy.array的基础操作——合并与分割向量和矩阵
No.1. 初始化状态 No.2. 合并多个向量为一个向量 No.3. 合并多个矩阵为一个矩阵 No.4. 借助vstack和hstack实现矩阵与向量的快速合并.或多个矩阵快速合并 No.5. 分割向量 No.6. 分割矩阵 No.7. 使用vsplit和hsplit对矩阵进行快速垂直分割及水平分割 No.8. 分割的应用:从矩阵中抽出最后一列,然后将其转化成向量…
c#调用R
R.NET使用文档 介绍 本页面涉及R.NET1.5.13. 1.5.13版本在功能上等同于1.5.12,但可作为一个包在NuGet.org上获得. R.NET使.NET框架与R统计语言在同一进程进行互操作. R.NET需要.NET Framework 4的并有R环境中安装的本地的DLL.您可以使用R.NET用在.NET的任何语言(它已被用于至少C#,F#,Vb.NET,IronPython中).你使用这个文档之前有几个相关的事项都必须被提及.对于F#,你应该考虑F# - [R提供商.一个动机释…
spark-mllib 密集向量和稀疏向量
spark-mllib 密集向量和稀疏向量 MLlib支持局部向量和矩阵存储在单台服务器,也支持存储于一个或者多个rdd的分布式矩阵 . 局部向量和局部矩阵是用作公共接口的最简单的数据模型. 基本的线性代数运算由Breeze提供. 在监督学习中使用的训练示例在MLlib中称为"标记点". 因此,向量和 矩阵,标记点是 spark-mllib基本的数据模型,也是学习sparl-mllib的基础. 局部向量 一个局部向量具有存储在单个机器上的integer整数类型的基于0的索引和doubl…
spark 类标签的稀疏 特征向量
一个向量(1.0,0.0,3.0)它有2中表示的方法 密集:[1.0,0.0,3.0] 其和一般的数组无异 稀疏:(3,[0,2],[1.0,3.0]) 其表示的含义(向量大小,序号,值) 序号从0开始 本地向量和矩阵 本地向量(Local Vector)存储在单台机器上,索引采用0开始的整型表示,值采用Double类型的值表示.Spark MLlib中支持两种类型的矩阵,分别是密度向量(Dense Vector)和稀疏向量(Spasre Vector),密度向量会存储所有的值…
Spark Mllib里的本地矩阵概念、构成(图文详解)
不多说,直接上干货! Local matrix:本地矩阵 数组Array(1,2,3,4,5,6)被重组成一个新的2行3列的矩阵. testMatrix.scala package zhouls.bigdata.chapter4 import org.apache.spark.mllib.linalg.{Matrix, Matrices} object testMatrix { def main(args: Array[String]) { val mx = Matrices.dense(2,…
用Spark学习矩阵分解推荐算法
在矩阵分解在协同过滤推荐算法中的应用中,我们对矩阵分解在推荐算法中的应用原理做了总结,这里我们就从实践的角度来用Spark学习矩阵分解推荐算法. 1. Spark推荐算法概述 在Spark MLlib中,推荐算法这块只实现了基于矩阵分解的协同过滤推荐算法.而基于的算法是FunkSVD算法,即将m个用户和n个物品对应的评分矩阵M分解为两个低维的矩阵:$$M_{m \times n}=P_{m \times k}^TQ_{k \times n}$$ 其中k为分解成低维的维数,一般远比m和n小.如果大…
spark 中如何查看单个RDD分区的内容(创建分区,查看分区数)
spark 创建分区 val scores = Array(("Fred", 88), ("Fred", 95), ("Fred", 91), ("Wilma", 93), ("Wilma", 95), ("Wilma", 98)) val input = sc.parallelize(scores,3) #这里创建了3个分区 查看分区数: input.partitions.size…
numpy模块之创建矩阵、矩阵运算
本文参考给妹子讲python https://zhuanlan.zhihu.com/p/34673397 NumPy是Numerical Python的简写,是高性能科学计算和数据分析的基础包,他是许多高级工具的构建基础. 他的核心功能是: 1.多维向量的描述和快速高效计算能力,让数组和矩阵的使用更加自然: 2.大量实用的数学函数,支撑复杂的线性代数.随机数生成以及傅里叶变换函数 3.具备数据的磁盘读写工具对于同样的数值计算任务,使用NumPy要比直接编写Python代码便捷的多.这是因为Nu…
Spark MLlib Data Type
MLlib 支持存放在单机上的本地向量和矩阵,也支持通过多个RDD实现的分布式矩阵.因此MLlib的数据类型主要分为两大类:一个是本地单机向量:另一个是分布式矩阵.下面分别介绍一下这两大类都有哪些类型: 1.Local vector(本地向量) (1)Vector 最基本的类型是Vector,该类型索引是从0开始的整型类型,值类型是double类型.并提供了两个实现:DenseVector and SparseVector.但是一把情况下都是推荐使用工厂方法来创建Vector.如下所示: imp…
Spark MLlib 机器学习
本章导读 机器学习(machine learning, ML)是一门涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多领域的交叉学科.ML专注于研究计算机模拟或实现人类的学习行为,以获取新知识.新技能,并重组已学习的知识结构使之不断改善自身. MLlib是Spark提供的可扩展的机器学习库.MLlib已经集成了大量机器学习的算法,由于MLlib涉及的算法众多,笔者只对部分算法进行了分析,其余算法只是简单列出公式,读者如果想要对公式进行推理,需要自己寻找有关概率论.数理统计.数理分析等方面的专…
Spark(十一) -- Mllib API编程 线性回归、KMeans、协同过滤演示
本文测试的Spark版本是1.3.1 在使用Spark的机器学习算法库之前,需要先了解Mllib中几个基础的概念和专门用于机器学习的数据类型 特征向量Vector: Vector的概念是和数学中的向量是一样的,通俗的看其实就是一个装着Double数据的数组 Vector分为两种,分别是密集型和稀疏型 创建方式如下: val array:Array[Double] = ... val vector = Vector.dense(array)//创建密集向量 val vector = Vector.…
spark机器学习从0到1奇异值分解-SVD (七)
降维(Dimensionality Reduction) 是机器学习中的一种重要的特征处理手段,它可以减少计算过程中考虑到的随机变量(即特征)的个数,其被广泛应用于各种机器学习问题中,用于消除噪声.对抗数据稀疏问题.它在尽可能维持原始数据的内在结构的前提下,得到一组描述原数据的,低维度的隐式特征(或称主要特征).简单来说,在高维数据中筛选出对我们有用的变量,减小计算复杂度提高模型训练效率和准确率,这就是我们要说的降维. MLlib机器学习库提供了两个常用的降维方法:奇异值分解(Singula…
spark机器学习从0到1基本数据类型之(二)
MLlib支持存储在单个机器上的局部向量和矩阵,以及由一个或多个RDD支持的分布式矩阵. 局部向量和局部矩阵是用作公共接口的简单数据模型. 底层线性代数操作由Breeze提供. 在监督学习中使用的训练示例在MLlib中称为“标记点”. 一.本地向量 局部向量具有整数类型和基于0的索引和双类型值,存储在单个机器上. MLlib支持两种类型的局部向量:密集和稀疏. 密集向量由表示其条目值的双数组支持,而稀疏向量由两个并行数组支持:索引和值. 例如,矢量(1.0,0.0,3.0)可以以密集格式…
【原创】开源Math.NET基础数学类库使用(02)矩阵向量计算
本博客所有文章分类的总目录:[总目录]本博客博文总目录-实时更新 开源Math.NET基础数学类库使用总目录:[目录]开源Math.NET基础数学类库使用总目录 前言 本文开始一一介绍Math.NET的几个主要子项目的相关功能的使用.今天先要介绍的是最基本Math.NET Numerics的最基本矩阵与向量计算. 如果本文章资源下载不了,或者文章显示有问题,请参考 本文原文地址:http://www.cnblogs.com/asxinyu/p/4265406.ht…
【转载】协同过滤 & Spark机器学习实战
因为协同过滤内容比较多,就新开一篇文章啦~~ 聚类和线性回归的实战,可以看:http://www.cnblogs.com/charlesblc/p/6159187.html 协同过滤实战,仍然参考:http://www.cnblogs.com/shishanyuan/p/4747778.html 其中有一些基础和算法类的,会有其他一些文章来做参考. 1.3 协同过滤实例 1.3.1 算法说明 协同过滤(Collaborative Filtering,简称CF,WIKI上的定义是:简单来说是利用某…
MATLAB学习笔记(二)——主要是MATLAB的矩阵知识
PS:主要是讲解矩阵的相应的实现方法,其实MATLAB的很大一部分的优势,就是集成了矩阵级别的运算,并以此为特点,可以进行多维空间上的验证. 让我们懂得了原来线性代数如此有用= - =. (一)MATLAB矩阵 一.矩阵的建立 1.直接输入法创建: 还可以有复数矩阵的建立,有两种方法: (1)直接按照直接输入法来建立矩阵,但是元素可以直接打成复数的形式(a+bj) (2)还有就是分别建立一个实部还有一个虚部的矩阵,然后通过(a+bj)就可以得到. 2.M文件建立矩阵 就是把建立的矩阵存在一个文件…
matlab矩阵的表示和简单操作
原地址:http://www.cnblogs.com/Ran_Ran/archive/2010/12/11/1903070.html 一.矩阵的表示在MATLAB中创建矩阵有以下规则: a.矩阵元素必须在”[ ]”内: b.矩阵的同行元素之间用空格(或”,”)隔开: c.矩阵的行与行之间用”;”(或回车符)隔开: d.矩阵的元素可以是数值.变量.表达式或函数: e.矩阵的尺寸不必预先定义. 二,矩阵的创建: 1.直接输入法 最简单的建立矩阵的方法是从键盘直接输入矩阵的元素,输入的方法按照上面的规…
开源Math.NET基础数学类库使用(02)矩阵向量计算
原文:[原创]开源Math.NET基础数学类库使用(02)矩阵向量计算 开源Math.NET基础数学类库使用系列文章总目录: 1.开源.NET基础数学计算组件Math.NET(一)综合介绍 2.开源.NET基础数学计算组件Math.NET(二)矩阵向量计算 3.开源.NET基础数学计算组件Math.NET(三)C#解析Matlab的mat格式 4.开源.NET基础数学类库使用Math.NET(四)C#解析Matrix Marke数据格式 5.开源.NET基础数学类库使用M…
MATLAB命令大全和矩阵操作大全
转载自: http://blog.csdn.net/dengjianqiang2011/article/details/8753807 MATLAB矩阵操作大全 一.矩阵的表示在MATLAB中创建矩阵有以下规则:a.矩阵元素必须在"[ ]"内:b.矩阵的同行元素之间用空格(或",")隔开:c.矩阵的行与行之间用";"(或回车符)隔开:d.矩阵的元素可以是数值.变量.表达式或函数:e.矩阵的尺寸不必预先定义. 二,矩阵的创建:1.直接输入法最简单的…