scala 稀疏向量

http://mocom.xmu.edu.cn/article/show/58481eb2e083c990247075a5/0/1

1、

/创建一个标签为1.0（分类中可视为正样本）的稠密向量标注点

scala> val pos = LabeledPoint(1.0, Vectors.dense(2.0, 0.0, 8.0)) pos: org.apache.spark.mllib.regression.LabeledPoint = (1.0,[2.0,0.0,8.0])

//创建一个标签为0.0（分类中可视为负样本）的稀疏向量标注点

scala> val neg = LabeledPoint(0.0, Vectors.sparse(3, Array(0, 2), Array(2.0, 8.0)))

neg: org.apache.spark.mllib.regression.LabeledPoint = (0.0,(3,[0,2],[2.0,8.0]))

2、

def load_data(train_add:String,test_add:String):RDD[LabeledPoint]={
   val train_data=sc.textFile(train_add).map(x=>x.split(",").map(_.toInt.toDouble).toList)
     .map(x=>
       { val label=x.head
         val values=x.tail
         val r_index= new ArrayBuffer[Int]()
         val r_values = new ArrayBuffer[Double]()
         val len=values.size
         println(len)
         for (i <- 0 until len){
           println(i)
           if (values(i)==1.0){
             r_index +=i
             r_values +=values(i)
           }
         }
         val sparse_value=Vectors.sparse(len,r_index.toArray,r_values.toArray)
         LabeledPoint(label,sparse_value)
       })
  train_data
 }

scala 稀疏向量的更多相关文章

spark-mllib 密集向量和稀疏向量
spark-mllib 密集向量和稀疏向量 MLlib支持局部向量和矩阵存储在单台服务器,也支持存储于一个或者多个rdd的分布式矩阵 . 局部向量和局部矩阵是用作公共接口的最简单的数据模型. 基本的线 ...
Spark的mlib中的稠密向量和稀疏向量
spark mlib中2种局部向量:denseVector(稠密向量)和sparseVector(稀疏向量) denseVector向量的生成方法:Vector.dense() sparseVecto ...
spark 稠密向量和稀疏向量
Spark mlib的本地向量有两种: DenseVctor :稠密向量其创建方式 Vector.dense(数据) SparseVector :稀疏向量其创建方式有两种: 方法一 ...
通过spark rdd 求取特征的稀疏向量
通过spark rdd 求取特征的稀疏向量 spark 类标签的稀疏特征向量 - bonelee - 博客园 http://www.cnblogs.com/bonelee/p/7814081.h ...
Mllib数据类型（密集向量和稀疏向量）
1.局部向量 Mllib支持2种局部向量类型:密集向量(dense)和稀疏向量(sparse). 密集向量由double类型的数组支持,而稀疏向量则由两个平行数组支持. example: 向量(5.2 ...
dense向量和稀疏向量sparse
import org.apache.spark.mllib.linalg.Vectors object Test { def main(args: Array[String]) { val vd = ...
TF-IDF计算相似度为什么要对稀疏向量建立索引？
TF-IDF的向量表示的稀疏问题之前在看tf-idf代码时候思考了一个问题,不知道对于初学的大部分同学有没有这样一个疑惑,用tf-idf值构成的向量,维度可能跟词表的大小有关,那么对于一句话来说,这 ...
Spark Mllib里如何建立密集向量和稀疏向量（图文详解）
不多说,直接上干货! 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计
Spark Mllib里的本地向量集（密集型数据集和稀疏型数据集概念、构成）（图文详解）
不多说,直接上干货! Local vector : 本地向量集由两类构成:稀疏型数据集(spares)和密集型数据集(dense) (1).密集型数据集例如一个向量数据(9,5,2,7),可以设 ...

随机推荐

gitlab配合walle搭建发布系统
理解walle实现发布代码的原理: 宿主机:walle系统搭建的服务器以及拉取gitlab代码的服务器,这个时候gitlab一般都是另外一台服务器. 目标机器:版本最终发布的目的机器,或者目的机群 ...
CentOS启动网络提示connect: Network is unreachable（配置静态路由）
ls /etc/sysconfig/network-script/ifcfg-eth0 一.看是否在上述目录下存在ifcfg-eth0 这个文件,若存在则按下面的步骤操作: 1.手工配置ip看能不能配 ...
maven学习（3）-Maven 核心技术
第一节:Maven 仓库概念 Maven 远程仓库配置文件: $M2_HOME/lib/maven-model-builder-3.3.3.jar 文件:org\apache\maven\model\ ...
实验七 c字符数组和字符串函数
7.1 #include<stdio.h>#include<string.h> int main(){ char a[40]; int i; gets(a); //输入字符串进 ...
mysql分区表之三：MySQL分区建索引[转]
介绍 mysql分区后每个分区成了独立的文件,虽然从逻辑上还是一张表其实已经分成了多张独立的表,从“information_schema.INNODB_SYS_TABLES”系统表可以看到每个分区都存 ...
[转]Excel 工作表保护密码移除
http://blog.sina.com.cn/s/blog_4cf096b80100rhfb.html Public Sub 工作表保护密码() Const DBLSPACE As String = ...
java study1
java安装 java优势-跨平台:一次编写,到处运行. jdk开发工具包,提供了开发人员需要的开发工具.jdk中包含了jre jre java的运行环境,负责程序的运行,jre中,包含程序运行时需要 ...
Linux下查看系统版本号信息的方法（转载）
原文出处 http://www.ha97.com/2987.html 1.cat /proc/version [root@localhost ~]# cat /proc/versionLinux v ...
利用ubuntu的alias命令来简化许多复杂难打的命令
利用alias,可以将你要长期执行的命令,用一个你最喜欢的名字记下来, 用你最喜欢的编辑器打开.bashrc文件( 如$ vim ~/.bashrc) 在最后面输入: alias myssh='ss ...
[UE4]C++取得蓝图控件实例
.h /*确认密码输入框*/ UPROPERTY() UEditableTextBox* EditableTextBoxRePassword; .cpp EditableTextBoxPassword ...

scala 稀疏向量

scala 稀疏向量的更多相关文章

随机推荐

热门专题