Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比较方便和灵活。

Spark机器学习中关于特征处理的API主要包含三个方面:特征提取、特征转换与特征选择。本文通过例子介绍和学习Spark.ml中提供的关于特征处理的API。

特征提取(Feature Extractors)

1.  TF-IDF (HashingTF and IDF)

TF-IDF是文本特征提取中一个常用的方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。关于spark.ml中提供的HashingTF和IDF的原理和用法,在之前的文章http://lxw1234.com/archives/2016/01/605.htm中已经介绍过,这里不再介绍。

2.  Word2Vec

Word2Vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。

大数据学习交流群:724693112 欢迎大家来一起学习。

下面的例子将每个文档中的词语转换成长度为3的向量:

package com.lxw1234.spark.features

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.ml.feature.Word2Vec

/**

* auth: http://lxw1234.com

*/

object TestWord2Vec {

def main(args : Array[String]) {

val conf = new SparkConf().setMaster("local").setAppName("lxw1234.com")

val sc = new SparkContext(conf)

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

import sqlContext.implicits._

val documentDF = sqlContext.createDataFrame(Seq(

"苹果 官网 苹果 宣布".split(" "),

"苹果 梨 香蕉".split(" ")

).map(Tuple1.apply)).toDF("text")

val word2Vec = new Word2Vec().setInputCol("text").setOutputCol("result").setVectorSize(3).setMinCount(1)

val model = word2Vec.fit(documentDF)

val result = model.transform(documentDF)

result.collect().foreach(println)

}

}

程序运行输出如下:

[WrappedArray(苹果, 官网, 苹果, 宣布),[0.006021047011017799,-0.002911671996116638,0.05357655562693253]]

[WrappedArray(苹果, 梨, 香蕉),[-0.10302492479483286,-0.059321289261182145,0.05107089380423228]]

3.  CountVectorizer

该方法用于将所有的文本词语进行编号,每个词语对应一个编号,并统计该词语在文档中的词频作为特征向量。

package com.lxw1234.spark.features

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel}

/**

* auth: http://lxw1234.com

*/

object TestCountVectorizer {

def main(args : Array[String]) {

val conf = new SparkConf().setMaster("local").setAppName("lxw1234.com")

val sc = new SparkContext(conf)

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

import sqlContext.implicits._

val df = sqlContext.createDataFrame(Seq(

(0, Array("苹果","官网","苹果","宣布")),

(1, Array("苹果","梨","香蕉"))

)).toDF("id", "words")

var cvModel: CountVectorizerModel = new CountVectorizer()

.setInputCol("words")

.setOutputCol("features")

.setVocabSize(5)  //设置词语的总个数,词语编号后的数值均小于该值

.setMinDF(1) //设置包含词语的最少的文档数

.fit(df)

println("output1:")

cvModel.transform(df).select("id","words","features").collect().foreach(println)

var cvModel2: CountVectorizerModel = new CountVectorizer()

.setInputCol("words")

.setOutputCol("features")

.setVocabSize(3)  //设置词语的总个数,词语编号后的数值均小于该值

.setMinDF(2) //设置包含词语的最少的文档数

.fit(df)

println("output2:")

cvModel2.transform(df).select("id","words","features").collect().foreach(println)

}

}

程序output1的输出如下:

[0,WrappedArray(苹果, 官网, 苹果, 宣布),(5,[0,3,4],[2.0,1.0,1.0])]

[1,WrappedArray(苹果, 梨, 香蕉),(5,[0,1,2],[1.0,1.0,1.0])]

程序output2的输出如下:

[0,WrappedArray(苹果, 官网, 苹果, 宣布),(1,[0],[2.0])]

[1,WrappedArray(苹果, 梨, 香蕉),(1,[0],[1.0])]

因为setMinDF(2)设置了词语最低出现的文档数为2,因此只保留了”苹果”一词。

Spark机器学习API之特征处理(一)的更多相关文章

  1. Spark机器学习API之特征处理(二)

    Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFram ...

  2. Spark机器学习MLlib系列1(for python)--数据类型,向量,分布式矩阵,API

    Spark机器学习MLlib系列1(for python)--数据类型,向量,分布式矩阵,API 关键词:Local vector,Labeled point,Local matrix,Distrib ...

  3. Spark Java API 之 CountVectorizer

    Spark Java API 之 CountVectorizer 由于在Spark中文本处理与分析的一些机器学习算法的输入并不是文本数据,而是数值型向量.因此,需要进行转换.而将文本数据转换成数值型的 ...

  4. spark机器学习从0到1介绍入门之(一)

      一.什么是机器学习 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行 ...

  5. 客户流失?来看看大厂如何基于spark+机器学习构建千万数据规模上的用户留存模型 ⛵

    作者:韩信子@ShowMeAI 大数据技术 ◉ 技能提升系列:https://www.showmeai.tech/tutorials/84 行业名企应用系列:https://www.showmeai. ...

  6. Spark机器学习 Day1 机器学习概述

    Spark机器学习 Day1 机器学习概述 今天主要讨论个问题:Spark机器学习的本质是什么,其内部构成到底是什么. 简单来说,机器学习是数据+算法. 数据 在Spark中做机器学习,肯定有数据来源 ...

  7. Spark机器学习笔记一

    Spark机器学习库现支持两种接口的API:RDD-based和DataFrame-based,Spark官方网站上说,RDD-based APIs在2.0后进入维护模式,主要的机器学习API是spa ...

  8. Spark机器学习之协同过滤算法

    Spark机器学习之协同过滤算法 一).协同过滤 1.1 概念 协同过滤是一种借助"集体计算"的途径.它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度.其内在思想是相 ...

  9. Spark机器学习8· 文本处理(spark-shell)

    Spark机器学习 自然语言处理(NLP,Natural Language Processing) 提取特征 建模 机器学习 TF-IDF(词频 term frequency–逆向文件频率 inver ...

随机推荐

  1. The problem is now the wait_for_fds() example function: it will call something like select(), poll() or the more modern epoll() and kqueue().

    小结: 1.线程与惊群效应 Serializing accept(), AKA Thundering Herd, AKA the Zeeg Problem — uWSGI 2.0 documentat ...

  2. ubuntu 命令行以及目录的显示改为英文

    在安装ubuntu的时候原本以为把ubuntu改为中文的好理解一些,最后发现命令行的报错一边中文一边英文确实难受,也不宜于学习,所以想把命令行以及目录的显示都改为英文的,我是这样先把命令行的该为英文的 ...

  3. 【I·M·U_Ops】------Ⅱ------ IMU自动化运维平台之CMDB

    说明本脚本仅作为学习使用,请勿用于任何商业用途.本文为原创,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接和本声明. #A 我理解的 CMDB CMDB翻译过来,Configuratio ...

  4. PLSQL Developer配置OCI连接远程数据库

    转: PLSQL Developer配置OCI连接远程数据库 当前环境: 本机系统:Win7 32位 PLSQL版本:9.06 数据库版本:10.2 32位 下面开始具体操作. 1.在Oracle官网 ...

  5. Windows10 64位 安装 Postgresql 数据库

    1,下载Postgresql 10.7 版本,下载地址   https://www.enterprisedb.com/downloads/postgres-postgresql-downloads 2 ...

  6. JDBC获得DB2表结构并且将表中数据脱敏后转移的程序示例

    完整项目地址:https://github.com/zifeiy/totomi 代码示例: import java.io.File; import java.io.FileInputStream; i ...

  7. save()和savaorupdate的区别

    hibernate的保存 hibernate对于对象的保存提供了太多的方法,他们之间有很多不同,在这里细说一下,以便区别: 一.预备知识:     在所有之前,说明一下,对于hibernate,它的对 ...

  8. Spark中foreachRDD的正确使用

    常出现的使用误区: 误区一:在driver上创建连接对象(比如网络连接或数据库连接)    如果在driver上创建连接对象,然后在RDD的算子函数内使用连接对象,那么就意味着需要将连接对象序列化后从 ...

  9. Grep---linux系统三剑客(一)

    grep .sed.awk被称为linux中的"三剑客". grep 更适合单纯的查找或匹配文本 sed  更适合编辑匹配到的文本 awk  更适合格式化文本,对文本进行较复杂格式 ...

  10. linux下使用openssl和md5sum加密文件或者字符串

    #openssl    //在终端中输入openssl后回车. OpenSSL> md5    //输入md5后回车 123456    //接着输入123456,不要输入回车.然后按3次ctr ...