Spark 机器学习 ---Word2Vec

package Spark_MLlib

import org.apache.spark.ml.feature.Word2Vec

import org.apache.spark.sql.SparkSession

object 特征抽取_Word2Vec {

      val spark=SparkSession.builder().master("local").appName("Word2Vec").getOrCreate()

      import spark.implicits._

  def main(args: Array[String]): Unit = {

        val documentDF= spark.createDataFrame(Seq(

          "soyo like spark and hadoop".split(" "),

          "scala is good tool to study".split(" "),

          "but java i want to study and spark".split(" "),

           "soyo like spark and hadoop ".split(" ")

        ).map(Tuple1.apply)).toDF("text")

        val word2Vec=new Word2Vec().setInputCol("text").setOutputCol("result").setVectorSize().setMinCount()  //设置特征向量维数为5

        val word2Vec_model=word2Vec.fit(documentDF)  //训练模型

        val result=word2Vec_model.transform(documentDF) //把文档转换成特征向量

            result.show(false)

  }

}
结果：文档相同或着相似 特征向量就相同或者在特征空间中特征向量越相近
|text                                       |result                                                                                                       |
+-------------------------------------------+-------------------------------------------------------------------------------------------------------------+
|[soyo, like, spark, and, hadoop]           |[0.010919421538710596,-0.013777335733175279,0.02715198565274477,-0.010085364431142808,0.019428260042332113]  |        
|[scala, is, good, tool, to, study]         |[-0.048216115372876324,-0.00931493720660607,0.0237591746263206,0.04614267808695634,0.018560086687405903]     |
|[but, java, i, want, to, study, and, spark]|[0.025922087021172047,-0.027650322022964247,0.029493116540834308,-0.029830976389348507,-0.025802675168961287]|
|[soyo, like, spark, and, hadoop]           |[0.010919421538710596,-0.013777335733175279,0.02715198565274477,-0.010085364431142808,0.019428260042332113]  |
+-------------------------------------------+-------------------------------------------------------------------------------------------------------------+

红色的两个文档相同

Spark 机器学习 ---Word2Vec的更多相关文章

Spark机器学习8· 文本处理(spark-shell)
Spark机器学习自然语言处理(NLP,Natural Language Processing) 提取特征建模机器学习 TF-IDF(词频 term frequency–逆向文件频率 inver ...
Spark机器学习API之特征处理（一）
Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFram ...
Spark机器学习· 实时机器学习
Spark机器学习 1 在线学习模型随着接收的新消息,不断更新自己:而不是像离线训练一次次重新训练. 2 Spark Streaming 离散化流(DStream) 输入源:Akka actors. ...
Spark机器学习 Day2 快速理解机器学习
Spark机器学习 Day2 快速理解机器学习有两个问题: 机器学习到底是什么. 大数据机器学习到底是什么. 机器学习到底是什么人正常思维的过程是根据历史经验得出一定的规律,然后在当前情况下根据这 ...
Spark机器学习 Day1 机器学习概述
Spark机器学习 Day1 机器学习概述今天主要讨论个问题:Spark机器学习的本质是什么,其内部构成到底是什么. 简单来说,机器学习是数据+算法. 数据在Spark中做机器学习,肯定有数据来源 ...
Spark机器学习笔记一
Spark机器学习库现支持两种接口的API:RDD-based和DataFrame-based,Spark官方网站上说,RDD-based APIs在2.0后进入维护模式,主要的机器学习API是spa ...
Spark机器学习之协同过滤算法
Spark机器学习之协同过滤算法一).协同过滤 1.1 概念协同过滤是一种借助"集体计算"的途径.它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度.其内在思想是相 ...
2019-1-18 Spark 机器学习
2019-1-18 Spark 机器学习机器学习模MLib板预测 //有视频后续会补充 1547822490122.jpg 1547822525716.jpg 1547822330358.jp ...
Spark机器学习解析下集
上次我们讲过<Spark机器学习(上)>,本文是Spark机器学习的下部分,请点击回顾上部分,再更好地理解本文. 1.机器学习的常见算法常见的机器学习算法有:l 构造条件概率:回归分 ...

随机推荐

JavaScript中的方法
JavaScript中的方法在JavaScript中,可以通过对象来调用对应的方法.在JavaScript中,有三个重要的window对象方法:用于显示警告信息的alert.用于显示确认信息的con ...
Python自学-2-python解释器
写python源文件,以.py为后缀名用python解释器去执行.py文件 python解释器 CPython:官方版本,由C语言开发的,下载默认就是这个,使用最广的解释器. 用>> ...
svn更新报错Please execute the 'Cleanup' command.
更新svn报错要Clearnup一下就可以再更新了点击svn中 clear up ok之后恢复正常
代码分析工具splint安装介绍
官网 http://www.splint.org/ splint能干什么? splint是一个静态检查C语言代码安全弱点和编写错误的开源程序.(不支持C++) splint会进行多种常规检查,包括空 ...
CSS 嵌入，及其选择器
CSS 1. CSS样式表的几种使用方式 1.元素内嵌 <p style="font-size"></p> 2.内部文档内嵌 <style type= ...
selenium下拉滚动条
selenium下拉滚动条制作人:全心全意谷歌浏览器下拉滚动条 chrome = webdriver.Chrome() //创建谷歌浏览器对象 url="http://www.baidu ...
ubuntu 通过ppa源安装mysql5.6
添加mysql5.6的源 sudo add-apt-repository -y ppa:ondrej/mysql-5.6 更新源 sudo apt-get update 安装mysql5.6 sudo ...
在vue中使用echars不能自适应的解决方法
<div class="echarts"> <IEcharts :option="bar" ref="echarts"&g ...
A - Restaurant
UVA 1468 Description Mr. Kim is planning to open a new restaurant. His city is laid out as a grid ...
orcad中注意的事情
1.地的标识不能放到已经分配了网络的线上. 在用orcad画原理图的时候,把电源放到网络的时候需要特别的注意,如果,将电源地直接放到线上,而这根线又已经被分配了网络标号,那这个地会随已经分配了的网络号 ...

Spark 机器学习 ---Word2Vec

Spark 机器学习 ---Word2Vec的更多相关文章

随机推荐

热门专题