spark基于win上面的操作

　　自己前面的小练习一直都是在linux上面写的，可是最近由于要把他迁移到win上面，我在自己的csdn博客有对如何在win上面搭建spark环境做出说明，好了，我们还是先看看

　　今天的内容吧

　　　　1.假如你有一个文件，如果你想实现以前的mapReduce的操作，这个时候，如果我们使用spark则会变的非常的简单，如果你此时的文件是以"\t"进行分割的，那我就可以这

def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("UrlCount").setMaster("local")

    val sc = new SparkContext(conf)

    //rdd1将数据进行切分,元祖中放的是(URL,1)

     val rdd1 = sc.textFile("E://Test/itcast.log").map(line =>{

      val f = line.split("\t")

      (f(1),1)

    })

      val rdd2 = rdd1.reduceByKey(_+_)

  }

则此时的rdd2，就已经完成了wordCount的操作了

　　第一个练习(对一个数组进行循环处理)

package cn.wj.test.spark.day03

import org.apache.spark.{SparkConf, SparkContext}

/**

  * Created by WJ on 2016/12/30.

  */

object ForeachDemo2 {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("ForeachDemo2").setMaster("local[3]")

    val sc = new SparkContext(conf)

    val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9))

    rdd1.foreach(println(_))

    sc.stop()

  }

}

　　2.第二个练习

package cn.wj.spark.day02

import java.net.URL

import org.apache.spark.{SparkConf, SparkContext}

/**

  * Created by WJ on 2016/12/30.

  */

// 这个是以java来进行排序，如果内存过大，可能会出现溢出的操作

object UrlCount {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("UrlCount").setMaster("local")

    val sc = new SparkContext(conf)

    //rdd1将数据进行切分,元祖中放的是(URL,1)

     val rdd1 = sc.textFile("E://Test/itcast.log").map(line =>{

      val f = line.split("\t")

      (f(1),1)

    })

    val rdd2 = rdd1.reduceByKey(_+_)

    val rdd3 = rdd2.map(t=>{

      val url = t._1

      val host = new URL(url).getHost()

      (host,url,t._2)

    })

//    println(rdd2.collect.toBuffer)

    //这个的操作是，将rdd4的3以host的进行分组，软后并在每一个分组的情况下，以value中的第三个数据进行排序

    //,并且只取前三个的排序

    val rdd4 = rdd3.groupBy(_._1).mapValues(it =>{

      it.toList.sortBy(_._3).reverse.take(3)

    })

    println(rdd4.collect().toBuffer)

  }

}

　　第三个练习

package cn.wj.test.spark.day03

import org.apache.spark.{SparkConf, SparkContext}

import java.net.URL

/**

  * Created by WJ on 2016/12/31.

  */

object AddUrlCount3 {

  val arr = Array("java.itcast.cn","php.itcast.cn","net.itcast.cn")

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("AppUrlCount3").setMaster("local")

    val sc = new SparkContext(conf)

//    val rdd1 = sc.textFile("E://Test/itcast.log").map(line =>{

//       val f = line.split("\t")

//      （f(1),1）

//    })

     val rdd1 = sc.textFile("E://Test/itcast.log").map( line =>{

       val f = line.split("\t")

       (f(1),1)

     })

     val rdd2 = rdd1.reduceByKey(_+_)

    val rdd3 = rdd2.map(t=>{

      val url = t._1

      val host = new URL(url).getHost()

      (host,url,t._2)

    })

    for(ins <- arr){

      val rdd = rdd3.filter(_._1==ins)

      val result = rdd.sortBy(_._3,false).take(3)

      println(result.toBuffer)

    }

    sc.stop()

  }

}

spark基于win上面的操作的更多相关文章

SparkR(R on Spark)编程指南含 dataframe操作 2.0
SparkR(R on Spark)编程指南 Spark 2015-06-09 28155 1评论下载为PDF 为什么不允许复制关注iteblog_hadoop公众号,并在这里评论区留言 ...
SparkR(R on Spark)编程指南含 dataframe操作
SparkR(R on Spark)编程指南 Spark 2015-06-09 28155 1评论下载为PDF 为什么不允许复制关注iteblog_hadoop公众号,并在这里评论区留言 ...
将java开发的wordcount程序提交到spark集群上运行
今天来分享下将java开发的wordcount程序提交到spark集群上运行的步骤. 第一个步骤之前,先上传文本文件,spark.txt,然用命令hadoop fs -put spark.txt /s ...
如何简单的将手机投屏在windows上（可在电脑上直接操作手机）
首先附上要使用的scrcpy源地址接下来是如何使用(我用的是安卓手机+win10): 下载好后,首先使用数据线连接手机到电脑,并且手机需要打开开发人员选项(不知道如何打开的自行百度): 打开到安装s ...
Git同步更新操作GitHub和码云仓库上面的代码
一.前言问题: 小编在生活中,一般都是将代码保存到github上,但由于国内的码云仓库确实速度比github快很多,用起来也很方便,于是后来就慢慢转码云了,当然小编在github上的代码也不想放弃更 ...
基于python的selenium两种文件上传操作
方法一.input标签上传如果是input标签,可以直接输入路径,那么可以直接调用send_keys输入路径,这里不做过多赘述,前文有相关操作方法. 方法二.非input标签上传这种上传方 ...
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
.Spark Streaming（上）--实时流计算Spark Streaming原理介
Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍 http://www.cnblogs.com/shishanyuan/p/474 ...
【Spark 内核】 Spark 内核解析-上
Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制.Spark任务调度机制.Spark内存管理机制.Spark核心功能的运行原理等,熟练掌握Spark内核原理,能够帮助我们更 ...

随机推荐

将Android工程打成jar包之后对资源的调用。
Android工程不能完整的打包成jar包.这个主要是R文件导致的,但是我们可以将除了资源文件中的所有东西都打到jar包中.Activity.View等等类. 提供jar包的同时,还需要提供资源文件. ...
cocos2d-x滑动翻页，多出一点偏移量。
cocos2d-x 2.2.3版本. 控件:ccscrollView 实现滑动翻页:创建出来的cell横向移动时会有一个惯性滑动,导致View页面不能居中.通过延迟重新设定的方式解决.
如何提升SharePoint 2010的性能
文章来自: http://www.chinaemail.com.cn/server/xtfl/Exchange/201109/66466.html SharePoint是微软历史上销售量增长最快的产品 ...
Linux命令之添加权限Chmod的使用
chmod是change mode的缩写,是修改文件权限的一个命令: 一个文件分别有三组权限:用户拥有者,用户组第一个横杆-表示文件,如果是d表示目录.还有可能是l,表示链接. 第一组(rw-)表示 ...
nginx配置https服务器
方法一 1.创建证书 #cd /usr/local/nginx/conf #openssl genrsa -des3 -out server.key 1024 #openssl req -new -k ...
MyEclipse导入JAVA工程显示红色叉叉的解决方法
当我们有时候导入一个新的工程的时候可能会出现以下这种情况,基本上是因为jar包路径的问题. 解决方法如下: 1.右击工程,选择properties 2.选择 Java Build Path -> ...
使用坚果云+keepass实现网盘密码管理
准备工作登录坚果云web版在主页创建了一个新的同步文件夹AAA(与同步文件夹My Nutstore并列) 设置同步文件夹AAA:勾选“默认不同步到电脑” 把KeePass的数据库文件db.kdbx ...
mysql ：修改数据库权限
解决步骤第一步,点击用户注意!!! 编辑权限,在我们设置权限之前,我们需要先重新加载才能生效, 如果不用编辑的话,直接按重新载入编辑,这个相当于保存. 中文意思(注意看那段话) 第二步选择要处理 ...
利用批处理结合Msbuild实现快速编译
我们经常在用vs2005做项目的时候会把一个项目分成几个模块(不管是对于功能上,还是系统构架上面),为的是以后部署,还有修改维护时候的方便.这样就会带来一个问题,随着模块的增加(这里所说得每个模块就是 ...
Android（java）学习笔记67：Android Studio新建工程中的build.gradle、settings.gradle
随着信息化的快速发展,IT项目变得越来越复杂,通常都是由多个子系统共同协作完成.对于这种多系统.多项目的情况,很多构建工具都已经提供了不错的支持,像maven.ant.Gradle除了借鉴了ant或者 ...

spark基于win上面的操作

spark基于win上面的操作的更多相关文章

随机推荐

热门专题