spark中的scalaAPI之RDDAPI常用操作

package com.XXX

import org.apache.spark.storage.StorageLevel

import org.apache.spark.{SparkConf, SparkContext}

//spark中的RDD测试

object RddTest {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local[*]").setAppName("rdd api test")

    val sc = SparkContext.getOrCreate(conf)

//    mapTest(sc)

//    distinctTest(sc)

//    filterTest(sc)

//    keyByTest(sc)

//    sortByTest(sc)

//    topNTest(sc)

//    repartitionTest(sc)

//    groupByTest(sc)

    aggSumTest(sc)

    sc.stop()

  }

  def mapTest(sc:SparkContext) = {

    val file = sc.textFile("file:///G:\\bd14\\user-logs-large.txt",3)

    val mapResult = file.map(x =>{//map的特点是一个输入对应一条输出，没有返回值，对应的返回值会是() NIL

      val info = x.split("\\t")

      (info(0),info(1))//转换成了元组

    })

    //take是一个action，作用是取出前n条数据发送到driver，一般用于开发测试

    mapResult.take(10).foreach(println)

    //map和mapPartition的区别：map是一条记录一条记录的转换，mapPartition是

    //一个partition（分区）转换一次

    val mapPartitionResult = file.mapPartitions(x => {//一个分区对应一个分区

    var info = new Array[String](3)

     for(line <- x) yield{//yield：作用：有返回值，所有的记录返回之后是一个集合

        info = line.split("\\t")

        (info(0),info(1))

      }

    })

    mapPartitionResult.take(10).foreach(println)

    // 把一行转为多行记录，使用flatMap展平,把一条new_tweet记录转成两条login记录

    val flatMapTest = file.flatMap(x=>{

      val info = x.split("\\t")

      info(1) match {

        case "new_tweet"=> for (i <- 1 to 2) yield s"${info(0)} login ${info(2)}"

        case _ => Array(x)

      }

    })

    flatMapTest.take(10).foreach(println)

    println(file.count())

    println(flatMapTest.count())

  }

  //distinct：排重,把重复的数据去掉，不是数据的转换，属于数据的聚合

  def distinctTest(sc:SparkContext) = {

    val file = sc.textFile("file:///G:\\bd14\\user-logs-large.txt",3)

    val userRdd = file.map(x=>x.split("\\t")(0)).distinct()

    userRdd.foreach(println)

  }

  //filter:过滤

  def filterTest(sc:SparkContext) = {

    val file = sc.textFile("file:///G:\\bd14\\user-logs-large.txt",3)

    val loginFilter = file.filter(x=>x.split("\\t")(1)=="login")

    loginFilter.take(10).foreach(println)

    println(loginFilter.count())

  }

  //keyBy,输入作为value，key由算计计算而来

  def keyByTest(sc:SparkContext) = {

    val file = sc.textFile("file:///G:\\bd14\\user-logs-large.txt",3)

    val userActionType = file.keyBy(x=>{

      val info = x.split("\\t")

      s"${info(0)}--${info(1)}"

    })

    userActionType.take(10).foreach(println)

  }

  //sortBy排序

  def sortByTest(sc:SparkContext) = {

    val file = sc.textFile("file:///C:\\Users\\zuizui\\Desktop\\README.txt")

    //数据量小的话，想进行群排序，吧numPartitions设置成1

    //默认为圣墟，姜旭吧第二个参数设置为false

//    val sortBy = file.sortBy(x=>x.split("\\s+")(1).toInt,numPartitions = 1)//后面有不同数量的空格时，使用\\s+来split

    val sortBy = file.sortBy(x=>x.split("\\s+")(1).toInt,false,numPartitions = 1)//后面有不同数量的空格时，使用\\s+来split

    sortBy.foreach(println)

  }

  def topNTest(sc:SparkContext) = {

    val list = List(1,23,34,54,56,100)//把集合转化为RDD使用parallelize，或者mkRDD

    val rdd = sc.parallelize(list,2)

//添加饮食准换，使takeOrdered，和top的排序顺序变反

    implicit  val tonordered = new Ordering[Int]{

      override def compare(x: Int, y: Int): Int = y.compareTo(x)

    }

    val takeOrdered = rdd.takeOrdered(3)//从小到大取出前三条

    takeOrdered.foreach(println)

    val topN = rdd.top(3)//从大到小取出前三条

    topN.foreach(println)

  }

  //重新分区

  def repartitionTest(sc:SparkContext) = {

    val file = sc.textFile("file:///G:\\bd14\\user-logs-large.txt")

    val result  = file.repartition(5)//repartition是宽依赖，所谓宽依赖就是

    //原来RDD的每一个分区中的数据都会分别吧部分数据写入到新的RDD的每个分区中

    //窄依赖：就是原来RDD的分区中的一个分区数据完全写入到新的RDD中的一个分区中

    //窄依赖减少网络间的传输

    file.foreachPartition(x=>{

      var sum = 0

      x.foreach(x=>sum+=1)

      println(s"该分区的数据有${sum}")

    })

    result.foreachPartition(x=>{

      var sum = 0

      x.foreach(x=>sum+=1)

      println(s"该分区的数据有${sum}")

    })

    val coalesce = result.coalesce(3)//使用窄依赖，原来有五个分区，现在变成三个的话，

    //其中的一个不变，另外四个分区中的两两分别通过窄依赖添加到另外两个新的分区中

    coalesce.foreachPartition(x=>{

      var sum = 0

      x.foreach(x=>sum+=1)

      println(s"coalesce该分区的数据有${sum}")

    })

  }

  def groupByTest(sc:SparkContext)= {

    val file = sc.textFile("file:///G:\\bd14\\user-logs-large.txt")

    val groupedBy = file.groupBy(x=>x.split("\\t")(0))

    //group by 容易发生数倾斜

    groupedBy.foreachPartition(x=>{

      println(s"groupByRDD分区，该分区共有：${x.size}条记录")

    })

    groupedBy.foreach(x=>{

      println(s"groupByRDD的一条记录，key为${x._1},value上集合记录条数是：${x._2.size}")

    })

    groupedBy.foreach(x => {

      var sum = 0

      x._2.foreach(line => {

        line.split("\\t")(1) match {

          case "login" => sum += 1

          case _ =>

        }

      })

      println(s"用户：${x._1}的登录次数是：$sum")

    })

  }

  def aggSumTest(sc:SparkContext) = {

    val list = List(1,2,4,5)

    val rdd = sc.parallelize(list,3)

      //reduce 计算sum

    val reduceResult = rdd.reduce((v1,v2)=>v1+v2)

    //fold计算sum

    val flodResult = rdd.fold(0)((v1,v2)=>v1+v2)

    //aggregate把元素连接成一个字符串

    val aggResult = rdd.aggregate("")((c,v)=>{

      c match {

        case "" => v.toString

        case _ => s"$c,$v"

      }

    },(c1,c2)=>{

      c1 match {

        case ""=> c2

        case _=>s"$c1,$c2"

      }

    })

    println(s"reduceResult:$reduceResult")

    println(s"flodResult:$flodResult")

    println(s"aggResult:$aggResult")

  }

  def persistTest(sc:SparkContext) = {

    val file = sc.textFile("file:///G:\\bd14\\user-logs-large.txt")

//    file.cache()

    file.persist(StorageLevel.MEMORY_ONLY)//相当于cache()，智加载在内存中

    //计算用户数量

    //计算ip数量

    //计算每个用户在每一个ip上的数量

  }

}

spark中的scalaAPI之RDDAPI常用操作的更多相关文章

linux中查看磁盘容量的常用操作
linux中查看磁盘容量常用操作实验室有GPU集群,用户跑数据时候跑着跑着会出现集群挂掉的问题,原因就是,在跑数据时,用户上传文件,数据集,系统产生缓存等一系列操作,消耗了集群空间,师兄让我清理下服 ...
linux 中解压与压缩常用操作详细讲解
平时有时候会在服务器进行一些文件的操作,比如安装一些服务与软件等等,都有解压操作,一般在导出一些简单的服务器文件,也是先压缩后再导出,因此,在这里根据平时用到解压与压缩命令的频率来记录下: 1.最 ...
Js 中对 Json 数组的常用操作
我们首先定义一个json数组对象如下: var persons = [ {name: "tina", age: 14}, {name: "timo", age: ...
ThinkPHP5.0中Request请求对象的常用操作
获取当前系统参数 // 获取当前域名 echo '获取当前域名:'.$request->domain() . '<br/>'; // 获取当前入口文件 echo '获取当前入口文件: ...
五、mysql中sql语句分类及常用操作
1.sql语句分类: DQL语句数据查询语言 select DML语句数据操作语言 insert delete update DDL语句数据定义语言 create drop alter TCL语 ...
Java中对Array数组的常用操作
目录: 声明数组: 初始化数组: 查看数组长度: 遍历数组: int数组转成string数组: 从array中创建arraylist: 数组中是否包含某一个值: 将数组转成set集合: 将数组转成li ...
Java中对List集合的常用操作
目录: list中添加,获取,删除元素: list中是否包含某个元素: list中根据索引将元素数值改变(替换): list中查看(判断)元素的索引: 根据元素索引位置进行的判断: 利用list中索引 ...
Java中对List集合的常用操作(转)
list中添加,获取,删除元素: list中是否包含某个元素: list中根据索引将元素数值改变(替换): list中查看(判断)元素的索引: 根据元素索引位置进行的判断: 利用list中索引位置重新 ...
Java中对List集合的常用操作（转载）
目录: list中添加,获取,删除元素: list中是否包含某个元素: list中根据索引将元素数值改变(替换): list中查看(判断)元素的索引: 根据元素索引位置进行的判断: 利用list中索引 ...

随机推荐

jquery预加载显示百分比
jquery预加载显示百分比 <pre> <img class="bj loadimg" loadimg="/weiqingshu/images/1/b ...
git clean用法
git clean用法想批量删除branch中新加的文件(untracked files),,git reset --hard不行- 首先确认要删除的文件 git clean -fd -n ...
[转帖]NSA武器库知识整理
NSA武器库知识整理 https://www.cnblogs.com/FrostDeng/p/7120812.html 美国国家安全局(NSA)旗下的“方程式黑客组织”(shadow brokers) ...
libevent源码分析二--timeout事件响应
libevent不仅支持io事件,同时还支持timeout事件与signal事件,这篇文件将分析libevent是如何组织timeout事件以及如何响应timeout事件. 1. min_heap ...
UI单据按钮点击事件校验
一.按钮点击前事务处理<BeforeEventProcess> public override void BeforeEventProcess(IPart part, string eve ...
Html设置问题（设置浏览器上面的图标，移动设备上面页面保存为图标）
最近开发了一个新的项目,项目完成之后:要求把页面在移动设备上面保存为图标,通过图标直接进入系统入口(这样看着就想APP一样):刚开始通过百度直接设置了,发现有两个问题,第一.图标直接是页面的截图:第二 ...
mysql远程连接速度很慢
远程服务器的mysql数据库在服务器上自己连接速度很快,但是在我本地连接确实出奇的慢,进入数据库慢,打开数据表慢,什么都慢.想到之前有看到过应该是远程链接解析的问题,在查询MySQL相关文档和网络搜索 ...
Linq实现分组后取最大（小）值
var beatles = (new[] { new { inst = "张三" , age="50" }, new { inst = "张三&quo ...
一个超实用的python爬虫功能使用 requests BeautifulSoup
一个简单的数据爬取的示例 import os,re import requests import random import time from bs4 import BeautifulSoup us ...
IOWebSocketChannel.connect handle errors
https://github.com/dart-lang/web_socket_channel/issues/38 yes, my workaround is to create a WebSocke ...

spark中的scalaAPI之RDDAPI常用操作

spark中的scalaAPI之RDDAPI常用操作的更多相关文章

随机推荐

热门专题