spark textfile rdd 日记

批量处理模板方法, 核心处理方法为内部方法

  def batchProces(sc: SparkContext, locationFlag: Int, minid: Int, maxid: Int, numPartitions: Int) = {

    //自定义RDD,此处为demo

    val dataRDD = sc.makeRDD(List(1, 2), numPartitions)

    dataRDD.mapPartitions(iterator => {

      val rawData = iterator.toList

      var lstT = new ListBuffer[(Int, Int)]()

      rawData.foreach(v => {

        if (lstT.size < 50) {

          lstT.append((v, 1))

        } else {

          //每50处理一次

          procesData()

        }

      })

      //剩余的继续处理

      procesData()

      //批量处理逻辑

      def procesData() = {

        //核心处理逻辑

        // doProcess

        //很重要

        lstT.clear()

      }

      lstT.iterator

    }).map((_, 1)).reduceByKey(_ + _).sortByKey().saveAsTextFile("hdfs://hdfscluster/tmp/logs/")

  }

批量处理模板方法, 核心处理方法为外部方法

  def process_outer(lst: List[(Int, Int)]) = {

    //外部核心处理逻辑,如Request请求等

    RequestUtil.postJson("http://xxx", "{paraData}", 1000)

  }

  def batchProces_processOuter(sc: SparkContext, locationFlag: Int, minid: Int, maxid: Int, numPartitions: Int) = {

    val fooCount = sc.longAccumulator("fooCount")

    //自定义RDD,此处为demo

    val dataRDD = sc.makeRDD(List(1, 2), numPartitions)

    dataRDD.foreachPartition(iterator => {

      val rawData = iterator.toList

      var lstT = new ListBuffer[(Int, Int)]()

      rawData.foreach(v => {

        if (lstT.size < 50) {

          lstT.append((v, 1))

        } else {

          //每50处理一次

          process_outer(lstT.toList)

          fooCount.add(lstT.size)

          lstT.clear()

        }

      })

      //剩余的继续处理

      if (lstT.size > 0) {

        process_outer(lstT.toList)

        fooCount.add(lstT.size)

        lstT.clear()

      }

    });

    println("total =>" + fooCount.value)

  }

针对文本文件RDD的一些处理逻辑:

  //针对单个文件,每行数据超长的情况, 先对行进行拆分,再重新分区,将数据交给多个executor去执行

  def bigLine(sc: SparkContext, locationFlag: Int, minid: Int, maxid: Int, numPartitions: Int) = {

    val fileRDD = sc.textFile("hdfs://hdfscluster/tmp/logs/abc.txt", numPartitions)

    //对于长文本, 先拆分,然后重新分区,提高并发机器利用率, 减少job执行时间

    fileRDD.flatMap(_.split(",")).repartition(24).foreach(println(_))

  }

  //针对无规律零散路径,循环内部使用sc

  def handlerPath_lingsan(sc: SparkContext, locationFlag: Int, minid: Int, maxid: Int, numPartitions: Int, filep: String) = {

    val rawPath: List[String] = List("hdfs://hdfscluster/tmp1/path1", "hdfs://hdfscluster/tmp2/path2", "hdfs://hdfscluster/tmp3/path3")

    val lsResult = rawPath.flatMap(v => {

      sc.textFile(v).map((_, 1)).collect().toList

    }).toList.foreach(println(_))

  }

  //针对文件夹,

  def handlerPath_directroy(sc: SparkContext, locationFlag: Int, minid: Int, maxid: Int, numPartitions: Int, filep: String) = {

    //按行输出指定文件夹下所有文件,分区有效

    val txtRDD = sc.textFile("hdfs://hdfscluster/tmp1/*", numPartitions)

    //重新分区,便于输出结果

    txtRDD.map((_, 1)).repartition(1)

      .saveAsTextFile("hdfs://hdfscluster/tmp/logs/ssoHot3")

  }

  //针对文件夹,且路径下文件数量比较多且比较小的情况

  def handlerPath_directroy(sc: SparkContext, locationFlag: Int, minid: Int, maxid: Int, numPartitions: Int, filep: String) = {

    //返回结果key=文件路径,val=文件内容, 如果content太大的话,容易造成OOM

    val dirRDD = sc.wholeTextFiles("hdfs://hdfscluster/tmp1/*", numPartitions)

    dirRDD.flatMap(v => {

      v._2.split(System.lineSeparator()).map((_, 1))

    }).repartition(1).saveAsTextFile("hdfs://hdfscluster/tmp/logs/ssoHot3")

  }

//java scala转换

  def java_scala_collection_convert = {

    var lstT = new ListBuffer[Int]()

    //注意java,scala转换

    import scala.collection.JavaConverters._

    val lstBack = SensitiveDevice.batchDecrypt(lstT.toList.asJava).asScala

  }

spark textfile rdd 日记的更多相关文章

[Spark] Spark的RDD编程
本篇博客中的操作都在 ./bin/pyspark 中执行. RDD,即弹性分布式数据集(Resilient Distributed Dataset),是Spark对数据的核心抽象.RDD是分布式元素的 ...
理解Spark的RDD
RDD是个抽象类,定义了诸如map().reduce()等方法,但实际上继承RDD的派生类一般只要实现两个方法: def getPartitions: Array[Partition] def com ...
spark中RDD的转化操作和行动操作
本文主要是讲解spark里RDD的基础操作.RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当 ...
Spark核心RDD、什么是RDD、RDD的属性、创建RDD、RDD的依赖以及缓存、
1:什么是Spark的RDD??? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行 ...
[转]Spark学习之路（三）Spark之RDD
Spark学习之路 (三)Spark之RDD https://www.cnblogs.com/qingyunzong/p/8899715.html 目录一.RDD的概述 1.1 什么是RDD? ...
Spark学习之路（三）Spark之RDD
一.RDD的概述 1.1 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素 ...
Spark的RDD原理以及2.0特性的介绍
转载自:http://www.tuicool.com/articles/7VNfyif 王联辉,曾在腾讯,Intel 等公司从事大数据相关的工作.2013 年 - 2016 年先后负责腾讯 Yarn ...
Spark之 RDD转换成DataFrame的Scala实现
依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2. ...
Spark之 RDD
简介 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合. Resilien ...

随机推荐

[源码解析] Flink的Slot究竟是什么？(1)
[源码解析] Flink的Slot究竟是什么?(1) 目录 [源码解析] Flink的Slot究竟是什么?(1) 0x00 摘要 0x01 概述 & 问题 1.1 Fllink工作原理 1.2 ...
elementUI的隐藏组件el-scroll--滚动条
由于原生的滚动条存在兼容性问题并且样式不是太美观,在项目中经常使用的是elementui,发现elementui中有个隐藏的组件,就是element官网使用的滚动条,可以优化滚动条样式.鼠标经过的时候 ...
spring4.1及以下跨域配置
springMVC4.1及以下,就需要对该请求配置filter,,设置请求头可支持跨域 1.web.xml配置  <filter> <fil ...
2020，最新APP重构：网络请求框架
在现在的app,网络请求是一个很重要的部分,app中很多部分都有或多或少的网络请求,所以在一个项目重构时,我会选择网络请求框架作为我重构的起点.在这篇文章中我所提出的架构,并不是所谓的最好的网络请 ...
JDK16关于TCP和UDP的优化
文章转自belaban.blogspot.com Double your performance: virtual threads (fibers) and JDK 15/16!If you use ...
Spine学习九 - 冰冻效果
想象这样一个效果,一个人被冰霜攻击命中,然后这个人整个就被冰冻了,那么spine动画要如何实现这个效果呢? 1.首先需要一个Spine动画,这个动画应该是相对静止的,因为人物已经被冰冻了,那么这个人儿 ...
01vue.config.js
const path = require('path'); module.exports = { // 基本路径 publicPath: process.env.NODE_ENV === 'pro ...
干货：用好这13款VSCode插件，工作效率提升10倍
文章每周持续更新,原创不易,「三连」让更多人看到是对我最大的肯定.可以微信搜索公众号「后端技术学堂」第一时间阅读(一般比博客早更新一到两篇) 大家好我是lemon, 马上进入我们今天的主题吧. 又 ...
Codeforces Round #669 (Div. 2)A-C题解
A. Ahahahahahahahaha 题目:http://codeforces.com/contest/1407/problem/A 题解:最多进行n/2的操作次数,我们统计这n个数中1的个数,是 ...
IIS上传文件最大限制问题
IIS服务器文件最大限制默认是30M. 自定义方法:修改配置文件,路径是:C:\Windows\System32\inetsrv\Config\applicationHost.config 在requ ...

spark textfile rdd 日记

spark textfile rdd 日记的更多相关文章

随机推荐

热门专题