Spark Structured Streaming：将数据落地按照数据字段进行分区方案

方案一（使用ForeachWriter Sink方式）：

val query = wordCounts.writeStream.trigger(ProcessingTime(5.seconds))

  .outputMode("complete")

  .foreach(new ForeachWriter[Row] {

      var fileWriter: FileWriter = _

      override def process(value: Row): Unit = {

        fileWriter.append(value.toSeq.mkString(","))

      }

      override def close(errorOrNull: Throwable): Unit = {

        fileWriter.close()

      }

      override def open(partitionId: Long, version: Long): Boolean = {

        FileUtils.forceMkdir(new File(s"/tmp/example/${partitionId}"))

        fileWriter = new FileWriter(new File(s"/tmp/example/${partitionId}/temp"))

        true

      }

    }).start()

方案二(ds.writeStream().partitionBy("field"))：

import org.apache.spark.sql.streaming.ProcessingTime

val query =

  streamingSelectDF

    .writeStream

    .format("parquet")

    .option("path", "/mnt/sample/test-data")

    .option("checkpointLocation", "/mnt/sample/check")

    .partitionBy("zip", "day")

    .trigger(ProcessingTime("25 seconds"))

    .start()

java代码：

        // Write new data to Parquet files

        // can be "orc", "json", "csv", etc.

        String hdfsFileFormat = SparkHelper.getInstance().getLTEBaseSaveHdfsFileFormat();

        String queryName = "save" + this.getTopicEncodeName(topicName) + "DataToHdfs";

        String saveHdfsPath = SparkHelper.getInstance().getLTEBaseSaveHdfsPath();

        // The file path which partitioned by scan_start_time (format:yyyyMMddHH0000)

        dsParsed.writeStream()

                .format(hdfsFileFormat)

                .option("path", saveHdfsPath + topicName + "/")

                .option("checkpointLocation", this.checkPointPath + queryName + "/")

                .outputMode("append")

                .partitionBy("scan_start_time")

                .trigger(Trigger.ProcessingTime(5, TimeUnit.MINUTES))

                .start();

Spark Structured Streaming：将数据落地按照数据字段进行分区方案的更多相关文章

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十九）：推送avro格式数据到topic，并使用spark structured streaming接收topic解析avro数据
推送avro格式数据到topic 源代码:https://github.com/Neuw84/structured-streaming-avro-demo/blob/master/src/main/j ...
Spark Structured Streaming框架（2）之数据输入源详解
Spark Structured Streaming目前的2.1.0版本只支持输入源:File.kafka和socket. 1. Socket Socket方式是最简单的数据输入源,如Quick ex ...
Spark Structured Streaming框架(3)之数据输出源详解
Spark Structured streaming API支持的输出源有:Console.Memory.File和Foreach.其中Console在前两篇博文中已有详述,而Memory使用非常简单 ...
Spark Structured Streaming框架(2)之数据输入源详解
Spark Structured Streaming目前的2.1.0版本只支持输入源:File.kafka和socket. 1. Socket Socket方式是最简单的数据输入源,如Quick ex ...
Spark Structured streaming框架（1）之基本使用
Spark Struntured Streaming是Spark 2.1.0版本后新增加的流计算引擎,本博将通过几篇博文详细介绍这个框架.这篇是介绍Spark Structured Streamin ...
Spark2.2（三十三）：Spark Streaming和Spark Structured Streaming更新broadcast总结（一）
背景: 需要在spark2.2.0更新broadcast中的内容,网上也搜索了不少文章,都在讲解spark streaming中如何更新,但没有spark structured streaming更新 ...
Spark2.2(三十八)：Spark Structured Streaming2.4之前版本使用agg和dropduplication消耗内存比较多的问题（Memory issue with spark structured streaming）调研
在spark中<Memory usage of state in Spark Structured Streaming>讲解Spark内存分配情况,以及提到了HDFSBackedState ...
Spark2.3（三十五）Spark Structured Streaming源代码剖析(从CSDN和Github中看到别人分析的源代码的文章值得收藏)
从CSDN中读取到关于spark structured streaming源代码分析不错的几篇文章 spark源码分析--事件总线LiveListenerBus spark事件总线的核心是LiveLi ...
Spark2.3（三十四）：Spark Structured Streaming之withWaterMark和windows窗口是否可以实现最近一小时统计
WaterMark除了可以限定来迟数据范围,是否可以实现最近一小时统计? WaterMark目的用来限定参数计算数据的范围:比如当前计算数据内max timestamp是12::00,waterMar ...
DataFlow编程模型与Spark Structured streaming
流式(streaming)和批量( batch):流式数据,实际上更准确的说法应该是unbounded data(processing),也就是无边界的连续的数据的处理:对应的批量计算,更准确的说法是 ...

随机推荐

MikroTik RouterOS使用VirtualBox挂载物理硬盘作为虚拟机硬盘进行安装
说明:这一切似乎在Windows下更好操作.虚拟机操作不是难点,难点在于虚拟磁盘的转换挂载一.先挂载硬盘 # 创建虚拟镜像并映射到物理硬盘 cd "c:\Program Files\Ora ...
WPF中的3D变换PlaneProjection
在UWP中有一个比较好用的伪3D变换PlaneProjection,可以以一种轻量级和非常简单的方式实现3D的效果.这种效果在Silverlight中也有这种变换,但在WPF中确一直没有提供. 虽然W ...
HDU 4763 Theme Section （2013长春网络赛1005，KMP）
Theme Section Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Tot ...
HDU 4747 Mex （2013杭州网络赛1010题，线段树）
Mex Time Limit: 15000/5000 MS (Java/Others) Memory Limit: 65535/65535 K (Java/Others)Total Submis ...
SIMATIC PID温度控制
SIMATIC PID温度控制 // VAR_INPUT ------------------------------------------------------------------- #if ...
delphi 游戏
http://www.cnblogs.com/devlyn/archive/2010/08/24/1807190.html
Delphi判断文件是否正在被使用
首先,我们先来认识下CreateFile函数,它的原型如下 HANDLE CreateFile( LPCTSTR lpFileName, //指向文件名的指针 DWORD dwDesired ...
NSZombie 详解－僵尸对象
1.什么是僵尸对象? 简而言之,就是过度释放的对象. 2.僵尸对象有什么特点? 如果一个对象a被变成了僵尸对象,那么,在进行下面的判断时,a是会被系统当成一个对象来进行判断的.但是,如果你使用a进行其 ...
简述 IOS中的LazyLoad思想
Lazy,谁懒?当然是计算机偷懒.通常用法,你有一个NSArray的property,但是你不在初始化方法里为其alloc/init,它就只是一个指针,不会占用内存.然后你写了此property的访问 ...
美国谍梦第一季/全集The Americans迅雷下载
美国谍梦第一季 The Americans Season 1 (2013)本季看点:这部背景设在80年代的剧集,故事讲述了一对被组织安排在美国生活的克格勃特工夫妻Phillip和Elizabeth, ...

Spark Structured Streaming：将数据落地按照数据字段进行分区方案

方案一（使用ForeachWriter Sink方式）：

方案二(ds.writeStream().partitionBy("field"))：

Spark Structured Streaming：将数据落地按照数据字段进行分区方案的更多相关文章

随机推荐

热门专题