Spark Strcutured Streaming中使用Dataset的groupBy agg 与 join 示例(java api)

Dataset的groupBy agg示例

Dataset<Row> resultDs = dsParsed

.groupBy("enodeb_id", "ecell_id")

.agg(

    functions.first("scan_start_time").alias("scan_start_time1"),

    functions.first("insert_time").alias("insert_time1"),

    functions.first("mr_type").alias("mr_type1"),

    functions.first("mr_ltescphr").alias("mr_ltescphr1"),

    functions.first("mr_ltescpuschprbnum").alias("mr_ltescpuschprbnum1"),

    functions.count("enodeb_id").alias("rows1"))

.selectExpr(

    "ecell_id",

    "enodeb_id",

    "scan_start_time1 as scan_start_time",

    "insert_time1 as insert_time",

    "mr_type1 as mr_type",

    "mr_ltescphr1 as mr_ltescphr",

    "mr_ltescpuschprbnum1 as mr_ltescpuschprbnum",

    "rows1 as rows");

Dataset Join示例：

        Dataset<Row> ncRes = sparkSession.read().option("delimiter", "|").option("header", true).csv("/user/csv");

        Dataset<Row> mro=sparkSession.sql("。。。");

        Dataset<Row> ncJoinMro = ncRes

                .join(mro, mro.col("id").equalTo(ncRes.col("id")).and(mro.col("calid").equalTo(ncRes.col("calid"))), "left_outer")

                .select(ncRes.col("id").as("int_id"),

                        mro.col("vendor_id"),

                         。。。
                 );

join condition另外一种方式:

leftDfWithWatermark.join(rightDfWithWatermark, 
　　expr(""" leftDfId = rightDfId AND leftDfTime >= rightDfTime AND leftDfTime <= rightDfTime + interval 1 hour"""), 
　　joinType = "leftOuter" )

BroadcastHashJoin示例：

package com.dx.testbroadcast;

import org.apache.spark.SparkConf;

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.SparkSession;

import org.apache.spark.sql.functions;

import java.io.*;

public class Test {

    public static void main(String[] args) {

        String personPath = "E:\\person.csv";

        String personOrderPath = "E:\\personOrder.csv";

        //writeToPersion(personPath);

        //writeToPersionOrder(personOrderPath);

        SparkConf conf = new SparkConf();

        SparkSession sparkSession = SparkSession.builder().config(conf).appName("test-broadcast-app").master("local[*]").getOrCreate();

        Dataset<Row> person = sparkSession.read()

                .option("header", "true")

                .option("inferSchema", "true") //是否自动推到内容的类型

                .option("delimiter", ",").csv(personPath).as("person");

        person.printSchema();

        Dataset<Row> personOrder = sparkSession.read()

                .option("header", "true")

                .option("inferSchema", "true") //是否自动推到内容的类型

                .option("delimiter", ",").csv(personOrderPath).as("personOrder");

        personOrder.printSchema();

        // Default `inner`. Must be one of:`inner`, `cross`, `outer`, `full`, `full_outer`, `left`, `left_outer`,`right`, `right_outer`, `left_semi`, `left_anti`.

        Dataset<Row> resultDs = personOrder.join(functions.broadcast(person), personOrder.col("personid").equalTo(person.col("id")),"left");

        resultDs.explain();
        resultDs.show(10);

    }

    private static void writeToPersion(String personPath) {

        BufferedWriter personWriter = null;

        try {

            personWriter = new BufferedWriter(new FileWriter(personPath));

            personWriter.write("id,name,age,address\r\n");

            for (int i = ; i < ; i++) {

                personWriter.write("" + i + ",person-" + i + "," + i + ",address-address-address-address-address-address-address" + i + "\r\n");

            }

        } catch (Exception e) {

            e.printStackTrace();

        } finally {

            if (personWriter != null) {

                try {

                    personWriter.close();

                } catch (IOException e) {

                    e.printStackTrace();

                }

            }

        }

    }

    private static void writeToPersionOrder(String personOrderPath) {

        BufferedWriter personWriter = null;

        try {

            personWriter = new BufferedWriter(new FileWriter(personOrderPath));

            personWriter.write("personid,name,age,address\r\n");

            for (int i = ; i < ; i++) {

                personWriter.write("" + i + ",person-" + i + "," + i + ",address-address-address-address-address-address-address" + i + "\r\n");

            }

        } catch (Exception e) {

            e.printStackTrace();

        } finally {

            if (personWriter != null) {

                try {

                    personWriter.close();

                } catch (IOException e) {

                    e.printStackTrace();

                }

            }

        }

    }

}

打印结果：

== Physical Plan ==

*() BroadcastHashJoin [personid#], [id#], LeftOuter, BuildRight

:- *() FileScan csv [personid#,name#,age#,address#] Batched: false, Format: CSV, Location: InMemoryFileIndex[file:/E:/personOrder.csv], PartitionFilters: [], PushedFilters: [], ReadSchema: struct<personid:int,name:string,age:int,address:string>

+- BroadcastExchange HashedRelationBroadcastMode(List(cast(input[, int, true] as bigint)))

   +- *() Project [id#, name#, age#, address#]

      +- *() Filter isnotnull(id#)

         +- *() FileScan csv [id#,name#,age#,address#] Batched: false, Format: CSV, Location: InMemoryFileIndex[file:/E:/person.csv], PartitionFilters: [], PushedFilters: [IsNotNull(id)], ReadSchema: struct<id:int,name:string,age:int,address:string>

+--------+--------+---+--------------------+---+--------+---+--------------------+

|personid|    name|age|             address| id|    name|age|             address|

+--------+--------+---+--------------------+---+--------+---+--------------------+

|       |person-|  |address-address-a...|  |person-|  |address-address-a...|

|       |person-|  |address-address-a...|  |person-|  |address-address-a...|

|       |person-|  |address-address-a...|  |person-|  |address-address-a...|

|       |person-|  |address-address-a...|  |person-|  |address-address-a...|

|       |person-|  |address-address-a...|  |person-|  |address-address-a...|

|       |person-|  |address-address-a...|  |person-|  |address-address-a...|

|       |person-|  |address-address-a...|  |person-|  |address-address-a...|

|       |person-|  |address-address-a...|  |person-|  |address-address-a...|

|       |person-|  |address-address-a...|  |person-|  |address-address-a...|

|       |person-|  |address-address-a...|  |person-|  |address-address-a...|

+--------+--------+---+--------------------+---+--------+---+--------------------+

only showing top  rows

SparkSQL Broadcast HashJoin

        person.createOrReplaceTempView("temp_person");

        personOrder.createOrReplaceTempView("temp_person_order");

        Dataset<Row> sqlResult = sparkSession.sql(

                " SELECT /*+ BROADCAST (t11) */" +

                " t11.id,t11.name,t11.age,t11.address," +

                " t10.personid as person_id,t10.name as persion_order_name" +

                " FROM temp_person_order as t10 " +

                " inner join temp_person as t11" +

                " on t11.id = t10.personid ");

        sqlResult.show();

        sqlResult.explain();

打印日志

+---+--------+---+--------------------+---------+------------------+

| id|    name|age|             address|person_id|persion_order_name|

+---+--------+---+--------------------+---------+------------------+

|  |person-|  |address-address-a...|        |          person-|

|  |person-|  |address-address-a...|        |          person-|

|  |person-|  |address-address-a...|        |          person-|

|  |person-|  |address-address-a...|        |          person-|

|  |person-|  |address-address-a...|        |          person-|

|  |person-|  |address-address-a...|        |          person-|

|  |person-|  |address-address-a...|        |          person-|

|  |person-|  |address-address-a...|        |          person-|

|  |person-|  |address-address-a...|        |          person-|

|  |person-|  |address-address-a...|        |          person-|

+---+--------+---+--------------------+---------+------------------+

only showing top  rows

// :: INFO FileSourceStrategy: Pruning directories with:

// :: INFO FileSourceStrategy: Post-Scan Filters: isnotnull(personid#)

// :: INFO FileSourceStrategy: Output Data Schema: struct<personid: int, name: string>

// :: INFO FileSourceScanExec: Pushed Filters: IsNotNull(personid)

// :: INFO FileSourceStrategy: Pruning directories with:

// :: INFO FileSourceStrategy: Post-Scan Filters: isnotnull(id#)

// :: INFO FileSourceStrategy: Output Data Schema: struct<id: int, name: string, age: int, address: string ...  more fields>

// :: INFO FileSourceScanExec: Pushed Filters: IsNotNull(id)

== Physical Plan ==

*() Project [id#, name#, age#, address#, personid# AS person_id#, name# AS persion_order_name#]

+- *() BroadcastHashJoin [personid#], [id#], Inner, BuildRight

   :- *() Project [personid#, name#]

   :  +- *() Filter isnotnull(personid#)

   :     +- *() FileScan csv [personid#,name#] Batched: false, Format: CSV, Location: InMemoryFileIndex[file:/E:/personOrder.csv], PartitionFilters: [], PushedFilters: [IsNotNull(personid)], ReadSchema: struct<personid:int,name:string>

   +- BroadcastExchange HashedRelationBroadcastMode(List(cast(input[, int, true] as bigint)))

      +- *() Project [id#, name#, age#, address#]

         +- *() Filter isnotnull(id#)

            +- *() FileScan csv [id#,name#,age#,address#] Batched: false, Format: CSV, Location: InMemoryFileIndex[file:/E:/person.csv], PartitionFilters: [], PushedFilters: [IsNotNull(id)], ReadSchema: struct<id:int,name:string,age:int,address:string>

// :: INFO SparkContext: Invoking stop() from shutdown hook

Spark Strcutured Streaming中使用Dataset的groupBy agg 与 join 示例(java api)的更多相关文章

Java中访问控制修饰符的详解和示例——Java学习
Java中的四个访问控制修饰符简述在Java中共有四个: public -- 对外部完全可见 protected -- 对本包和所有子类可见默认(不需要修饰符)-- 对本包可见 private ...
Spark（十六）DataSet
Spark最吸引开发者的就是简单易用.跨语言(Scala, Java, Python, and R)的API. 本文主要讲解Apache Spark 2.0中RDD,DataFrame和Dataset ...
Spark2.2（三十三）：Spark Streaming和Spark Structured Streaming更新broadcast总结（一）
背景: 需要在spark2.2.0更新broadcast中的内容,网上也搜索了不少文章,都在讲解spark streaming中如何更新,但没有spark structured streaming更新 ...
Spark2.3（三十四）：Spark Structured Streaming之withWaterMark和windows窗口是否可以实现最近一小时统计
WaterMark除了可以限定来迟数据范围,是否可以实现最近一小时统计? WaterMark目的用来限定参数计算数据的范围:比如当前计算数据内max timestamp是12::00,waterMar ...
Spark Streaming中的操作函数分析
根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类 Transformations Window Operations J ...
Spark2.3（三十五）Spark Structured Streaming源代码剖析(从CSDN和Github中看到别人分析的源代码的文章值得收藏)
从CSDN中读取到关于spark structured streaming源代码分析不错的几篇文章 spark源码分析--事件总线LiveListenerBus spark事件总线的核心是LiveLi ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十六）Structured Streaming中ForeachSink的用法
Structured Streaming默认支持的sink类型有File sink,Foreach sink,Console sink,Memory sink. ForeachWriter实现: 以写 ...
Spark Streaming中的操作函数讲解
Spark Streaming中的操作函数讲解根据根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类 Transform ...
Spark2.x（六十一）：在Spark2.4 Structured Streaming中Dataset是如何执行加载数据源的？
本章主要讨论,在Spark2.4 Structured Streaming读取kafka数据源时,kafka的topic数据是如何被执行的过程进行分析. 以下边例子展开分析: SparkSession ...

随机推荐

深入理解webpack
什么是Webpack WebPack可以看做是模块打包机:它做的事情是,分析你的项目结构,找到JavaScript模块以及其它的一些浏览器不能直接运行的拓展语言(Scss,TypeScript等),并 ...
ELASTIC 5.2部署并收集nginx日志
elastic 5.2集群安装笔记设计架构如下: nginx_json_log ->filebeat ->logstash ->elasticsearch ->kiban ...
centos7 做rails 执行rails server 报错
做操作rails server 时报错这个错误时因为一些东西没有安装 gem install execjsgem install therubyracersudo apt-get insta ...
jstat命令 -- Java虚拟机监控统计工具
http://blog.sina.com.cn/s/blog_5f5716580100u76r.html 语法:jstat [generalOption | outputOptions vmid [i ...
在简历中使用STAR法则
一.什么是STAR法则? The STAR (Situation, Task, Action, Result) format is a job interview technique used by ...
（转）java并发编程--Executor框架
本文转自https://www.cnblogs.com/MOBIN/p/5436482.html java并发编程--Executor框架只要用到线程,就可以使用executor.,在开发中如果需要 ...
在SpringMVC中使用Jackson并格式化时间
在spring MVC 3中,要实现REST风格的JSON服务,最简单的方式是使用 @ResponseBody 注解.该注解会自动把返回的对象,序列化为JSON. 来看一个最简单的例子.这个例子先使用 ...
dwz 分页 bug (选回 combox 第一个值时不执行 onchange)
先看一下官方的测试: 官方的演示有两个 bug 一个是combox数字一直不变,二是当选回第一个值时不执行 onchange 事件. 经过firebug调试,这是一个bug,传到后台的参数没有得到及时 ...
将CAGradientLayer当做mask使用
将CAGradientLayer当做mask使用效果源码 https://github.com/YouXianMing/Animations // // CAGradientView.h // M ...
神奇女侠Wonder Woman迅雷下载
亚马逊公主戴安娜·普林斯(盖尔·加朵 Gal Gadot 饰),经过在家乡天堂岛的训练,取得上帝赐予的武器与装备,化身神奇女侠,与空军上尉史蒂夫·特雷弗(克里斯·派恩 Chris Pine 饰)一同 ...

Spark Strcutured Streaming中使用Dataset的groupBy agg 与 join 示例(java api)

Dataset的groupBy agg示例

Dataset Join示例：

BroadcastHashJoin示例：

SparkSQL Broadcast HashJoin

Spark Strcutured Streaming中使用Dataset的groupBy agg 与 join 示例(java api)的更多相关文章

随机推荐

热门专题