使用sparkSQL的insert操作Kudu

可以选择使用Spark SQL直接使用INSERT语句写入Kudu表；与'append'类似，INSERT语句实际上将默认使用UPSERT语义处理；

import org.apache.kudu.spark.kudu._

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.sql.SparkSession

/**

  * Created by angel；

  */

object SparkSQL_insert {

  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setAppName("AcctfileProcess")

      //设置Master_IP并设置spark参数

      .setMaster("local")

      .set("spark.worker.timeout", "500")

      .set("spark.cores.max", "10")

      .set("spark.rpc.askTimeout", "600s")

      .set("spark.network.timeout", "600s")

      .set("spark.task.maxFailures", "1")

      .set("spark.speculationfalse", "false")

      .set("spark.driver.allowMultipleContexts", "true")

      .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

    val sparkContext = SparkContext.getOrCreate(sparkConf)

    val sqlContext = SparkSession.builder().config(sparkConf).getOrCreate().sqlContext

    //TODO 1:定义表名

    val kuduTableName = "spark_kudu_tbl"

    val kuduMasters = "hadoop01:7051,hadoop02:7051,hadoop03:7051"

    //使用spark创建kudu表

    val kuduContext = new KuduContext(kuduMasters, sqlContext.sparkContext)

    //TODO 2:准备数据

    val srcTableData = Array(

      Customer("enzo", 43, "oakland"),

      Customer("laura", 27, "vancouver"))

    import sqlContext.implicits._

    //TODO 3：配置kudu参数

    val kuduOptions: Map[String, String] = Map(

      "kudu.table"  -> kuduTableName,

      "kudu.master" -> kuduMasters)

    //TODO 4：创建dataframe

    val srcTableDF = sparkContext.parallelize(srcTableData).toDF()

    //TODO 5：创建临时表1

    srcTableDF.registerTempTable("source_table")

    //TODO 6：创建临时表2

    sqlContext.read.options(kuduOptions).kudu.registerTempTable(kuduTableName)

    //TODO 7：使用sparkSQL的insert操作插入数据

    sqlContext.sql(s"INSERT INTO TABLE $kuduTableName SELECT * FROM source_table")

    //TODO 8：查询数据

    sqlContext.read.options(kuduOptions).kudu.show()

  }

}

使用sparkSQL的insert操作Kudu的更多相关文章

spark操作kudu之DML操作
Kudu支持许多DML类型的操作,其中一些操作包含在Spark on Kudu集成包括: INSERT - 将DataFrame的行插入Kudu表.请注意,虽然API完全支持INSERT,但不鼓励在 ...
Java实现impala操作kudu
推荐阅读: 论主数据的重要性(正确理解元数据.数据元) CDC+ETL实现数据集成方案 Java实现impala操作kudu 实战kudu集成impala 对于impala而言,开发人员是可以通过JD ...
MyBatis魔法堂：Insert操作详解（返回主键、批量插入）
一.前言数据库操作怎能少了INSERT操作呢?下面记录MyBatis关于INSERT操作的笔记,以便日后查阅. 二. insert元素属性详解其属性如下: parameterType ...
IBatisNet：让insert操作返回新增记录的主键值
项目引用ibatis包: IBatisNet.Common.dll --文件版本1.6.2.0 IBatisNet.DataAccess.dll IBatisNet.DataMapper.dll 项目 ...
MyBatis返回主键，MyBatis Insert操作返回主键
MyBatis返回主键,MyBatis Insert操作返回主键 >>>>>>>>>>>>>>>>> ...
MyBatis魔法堂：Insert操作详解
一.前言数据库操作怎能少了INSERT操作呢?下面记录MyBatis关于INSERT操作的笔记,以便日后查阅. 二. insert元素属性详解其属性如下: parameterType:入参的全限 ...
veridata实验例（3）验证veridata发现insert操作不会导致同步
veridata实验例(3)验证veridata发现insert操作不会导致同步续接:<veridata实验举例(2)验证表BONUS与表SALGRADE两节点同步情况>,地址:点击打开 ...
多表insert操作详解
--1.无条件的多表insert all ; ; ; --没有条件,向多个目标表全量插入,必须有all insert all --不指定emp_1后面的列,也不指定values,那么emp_1中的所有 ...
【mybatis】mybatis中insert操作，返回自增id
需求是这样的: mybatis中insert操作,返回自增id,因为这个自增id需要给后续业务用到. 原本是这样的: 将insert语句传入,正常执行insert操作,返回int永远是 0[失败] 或 ...

随机推荐

mysql 5.6 windows 启动脚本
2018-4-25 17:02:08 星期三下载mysql 5.6 zip(免安装版)到本机一台电脑上可能装有多个版本的mysql, 启动时为了不影响: 1. 解压后文件夹根目录改名为 mysql ...
pyhon 前面补充和set
一, 主要内容. 补充一个字符串的基本操作 li = ["李嘉诚", "麻花藤", "黄海峰", "刘嘉玲"] s = ...
8大排序之Python实现冒泡排序优化
1.冒泡排序(从大到小):交换发生在内部循环稳定的排序冒泡排序的平均时间复杂度是O(n2),最好的时间复杂度是O(n),最坏的时间复杂度是O(n2),空间复杂度为O(1) 冒泡排序的优化在于did ...
打包APP
记得之前网上也有app打包平台,但是都会有所限制,或者增加广告等等,这里呢,介绍一款工具,可以自己将网站打包成app. wex5 (WeX5开源免费跨端开发工具-html5 app开发就用WeX5)官 ...
winform里面打开网页(转)
首先,新建一个winform项目,我在想,如果想要实现打开网页功能的话,应该会有一个控件什么之类的吧?查了工具栏,真的有一个名叫 WebBrowser的家伙,应该就是这货没错了.在网上查了它的资料更加 ...
尚硅谷《全套Java、Android、HTML5前端视频》
尚硅谷<全套Java.Android.HTML5前端视频> (百万谷粉推荐:史上最牛.最适合自学的全套视频.资料及源码) [尚硅谷官网资料导航] 谷粒学院在线学习:http://www.g ...
json与字典的区别
maven项目使用log4j
日志是应用软件中不可缺少的部分,Apache的开源项目 log4j 是一个功能强大的日志组件,提供方便的日志记录. 1.maven项目在pom.xml导入log4j依赖: <dependency ...
新建maven项目错误处理
1.如果新建maven 项目确省maven dependencies,则在存在问题工程的.classpath末尾加上 <classpathentry kind="con" ...
复习os模块常用的一些操作
import os # 1.切换路径============= d = os.getcwd() #获取当前的工作路径 os.chdir('D:\\')#目录的切换 print(os.getcwd()) ...

使用sparkSQL的insert操作Kudu

使用sparkSQL的insert操作Kudu的更多相关文章

随机推荐

热门专题