Kudu Native RDD

Spark与Kudu的集成同事提供了kudu RDD

import org.apache.kudu.spark.kudu.KuduContext

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.sql.{Row, SparkSession}

/**

  * Created by angel；

  */

object KuduNativeRDD {

  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setAppName("AcctfileProcess")

      //设置Master_IP并设置spark参数

      .setMaster("local")

      .set("spark.worker.timeout", "500")

      .set("spark.cores.max", "10")

      .set("spark.rpc.askTimeout", "600s")

      .set("spark.network.timeout", "600s")

      .set("spark.task.maxFailures", "1")

      .set("spark.speculationfalse", "false")

      .set("spark.driver.allowMultipleContexts", "true")

      .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

    val sparkContext = SparkContext.getOrCreate(sparkConf)

    val sqlContext = SparkSession.builder().config(sparkConf).getOrCreate().sqlContext

    //使用spark创建kudu表

    val kuduMasters = "hadoop01:7051,hadoop02:7051,hadoop03:7051"

    val kuduContext = new KuduContext(kuduMasters, sqlContext.sparkContext)

    //TODO 1：定义kudu表

    val kuduTableName = "spark_kudu_tbl"

    //TODO 2：指定想要的列

    val kuduTableProjColumns = Seq("name", "age")

    //TODO 3：读取表，将数据转换成rdd

    val custRDD = kuduContext.kuduRDD(sparkContext, kuduTableName, kuduTableProjColumns)

    //TODO 4：将rdd数据转换成tuple

    val custTuple = custRDD.map {

      case Row(name: String, age: Int) => (name, age)

    }

    //TODO 5：打印

    custTuple.collect().foreach(println(_))

  }

}

Kudu Native RDD的更多相关文章

kudu基础入门
1.kudu介绍 1.1 背景介绍在KUDU之前,大数据主要以两种方式存储: (1)静态数据: 以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景.这类存储的局限性是数据无法进行随机 ...
Up and running with Apache Spark on Apache Kudu
After the GA of Apache Kudu in Cloudera CDH 5.10, we take a look at the Apache Spark on Kudu integra ...
spark RDD官网RDD编程指南
http://spark.apache.org/docs/latest/rdd-programming-guide.html#using-the-shell Overview(概述) 在较高的层次上, ...
使用spark操作kudu
Spark与KUDU集成支持: DDL操作(创建/删除) 本地Kudu RDD Native Kudu数据源,用于DataFrame集成从kudu读取数据从Kudu执行插入/更新/ upsert ...
Spark Kudu 结合
Kudu的背景 Hadoop中有很多组件,为了实现复杂的功能通常都是使用混合架构, Hbase:实现快速插入和修改,对大量的小规模查询也很迅速 HDFS/Parquet + Impala/Hive:对 ...
【原创】大叔问题定位分享（27）spark中rdd.cache
spark 2.1.1 spark应用中有一些task非常慢,持续10个小时,有一个task日志如下: 2019-01-24 21:38:56,024 [dispatcher-event-loop-2 ...
spark操作kudu之DML操作
Kudu支持许多DML类型的操作,其中一些操作包含在Spark on Kudu集成包括: INSERT - 将DataFrame的行插入Kudu表.请注意,虽然API完全支持INSERT,但不鼓励在 ...
DataFrames和Kudu
Kudu为Kudu表提供了一个自定义的原生数据源.可以和DataFrame API紧密集成: 使用DataFrame的好处就是可以从很多的数据源创建dataframe,包括现有的RDD,Hive表或S ...
impala记录-安装kudu和impala
1.配置/etc/yum.repos.d clouder-kudu.repo [cloudera-kudu]# Packages for Cloudera's Distribution for kud ...

随机推荐

webstorm加载项目卡死在scanning files to index
今天用webstorm导入项目时,需要加载node-modules文件夹,导致webstorm非常卡,页面提示scanning files to index... 网上搜到办法,记录下: 说明: 在n ...
shell 学习之if语句
bash中如何实现条件判断?条件测试类型: 整数测试字符测试文件测试一.条件测试的表达式: [ expression ] 括号两端必须要有空格 [[ expres ...
mongodb导入导出数据
导出 mongoexport -d DB_NAME -c COLLECT_NAME -o FILE_NAME 例:mongoexport -d db_test -c data_result -o da ...
欲善其工必先利其器-----ThinkPad E430加装SSD固态硬盘和内存
大概13年5月左右入手的小黑ThinkPad E430 当时辞职换工作换城市所以预算有限,4k左右大洋买下了这款笔记本电脑.3年左右的时间,一直使用单位电脑,偶尔使用小黑真心崩溃.你会发现你会有放弃使 ...
[JavaScript]iframe的contentWindow
HTMLIFrameElement.contentWindow返回的是HTMLIFrameElement类型元素的window对象通过此对象可以修改iframe实体内的window行为 <if ...
AMD-requireJS
require.js是AMD的一种实现形式. 加载: <script src="require.js" data-main="main"></ ...
Android 目前最稳定和高效的UI适配方案
Android系统发布十多年以来,关于Android的UI的适配一直是开发环节中最重要的问题,但是我看到还是有很多小伙伴对Android适配方案不了解.刚好,近期准备对糗事百科Android客户端设计 ...
【ES】学习12-近似聚合
在数据操作中有三个考虑指标:大数据.精确性和实时性.三者难以同时满足. 精确 + 实时数据可以存入单台机器的内存之中,我们可以随心所欲,使用任何想用的算法.结果会 100% 精确,响应会相对快速. ...
java报错:The type java.lang.Object cannot be resolved. It is indirectly referenced from required .class files
看包的路径是否对对:比如这样不对(...src/object/obietc) 其它解决方法转载: https://www.cnblogs.com/yadongliang/p/5918228.html ...
Best Free Hacking E-Books 2017 In PDF Format
1.Best Free Hacking E-Books 2017 In PDF Format: 电子书籍下载地址后续我会更新在我的百度云资源上,需要的留言Black Belt Hacking &a ...

Kudu Native RDD

Kudu Native RDD的更多相关文章

随机推荐

热门专题