Spark(二十)【SparkSQL将CSV导入Kudu】

SparkSql 将CSV导入kudu

SparkSql 将CSV导入kudu

pom 依赖

 <properties>

        <spark.version>2.1.0</spark.version>

        <scala.version>2.11</scala.version>

        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>

        <project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding>

        <java.version>1.8</java.version>

        <maven.version.min>3.5.0</maven.version.min>

        <scala.binary.version>2.11</scala.binary.version>

        <scala.complete.version>${scala.binary.version}.4</scala.complete.version>

        <spark-sql.version>2.1.0</spark-sql.version>

    </properties>

    <dependencies>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.11</artifactId>

            <version>${spark.version}</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.kafka</groupId>

            <artifactId>kafka-clients</artifactId>

            <version>0.11.0.0</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-streaming_2.11</artifactId>

            <version>2.1.0</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_2.11</artifactId>

            <version>${spark.version}</version>

            <scope>compile</scope>

            <exclusions>

                <exclusion>

                    <groupId>org.codehaus.janino</groupId>

                    <artifactId>commons-compiler</artifactId>

                </exclusion>

            </exclusions>

        </dependency>

        <dependency>

            <groupId>org.codehaus.janino</groupId>

            <artifactId>commons-compiler</artifactId>

            <version>3.0.9</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.hbase</groupId>

            <artifactId>hbase-server</artifactId>

            <version>1.0.0</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-hive_2.11</artifactId>

            <version>${spark.version}</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>org.scala-lang</groupId>

            <artifactId>scala-library</artifactId>

            <version>2.11.12</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>org.scala-lang</groupId>

            <artifactId>scala-compiler</artifactId>

            <version>2.11.12</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>com.typesafe</groupId>

            <artifactId>config</artifactId>

            <version>1.2.1</version>

            <scope>compile</scope>

        </dependency>

        <!-- scalikejdbc_2.11 -->

        <dependency>

            <groupId>org.scalikejdbc</groupId>

            <artifactId>scalikejdbc_2.11</artifactId>

            <version>2.5.0</version>

            <scope>compile</scope>

        </dependency>

        <!-- scalikejdbc-config_2.11 -->

        <dependency>

            <groupId>org.scalikejdbc</groupId>

            <artifactId>scalikejdbc-config_2.11</artifactId>

            <version>2.5.0</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>mysql</groupId>

            <artifactId>mysql-connector-java</artifactId>

            <version>5.1.38</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>redis.clients</groupId>

            <artifactId>jedis</artifactId>

            <version>2.9.0</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>com.xes.bdc</groupId>

            <artifactId>galaxy-engine-common</artifactId>

            <version>1.0-SNAPSHOT</version>

            <exclusions>

                <exclusion>

                    <groupId>org.apache.kudu</groupId>

                    <artifactId>kudu-client</artifactId>

                </exclusion>

            </exclusions>

        </dependency>

        <dependency>

            <groupId>org.apache.kudu</groupId>

            <artifactId>kudu-spark2_2.11</artifactId>

            <version>1.9.0</version>

            <scope>compile</scope>

        </dependency>

    </dependencies>

    <build>

        <!--编译的文件目录-->

        <sourceDirectory>src/main/java</sourceDirectory>

        <resources>

            <resource>

                <directory>src/main/resources</directory>

            </resource>

        </resources>

        <plugins>

            <!-- build-helper-maven-plugin, 设置多个源文件夹 -->

            <plugin>

                <groupId>org.codehaus.mojo</groupId>

                <artifactId>build-helper-maven-plugin</artifactId>

                <version>3.0.0</version>

                <executions>

                    <execution>

                        <id>add-source</id>

                        <phase>generate-sources</phase>

                        <goals>

                            <goal>add-source</goal>

                        </goals>

                        <configuration>

                            <sources>

                                <source>src/main/java</source>

                                <source>src/main/scala</source>

                                <!-- 我们可以通过在这里添加多个source节点，来添加任意多个源文件夹 -->

                            </sources>

                        </configuration>

                    </execution>

                </executions>

            </plugin>

            <plugin>

                <!-- see http://davidb.github.com/scala-maven-plugin -->

                <groupId>net.alchim31.maven</groupId>

                <artifactId>scala-maven-plugin</artifactId>

                <version>3.2.0</version>

                <executions>

                    <execution>

                        <goals>

                            <goal>compile</goal>

                            <goal>testCompile</goal>

                        </goals>

                        <configuration>

                            <scalaVersion>${scala.complete.version}</scalaVersion>

                            <fork>true</fork>

                            <encoding>UTF-8</encoding>

                            <args>

                                <!-- <arg>-make:transitive</arg> -->

                                <arg>-dependencyfile</arg>

                                <arg>${project.build.directory}/.scala_dependencies</arg>

                            </args>

                            <recompileMode>modified-only</recompileMode>

                        </configuration>

                    </execution>

                </executions>

            </plugin>

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-shade-plugin</artifactId>

                <version>2.4.3</version>

                <executions>

                    <execution>

                        <phase>package</phase>

                        <goals>

                            <goal>shade</goal>

                        </goals>

                        <configuration>

                            <transformers>

                            </transformers>

                        </configuration>

                    </execution>

                </executions>

            </plugin>

        </plugins>

    </build>

scala 代码

import org.apache.kudu.spark.kudu.KuduContext

import org.apache.spark.SparkConf

import org.apache.spark.sql.{DataFrame, SparkSession}

/**

 *

 * @description: TODO 将Csv文件导入Kudu

 * @author: HaoWu

 * @create: 2021年04月02日

 */

object LoadCsvToKudu {

  private var kudu_host: String = _

  private var kudu_tableName: String = _

  private var input_path: String = _

  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf()

    val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate()

    kudu_host =args(0)

    kudu_tableName = args(1)

    input_path = args(2)

    // 专用的读Csv

    val df: DataFrame = spark.read

      .option("header","true") //第一行作为字段属性

      .csv(input_path)

    //spark.sql("select count(*) from normal_detail_view").show()

    val kuduContext = new KuduContext(kudu_host, spark.sparkContext)

    // real_lp_id,name,workcode,lp_stasus,position,position,dept

    kuduContext.upsertRows(df, kudu_tableName)

    spark.stop()

  }

}

启动脚本

csv_to_kudu.sh

#!/usr/bin/env bash

cd $(dirname $0)

# 用户基础配置

# kudu host

HOST="XXX:7051,XXX:7051,XXX:7051"

#kudu tableName

TABLENAME="impala::odsdb.XXX"

#csv文件路径 , 上传至hdfs

input_path="/user/wx_dp_hive/wuhao36/data/lp.csv"

# 默认配置

clazz=baopinke.LoadCsvToKudu

jarPath=/home/wx_dp_hive/wuhao/learn_poject/kudu_learning/csv-to-kudu.jar

# 提交任务

BASE_SPARK_SUBMIT=/usr/bin/spark2-submit

KEY_TAB=/home/wx_dp_hive/wx_dp_hive.keytab

USER=wx_dp_hive

#--master yarn --deploy-mode cluster \

$BASE_SPARK_SUBMIT \

--principal  $USER --keytab $KEY_TAB  --queue root.wangxiao.dp \

--master yarn --deploy-mode cluster \

--driver-memory 8G --executor-memory 16G \

--executor-cores 2 --num-executors  4 \

--conf spark.dynamicAllocation.enabled=false \

--conf spark.driver.allowMultipleContexts=true \

--class $clazz $jarPath \

$HOST \

$TABLENAME \

$input_path

注意：

1.需要将csv上传至hdfs，不然在yarn模式下文件找不到。

2.要设置csv的第一行为字段属性。

Spark(二十)【SparkSQL将CSV导入Kudu】的更多相关文章

Spark学习之路（二十）SparkSQL的元数据
一.概述 SparkSQL 的元数据的状态有两种: 1.in_memory,用完了元数据也就丢了 2.hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿. ...
数据可视化基础专题（三）：Pandas基础（二） csv导入与导出
1.csv导入 1.1 csv导入 .read_csv()函数 pandas.read_csv(filepath_or_buffer: Union[str, pathlib.Path, IO[~Any ...
ComicEnhancerPro 系列教程二十：用“文件比较”看有损、无损
作者:马健邮箱:stronghorse_mj@hotmail.com 主页:http://www.comicer.com/stronghorse/ 发布:2017.07.23 教程二十:用“文件比较” ...
KUDU数据导入尝试一：TextFile数据导入Hive,Hive数据导入KUDU
背景 SQLSERVER数据库中单表数据几十亿,分区方案也已经无法查询出结果.故:采用导出功能,导出数据到Text文本(文本>40G)中. 因上原因,所以本次的实验样本为:[数据量:61w条,文 ...
geotrellis使用（二十五）将Geotrellis移植到spark2.0
目录前言升级spark到2.0 将geotrellis最新版部署到spark2.0(CDH) 总结一.前言事情总是变化这么快,前面刚写了一篇博客介绍如何将geotrellis移植 ...
geotrellis使用（二十二）实时获取点状目标对应的栅格数据值
目录前言实现方法总结一.前言其实这个功能之前已经实现,今天将其采用1.0版的方式进行了重构与完善,现将该内容进行总结. 其实这个功能很常见,比如google地球上 ...
WCF技术剖析之二十九：换种不同的方式调用WCF服务[提供源代码下载]
原文:WCF技术剖析之二十九:换种不同的方式调用WCF服务[提供源代码下载] 我们有两种典型的WCF调用方式:通过SvcUtil.exe(或者添加Web引用)导入发布的服务元数据生成服务代理相关的代码 ...
WCF技术剖析之二十六:如何导出WCF服务的元数据(Metadata)[实现篇]
原文:WCF技术剖析之二十六:如何导出WCF服务的元数据(Metadata)[实现篇] 元数据的导出就是实现从ServiceEndpoint对象向MetadataSet对象转换的过程,在WCF元数据框 ...
WCF技术剖析之二十五: 元数据（Metadata）架构体系全景展现[元数据描述篇]
原文:WCF技术剖析之二十五: 元数据(Metadata)架构体系全景展现[元数据描述篇] 在[WS标准篇]中我花了很大的篇幅介绍了WS-MEX以及与它相关的WS规范:WS-Policy.WS-Tra ...

随机推荐

整数转化牛客网程序员面试金典 C++ Python
整数转化牛客网程序员面试金典 C++ Python 题目描述编写一个函数,确定需要改变几个位,才能将整数A转变成整数B. 给定两个整数int A,int B.请返回需要改变的数位个数. 测试样例 ...
vue mvc与mvvm
一.什么是MVVM? MVVM是Model-View-ViewModel的缩写.MVVM是一种设计思想.Model 层代表数据模型,也可以在Model中定义数据修改和操作的业务逻辑:View 代表UI ...
ORA-01756: quoted string not properly terminated
导入sql文件报错:ORA-01756: quoted string not properly terminated 字符集的中英文问题: 临时解决方法:export NLS_LANG=AMERICA ...
Jmeter二次开发实现自定义functions函数（九）
在Jmeter->选项->函数助手对话框中我们可以看到Jmeter内置的一些常用函数,但考虑到测试过程中的实际情况,我们经常需要在脚本引用或者实现自定义的函数.那么如何在"函数助 ...
Mysql教程：（三）运算符：数学运算符
运算符:数学运算符 mysql> select class,number,maths,maths+5 from score; mysql>select class,number,chine ...
win10各版本激活码
win + x进入Power shell(管理员),依次输入 Win10专业版 slmgr.vbs /upk slmgr /ipk W269N-WFGWX-YVC9B-4J6C9-T83GX slmg ...
shiro session返回问题
/** * 3.会话管理器 */ public DefaultWebSessionManager sessionManager() { CustomSessionManager sessionMana ...
maven项目中把依赖包打进jar包
在pom.xml文件中增加build配置 1 <build> 2 <plugins> 3 <plugin> 4 <artifactId>maven-as ...
求求你们了，别再写满屏的 if/ else 了！
为什么我们写的代码都是 if-else? 程序员想必都经历过这样的场景:刚开始自己写的代码很简洁,逻辑清晰,函数精简,没有一个 if-else,可随着代码逻辑不断完善和业务的瞬息万变:比如需要对入参进 ...
Kubernetes 入门基础
我们要学习 Kubernetes,就有首先了解 Kubernetes 的技术范围.基础理论知识库等,要学习 Kubernetes,肯定要有入门过程,在这个过程中,学习要从易到难,先从基础学习. 接下来 ...

Spark(二十)【SparkSQL将CSV导入Kudu】

SparkSql 将CSV导入kudu

pom 依赖

scala 代码

启动脚本

Spark(二十)【SparkSQL将CSV导入Kudu】的更多相关文章

随机推荐

热门专题