Spark SQL metaData配置到Mysql

构造以spark为核心的数据仓库:

0.说明

在大数据领域，hive作为老牌的数据仓库比较流行，spark可以考虑兼容hive。但是如果不想用hive做数据仓库也无妨，大不了我们用spark建立最新的数据仓库。

sparkSQL的发展历程表明了，spark本身就可以做数据仓库，而不需要hive。sparkSQL作为数据仓库其元数据放到了Derby中，一般生产环境不会用Derby，而是使用

MySQL或者postgreSQL.本文就是要告诉读者，如何将sparkSQL的元数据存放到mysql.

1.集群规划情况

mysql chinac244<-->chinac242,这两节点做了主主备份。

spark master chinac88<-->chinac82，这两节点做了HA

spark slave chinac88,chinac82,chinac27

2.配置文件(chinac27上修改，然后分发到集群)

解压后将$HIVE_HOME/conf/hive-site.xml 复制到$SPARK_HOME/conf/hive-site.xml

编辑此文件

 vim  $SPARK_HOME/conf/hive-site.xml

修改如下内容

<property>

    <name>javax.jdo.option.ConnectionURL</name>

    <value>jdbc:mysql://chinac244:3306/sparkmetadata?createDatabaseIfNotExist=true</value>

    <description>JDBC connect string for a JDBC metastore</description>

  </property>

  <property>

    <name>javax.jdo.option.ConnectionDriverName</name>

    <value>com.mysql.jdbc.Driver</value>

    <description>Driver class name for a JDBC metastore</description>

  </property>

  <property>

    <name>javax.jdo.option.ConnectionUserName</name>

    <value>root</value>

    <description>Username to use against metastore database</description>

  </property>

   <property>

    <name>javax.jdo.option.ConnectionPassword</name>

    <value>chinac</value>

    <description>password to use against metastore database</description>

  </property>

3.修改时间属性（没做）

然后修改Hive-site.xml中所有的时间属性，所有属性的单位为s(秒),删除s然后添加3个0,所有属性的单位为ms的删除ms,spark无法识别这些单位，而是把他们全当数字处理。

4.分发配置文件

    scp $SPARK_HOME/conf/hive-site.xml chinac82:$SPARK_HOME/conf/hive-site.xml

    scp $SPARK_HOME/conf/hive-site.xml chinac88:$SPARK_HOME/conf/hive-site.xml

5.重启spark集群

 [root@chinac88 ~]#  ${SPARK_HOME}/sbin/stop-all.sh

 [root@chinac88 ~]#  nohup ${SPARK_HOME}/sbin/start-all.sh &

启动效果如下

6.测试配置

A,查看MySQL中数据库信息

B,执行sparkSQL命令

  [root@chinac27 conf]# spark-sql --master spark://chinac88:7077,chinac82:7077

  //1.创建数据表

  CREATE TABLE testspark(id INT,name STRING)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n';

此语句将在mysql中生成sparkmetadata数据库,数据表

此语句将在HDFS中生成相应的目录

7.进一步测试

准备数据，效果如下

加载数据，语句如下

  LOAD DATA LOCAL INPATH '/root/software/test' OVERWRITE INTO TABLE testspark;

此语句将上传文件到HDFS,查看数据，效果如下

查询数据，能够看到加载后的数据。

     SELECT * FROM testspark;

删除表，同时会删除MySQL中的表信息和HDFS中的数据

   DROP TABLE testspark;

8.至此，sparkSQL元数据被存放到了mysql中，我们再也不需要hive数据仓库了。直接用spark做数据仓库就可以了

Spark SQL metaData配置到Mysql的更多相关文章

spark sql metastore 配置 mysql
本文主要介绍如何为 spark sql 的 metastore 配置成 mysql . spark 的版本 2.4.0 版本 hive script 版本为 hive 1.2.2 mysql 为 5. ...
IDEA 中Spark SQL通过JDBC连接mysql数据库
一.IDEA装驱动: 1.下载一个MySQL的JDBC驱动:mysql-connector-java-5.1.44.tar.gz2.在idea Open Moudle Settings 在 Moudl ...
[Spark SQL_1] Spark SQL 配置
0. 说明 Spark SQL 的配置基于 Spark 集群搭建 && Hive 的安装&配置 1. 简介 Spark SQL 是构建在 Spark Core 模块之上的四大 ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
Spark SQL笔记——技术点汇总
目录概述原理组成执行流程性能 API 应用程序模板通用读写方法 RDD转为DataFrame Parquet文件数据源 JSON文件数据源 Hive数据源数据库JDBC数据源 DataF ...
Spark之使用SparkSql操作mysql和DataFrame的Scala实现
通过读取文件转换成DataFrame数据写入到mysql中 package com.zy.sparksql import java.util.Properties import org.apache. ...
Spark SQL Thrift Server 配置 Kerberos身份认证和权限管理
转载请注明出处:http://www.cnblogs.com/xiaodf/ 之前的博客介绍了通过Kerberos + Sentry的方式实现了hive server2的身份认证和权限管理功能,本文主 ...
Spark操作dataFrame进行写入mysql，自定义sql的方式
业务场景: 现在项目中需要通过对spark对原始数据进行计算,然后将计算结果写入到mysql中,但是在写入的时候有个限制: 1.mysql中的目标表事先已经存在,并且当中存在主键,自增长的键id 2. ...
Spark SQL读取hive数据时报找不到mysql驱动
Exception: Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "BoneC ...

随机推荐

禁用Visual Studio 2013的Browser Link功能 -调试不断请求http://localhost:6154/c4ad1c693ebf428283832eaa827f9c6e/arterySignalR/poll?transport=longPolling...
关于禁用查到的解决: 作者:donny945 https://my.oschina.net/ind/blog/359003 今天浏览器调试代码的时候,一直出现以下的请求,导致需要看的请求都被淹没了,之 ...
sklearn包学习
1首先是sklearn的官网:http://scikit-learn.org/stable/ 在官网网址上可以看到很多的demo,下边这张是一张非常有用的流程图,在这个流程图中,可以根据数据集的特征, ...
java高级---->Thread之Phaser的使用
Phaser提供了动态增parties计数,这点比CyclicBarrier类操作parties更加方便.它是jdk1.7新增的类,今天我们就来学习一下它的用法.尘埃落定之后,回忆别来挑拨. Phas ...
Nexus网页直接上传jar包
登陆已经安装好的nexus私有仓库,如图: 点击左边菜单“Repositories”,选择右边列表“3rd party“ 点击“3rd party”,选择artifact Upload,如下图 ...
C# 日志系统 log4net 配置及使用
1.引用Dll 版本是:1.2.10.0,下载Dll 2.Web.config文件配置 <?xml version="1.0" encoding="utf-8&qu ...
[通信] C#多线程Socket-文件传输
FileSendClient : Form1.cs using System; using System.IO; using System.Net; using System.Net.Sockets; ...
Android 模糊效果 FastBlur
import android.graphics.Bitmap; import android.graphics.Canvas; import android.graphics.Paint; impor ...
iOS - 原生的CIFilter生成二维码和条形码
使用CIFilter可以不引入任何第三方库,就可以生成想要的二维码和条形码,今天简单的介绍一下使用CIFilter生成二维码和条形码.系统CIFilter生成的二维码和条形码的大小有时并不能满足需求, ...
JSPatch - 基本使用和学习
介绍 JSPatch是2015年由bang推出的能实现热修复的工具,只要在项目中引入极小的JSPatch引擎,就可以用 JavaScript 调用和替换任何 Objective-C 的原生方法,获得脚 ...
Linux wc
命令参数: -c 统计字节数. -l 统计行数. -m 统计字符数.这个标志不能与 -c 标志一起使用. -w 统计字数.一个字被定义为由空白.跳格或换行字符分隔的字符串. -L 打印最长行的长度. ...

Spark SQL metaData配置到Mysql

Spark SQL metaData配置到Mysql的更多相关文章

随机推荐

热门专题