CDH 集群机器上部署 Jupyter notebook 使用 Pyspark 读取 Hive 数据库

开始直接在 CDH Pyspark 的环境里面运行 Ipython 。

spark = SparkSession \

        .builder \

        .master('yarn') \

        .appName('md_day_dump_users') \

        .enableHiveSupport() \

        .getOrCreate()

In [3]: spark.sql('show databases').show()
+------------+
|databaseName|
+------------+
| default|
+------------+

可以用看到，我们直接使用这个配置去读取 hive 数据库并不能获得我们想要的数据库，而是只能读取到一个 default 默认数据库。

很明显是我们现在的 client 端还并没有得到 hive metastore 数据库的数据。无法知晓现在 hive 数据库的情况。

所以我们需要为其添加一些参数让他能读取到 hive 的 metastore，通过访问 hive 的 metastore.uris 就可以用获取，我们使用配置

spark = SparkSession \

        .builder \

        .master('yarn') \

        .appName('md_day_dump_users') \

        .config("hive.metastore.uris", "thrift://ryze-1:9083") \

        .enableHiveSupport() \

        .getOrCreate()

spark.sql("show databases").show()

+-------------+

| databaseName|

+-------------+

|ads_algorithm|

| analytics_db|

|       course|

|      default|

|dw_dim_global|

|    dw_matrix|

|       member|

|          pay|

|    recommend|

|      sensors|

|          tmp|

|         user|

|       yanzhi|

+-------------+

替换当前的配置，就可以了。

在 ipython 跑通整个流程之后，剩下的我们就是在当前权限用户下安装 Jupyter 。按照官方教程来安装，注意我们使用的是 Python2.7.x 所以要选择 2.7.x 的安装方法，最终我的同事折腾了一下还替换掉一个 kernal 搞定。跑起来之后就可以从服务器上直接通过 SparkSession 来方便的使用 Spark 测试跑数据或者出数据了。

另外需要注意的一点是，由于我们使用的是 CDH ,可以非常方便的动态配置资源池，在为了不影响其他同步任务的情况下，我为 Jupyter 配置了单独的支援池，可以和其他池子里面的任务互不影响。因为这个脚本可能起多个，所以如果我们起得太多可能会影响到正常的同步脚本和任务使用资源。

使用特定的池也很简单，指定参数 .config('spark.yarn.queue', 'root.jupyter') 即可。

Reference:

https://stackoverflow.com/questions/51128243/hive-databases-only-list-default-db hive-databases-only-list-default-db

https://stackoverflow.com/questions/31980584/how-to-connect-to-a-hive-metastore-programmatically-in-sparksql how-to-connect-to-a-hive-metastore-programmatically-in-sparksql

https://stackoverflow.com/questions/48646097/setting-yarn-queue-in-pyspark setting-yarn-queue-in-pyspark

CDH 集群机器上部署 Jupyter notebook 使用 Pyspark 读取 Hive 数据库的更多相关文章

CDH集群搭建部署
1. 硬件准备使用了五台机器,其中两台8c16g,三台4c8g.一台4c8g用于搭建cmServer和NFS服务端,另外4台作为cloudera-manager agent部署CDH集群. ...
一脸懵逼学习Hadoop分布式集群HA模式部署（七台机器跑集群）
1)集群规划:主机名 IP 安装的软件运行的进程master 192.168.199.130 jdk.hadoop ...
1.还不会部署高可用的kubernetes集群?看我手把手教你使用二进制部署v1.23.6的K8S集群实践(上)
公众号关注「WeiyiGeek」设为「特别关注」,每天带你玩转网络安全运维.应用开发.物联网IOT学习! 本章目录: 0x00 前言简述 0x01 环境准备主机规划软件版本网络规划 0x02 ...
CDH集群部署hive建表中文乱码
背景:部署CDH集群的 hive 服务,选用 mysql 作为 hive 元数据的存储数据库,通过 hive cli 建表时发现中文注释均乱码. 现象:hive端建表中文注释乱码. 定位: 已经确认过 ...
部署CDH集群环境准备
一.系统centOS7以上,至少三台主机添加ip 主机名映射关系:(每台主机都要做) vim /etc/hosts 127.0.0.1 localhost localhost.localdomain ...
【docker】【redis】2.docker上设置redis集群---Redis Cluster部署【集群服务】【解决在docker中redis启动后，状态为Restarting，日志报错：Configured to not listen anywhere, exiting.问题】【Waiting for the cluster to join...问题】
参考地址:https://www.cnblogs.com/zhoujinyi/p/6477133.html https://www.cnblogs.com/cxbhakim/p/9151720.htm ...
Cloudera Manager安装_搭建CDH集群
2017年2月22日, 星期三 Cloudera Manager安装_搭建CDH集群 cpu 内存16G 内存12G 内存8G 默认单核单线 CDH1_node9 Server || Agent ...
CDH集群安装&测试总结
0.绪论之前完全没有接触过大数据相关的东西,都是书上啊,媒体上各种吹嘘啊,我对大数据,集群啊,分布式计算等等概念真是高山仰止,充满了仰望之情,觉得这些东西是这样的: 当我搭建的过程中,发现这些东西是 ...
CentOS7安装CDH 第七章：CDH集群Hadoop的HA配置
相关文章链接 CentOS7安装CDH 第一章:CentOS7系统安装 CentOS7安装CDH 第二章:CentOS7各个软件安装和启动 CentOS7安装CDH 第三章:CDH中的问题和解决方法 ...

随机推荐

C# 如何创建Excel多级分组
在Excel中如果能够将具有多级明细的数据进行分组显示,可以清晰地展示数据表格的整体结构,使整个文档具有一定层次感.根据需要设置显示或者隐藏分类数据下的详细信息,在便于数据查看.管理的同时也使文档更具 ...
css字体图标的使用方法
提要:对于传统的一般用css雪碧(css sprite)来搞,目前大部分网站已经主要字体图标 ,利用font+css 或者font+html 来开发,今天总结了一下,记录之~ css sprite用背 ...
C++系列总结——构造与析构
前言在使用资源前,我们需要做一些准备工作保证资源能正常使用,在使用完资源后,我们需要做一些扫尾工作保证资源没有泄露,这就是构造与析构了,这和编程语言是无关的,而是使用资源的一种方式.C++只不过是把 ...
TypeScript，初次见面，请多指教 ?
为什么用 TS ? 说实话,最开始并没有想把 TS 用到实际项目中来,一来是感觉"类型"会限制 JS 的优势(好吧,就是浪写浪惯了):二来听闻 TS + Redux 的酸爽滋味,有 ...
浅谈ST表
发现自己学的一直都是假的ST表QWQ. ST表 ST表的功能很简单它是解决RMQ问题(区间最值问题)的一种强有力的工具它可以做到$O(nlogn)$预处理,$O(1)$查询最值算法 ST表是利用 ...
【20190405】JavaScript-整理一些常用正则式
匹配中文字符: let reg=/([\u4E00-\u9FFF]+)/; //\u代表Unicode编码匹配电话号码: let reg=/^1[34578]\d{9}$/; 给每三位数字添加一个逗 ...
测者的性能测试手册：JVM的监控利器
测者的性能测试手册:JVM的监控利器每次聊起性能测试,最后的终结话题就是怎么做优化.其实在Java的复杂项目中都会有内存不足问题.内存泄露问题.线程死锁问题.CPU问题.这些问题工程测试或者是小压力 ...
spring学习总结——装配Bean学习二（JavaConfig装配bean）
通过Java代码装配bean 前言:上面梳理了通过注解来隐式的完成了组件的扫描和自动装配,下面来学习下如何通过显式的配置的装配bean: 使用场景:比如说,你想要将第三方库中的组件装配到你的应用中,在 ...
C++客户端访问WebService VS2008
VS2008及之后的版本已经不支持使用C++开发WEBService服务了,如果要在VS上开发WEBService,需要使用C#开发语言. 一.gSOAP简介 gSOAP编译工具提供了一个基于SOAP ...
ASP.NET Zero--开发指南
ASP.NET Zero--开发指南(Lyhcee 译) 01. 前期介绍 02. 前期要求 03. 解决方案结构(层) 04. 前端应用程序 05. 后端应用程序 06.WEB.HOST应用程序 0 ...

CDH 集群机器上部署 Jupyter notebook 使用 Pyspark 读取 Hive 数据库

CDH 集群机器上部署 Jupyter notebook 使用 Pyspark 读取 Hive 数据库的更多相关文章

随机推荐

热门专题