Hue添加Spark notebook

参考自https://blogs.msdn.microsoft.com/pliu/2016/06/18/run-hue-spark-notebook-on-cloudera/

说明

使用Cloudera Manager部署CDH群集时，可以使用Hue Web UI运行Hive和Impala查询。但Spark笔记本没有开箱即用。在CDH上安装和配置Spark笔记本并不像现有文档中描述的那样简单。在本博客中，我们将提供有关如何在CDH上使用Livy启用Hue Spark笔记本的分步说明。

在撰写本文时，部署的CDH版本为5.9.3，HUE 3.11和Livy 0.3。对于使用Cloudera Manager部署的任何CDH群集，步骤应该类似。请注意，Cloudera尚不支持Livy。

1.　在cloudera manager集群中找到hue服务

2.　添加配置　

在Cloudera Manager中，转到Hue - > Configurations，在hue服务高级配置代码段（安全阀）中搜索hue_safety_valve.ini的 “安全” ，添加以下配置，保存更改，然后重新启动Hue：

[spark]

server_url=http://fp-01:8998

languages='[{"name": "Scala Shell", "type": "spark"},{"name": "PySpark Shell", "type": "pyspark"},{"name": "R Shell", "type": "r"},{"name": "Jar", "type": "Jar"},{"name": "Python", "type": "py"},{"name": "Impala SQL", "type": "impala"},{"name": "Hive SQL", "type": "hive"},{"name": "Text", "type": "text"}]'

[notebook]

show_notebooks=true

enable_batch_execute=true

enable_query_builder=true

enable_query_scheduling=false

 [[interpreters]]

 [[[hive]]]

      # The name of the snippet.

      name=Hive

      # The backend connection to use to communicate with the server.

      interface=hiveserver2

    [[[impala]]]

      name=Impala

      interface=hiveserver2

[[[spark]]]

      name=Scala

      interface=livy

    [[[pyspark]]]

      name=PySpark

      interface=livy

[[[jar]]]

      name=Spark Submit Jar

      interface=livy-batch

    [[[py]]]

      name=Spark Submit Python

      interface=livy-batch

[[[spark2]]]

      name=Spark

      interface=oozie

添加完成之后重启hue服务。

3.　打开hue web ui界面

Hue Web UI，你应该能够看到Spark笔记本。Spark笔记本使用Livy提交Spark工作，所以没有Livy，它还没有运行。

Hbase Browser：警告原因是因为cdh集群没有安装hbase组件。

Impala：警告原因是因为cdh集群没有安装impala组件。

Spark：警告原因是因为没有安装livy服务。

4.　安装Livy服务

4.1　下载地址

https://github.com/cloudera/livy/releases

4.2　上传到服务器并解压

[root@fp- soft]# unzip livy-server-0.3..zip -d /opt/

4.3　修改配置文件

[root@fp- soft]# cd /opt/livy-server-0.3./conf/

[root@fp- conf]# vi livy-env.sh

在文件最后添加以下内容

export JAVA_HOME=/opt/jdk1..0_151

export SPARK_HOME=/opt/cloudera/parcels/CDH-5.9.-.cdh5.9.3.p0./lib/spark/

export SPARK_CONF_DIR=/etc/spark2/conf

export HADOOP_CONF_DIR=/etc/hadoop/conf

4.4　配置环境变量

[root@fp- conf]# vi /etc/profile

#Livy

export LIVY_HOME=/opt/livy-server-0.3.

export PATH=$LIVY_HOME/bin:$PATH

立即生效

[root@fp- conf]# source /etc/profile

4.5　创建日志文件夹

如果没有创建logs，则启动的时候会报错找不到logs文件夹

[root@fp-01 conf]# cd /opt/livy-server-0.3.0

[root@fp-01 livy-server-0.3.0]# mkdir logs

4.6　后台启动livy

[root@fp- conf]# cd /opt/livy-server-0.3./bin/

[root@fp- bin]# nohup ./livy-server > livy.out >& &

4.7　查看启动日志

[root@fp- bin]# cat livy.out

nohup: 忽略输入

// :: WARN LivySparkUtils$: Current Spark (,) is not verified in Livy, please use it carefully

// :: INFO StateStore$: Using BlackholeStateStore for recovery.

// :: INFO BatchSessionManager: Recovered  batch sessions. Next session id:

// :: INFO InteractiveSessionManager: Recovered  interactive sessions. Next session id:

// :: INFO InteractiveSessionManager: Heartbeat watchdog thread started.

// :: INFO WebServer: Starting server on http://fp-01:8998

5.　刷新Hue web UI界面

由于已经启动livy服务，spark警告已经消失

6.　CDH集群添加hbase和impala组件

7.　再次刷新Hue web UI界面

此时所有警告已经消失

8.　点击页面顶部的Notebooks

8.1　发现页面报500错误

8.2　点击View logs，查看报错日志

有一行报错：NameError：global name 'SHOW_NOTEBOOKS' is not defined

8.3　点击More info

查看最下面的文件views.py，第68行，问题代码if not SHOW_NOTEBOOKS.get()，但是前面并没有定义，所以报错。

8.4　查看hue源码

https://github.com/cloudera/hue

https://github.com/cloudera/hue/blob/master/desktop/libs/notebook/src/notebook/views.py

发现是在前面引入

8.5　修改cdh hue的views.py文件

[root@fp- ~]# cd /opt/cloudera/parcels/CDH-5.9.-.cdh5.9.3.p0./lib/hue/desktop/libs/notebook/src/notebook/

[root@fp- notebook]# vi views.py

8.6　重启hue服务，在hue web UI界面点击notebooks

一切正常