phoenix与spark整合

目的是将phoenix做存储，spark做计算层。这样就结合了phoenix查询速度快和spark计算速度快的优点。
在这里将Phoenix的表作为spark的RDD或者DataFrames来操作，并且将操作的结果写回phoenix中。
这样做也扩大了两者的使用场景。

Phoenix 版本 4.4.0
Hbase版本 0.98
spark版本 spark-1.5.2-bin-hadoop2.6
首先配置 SPARK_CLASSPATH
要想在spark中操作phoenix，就必须让spark可以找到phoenix的相关类，所以我们把client放到spark_classpath中

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/hadoop/phoenix/phoenix-spark-4.4.0-HBase-0.98-tests.jar

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/hadoop/phoenix/phoenix-4.4.0-HBase-0.98-client.jar

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/hadoop/phoenix/phoenix-server-client-4.4.0-HBase-0.98.jar

这样就可以在spark-shell中操作phoenix了

下来结合两者做下实验：
1> 在phoenix中创建几张表

[hadoop@10.10.113.45 ~/phoenix/bin]$>./sqlline.py 10.10.113.45:2181

0: jdbc:phoenix:10.10.113.45:2181> CREATE TABLE EMAIL_ENRON(

. . . . . . . . . . . . . . . . .> MAIL_FROM BIGINT NOT NULL,

. . . . . . . . . . . . . . . . .> MAIL_TO BIGINT NOT NULL

. . . . . . . . . . . . . . . . .> CONSTRAINT pk PRIMARY KEY(MAIL_FROM, MAIL_TO));

0: jdbc:phoenix:10.10.113.45:2181> CREATE TABLE EMAIL_ENRON_PAGERANK(

. . . . . . . . . . . . . . . . .> ID BIGINT NOT NULL,

. . . . . . . . . . . . . . . . .> RANK DOUBLE

. . . . . . . . . . . . . . . . .> CONSTRAINT pk PRIMARY KEY(ID));

No rows affected (0.52 seconds)

查看下是否创建成功

0: jdbc:phoenix:10.10.113.45:2181> !tables

+------------------------------------------+------------------------------------------+------------------------------------------+--------------+

| TABLE_CAT | TABLE_SCHEM | TABLE_NAME | |

+------------------------------------------+------------------------------------------+------------------------------------------+--------------+

| | SYSTEM | CATALOG | SYSTEM TABLE |

| | SYSTEM | FUNCTION | SYSTEM TABLE |

| | SYSTEM | SEQUENCE | SYSTEM TABLE |

| | SYSTEM | STATS | SYSTEM TABLE |

| | | EMAIL_ENRON | TABLE |

| | | EMAIL_ENRON_PAGERANK | TABLE |

+------------------------------------------+------------------------------------------+------------------------------------------+--------------+

0: jdbc:phoenix:10.10.113.45:2181>

2> 在将数据load到phoenix中，数据有40万行

[hadoop@10.10.113.45 ~/phoenix/bin]$>./psql.py -t EMAIL_ENRON 10.10.113.45:2181 /home/hadoop/sfs/enron.csv

SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".

SLF4J: Defaulting to no-operation (NOP) logger implementation

SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.

15/12/03 10:06:37 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

csv columns from database.

CSV Upsert complete. 367662 rows upserted

Time: 21.783 sec(s)

数据来源：https://snap.stanford.edu/data/email-Enron.html
然后在查询下

0: jdbc:phoenix:10.10.113.45:2181> select count(*) from EMAIL_ENRON;

+------------------------------------------+

| COUNT(1) |

+------------------------------------------+

| 367662 |

+------------------------------------------+

1 row selected (0.289 seconds)

看37万数据，查询不到一秒！！！
下面进入到spark-shell 的交互模式，我们做一个PageRank 算法的例子

[hadoop@10.10.113.45 ~/spark/bin]$>./spark-shell

scala> import org.apache.spark.graphx._

import org.apache.spark.graphx._

scala> import org.apache.phoenix.spark._

import org.apache.phoenix.spark._

scala> val rdd = sc.phoenixTableAsRDD("EMAIL_ENRON", Seq("MAIL_FROM", "MAIL_TO"), zkUrl=Some("10.10.113.45"))

rdd: org.apache.spark.rdd.RDD[Map[String,AnyRef]] = MapPartitionsRDD[2] at map at SparkContextFunctions.scala:39

scala> val rawEdges = rdd.map{ e => (e("MAIL_FROM").asInstanceOf[VertexId], e("MAIL_TO").asInstanceOf[VertexId]) }

rawEdges: org.apache.spark.rdd.RDD[(org.apache.spark.graphx.VertexId, org.apache.spark.graphx.VertexId)] = MapPartitionsRDD[3] at map at <console>:29

scala> val graph = Graph.fromEdgeTuples(rawEdges, 1.0)

graph: org.apache.spark.graphx.Graph[Double,Int] = org.apache.spark.graphx.impl.GraphImpl@621bb3c3

scala> val pr = graph.pageRank(0.001)

pr: org.apache.spark.graphx.Graph[Double,Double] = org.apache.spark.graphx.impl.GraphImpl@55e444b1

scala> pr.vertices.saveToPhoenix("EMAIL_ENRON_PAGERANK", Seq("ID", "RANK"), zkUrl = Some("10.10.113.45"))（这一步会很耗内存，可能有的同学在测试的时候会报OOM，建议增大spark中executor memory，driver memory的大小）

我们在去phoenix中查看一下结果。

0: jdbc:phoenix:10.10.113.45:2181> select count(*) from EMAIL_ENRON_PAGERANK;

+------------------------------------------+

| COUNT(1) |

+------------------------------------------+

| 29000 |

+------------------------------------------+

1 row selected (0.113 seconds)

0: jdbc:phoenix:10.10.113.45:2181> SELECT * FROM EMAIL_ENRON_PAGERANK ORDER BY RANK DESC LIMIT 5;

+------------------------------------------+------------------------------------------+

| ID | RANK |

+------------------------------------------+------------------------------------------+

| 273 | 117.18141799210386 |

| 140 | 108.63091596789913 |

| 458 | 107.2728800448782 |

| 588 | 106.11840798585399 |

| 566 | 105.13932886531066 |

+------------------------------------------+------------------------------------------+

5 rows selected (0.568 seconds)

phoenix与spark整合的更多相关文章

Spark 整合ElasticSearch
Spark 整合ElasticSearch 因为做资料搜索用到了ElasticSearch,最近又了解一下 Spark ML,先来演示一个Spark 读取/写入 ElasticSearch 简单示例. ...
spark整合Phoenix相关案例
spark 读取Phoenix hbase table表到 DataFrame的方式 Demo1: 方式一:spark read读取各数据库的通用方式方式二:spark.load 方式三:phoen ...
Spark整合Hive
spark-sql 写代码方式 1.idea里面将代码编写好打包上传到集群中运行,上线使用 spark-submit提交 2.spark shell (repl) 里面使用sqlContext 测试使 ...
Spark整合HBase,Hive
背景: 场景需求1:使用spark直接读取HBASE表场景需求2:使用spark直接读取HIVE表场景需求3:使用spark读取HBASE在Hive的外表摘要: 1.背景 2.提交脚本内容场 ...
cdh 安装记录
安装文件准备 CDH 下载地址:http://archive.cloudera.com/cdh5/parcels/latest/ 下载操作系统对应的版本: 1．CDH-5.3.0-1.cdh5.3.0 ...
Ambari HDP 下 SPARK2 与 Phoenix 整合
1.环境说明操作系统 CentOS Linux release 7.4.1708 (Core) Ambari 2.6.x HDP 2.6.3.0 Spark 2.x Phoenix 4.10.0-H ...
大数据学习系列之九---- Hive整合Spark和HBase以及相关测试
前言在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h ...
hive启动报错（整合spark）
spark整合hive后,hive启动报错: ls: cannot access /export/servers/spark/lib/spark-assembly-*.jar: No such fil ...
【转】Spark常见问题汇总
原文地址:https://my.oschina.net/tearsky/blog/629201 摘要: 1.Operation category READ is not supported in st ...

随机推荐

Myeclipse2016 部署webapp 至 tomcat 上出现 “There are no resources that can be added or removed from the server”
对要部署的项目右键---Properties---Myeclipse---选中Dynamic Web Module 和 Java
python--安装PIL
PIL:Python Imaging Library,已经是Python平台事实上的图像处理标准库了.PIL功能非常强大,但API却非常简单易用. 安装PIL 在Debian/Ubuntu Linux ...
C++获取鼠标位置及全局检测鼠标行为
1.获取鼠标位置(在屏幕的位置) CPoint m_mouse; GetCursorPos(&m_mouse); 2. 屏幕转化为客户端(控件的相对位置)& 客户端位置转化为屏幕位置 ...
51nod 1183 编辑距离(dp)
题目链接:51nod 1183 编辑距离 #include<cstdio> #include<cstring> #include<algorithm> using ...
cookie的使用
cookie的使用 1.创建cookie对象: function addCookie(name, value) { var path = filterRoot(); var cookieString ...
介绍开源的.net通信框架NetworkComms框架之二传递类
原文网址: http://www.cnblogs.com/csdev Networkcomms 是一款C# 语言编写的TCP/UDP通信框架作者是英国人以前是收费的目前作者已经开源开源地 ...
iOS开发UI篇—Quartz2D使用(信纸条纹)
iOS开发UI篇—Quartz2D使用(信纸条纹) 一.前导程序新建一个项目,在主控制器文件中实现以下几行代码,就能轻松的完成图片在视图中的平铺. #import "YYViewContr ...
iOS开发网络篇—使用ASI框架进行文件下载
iOS开发网络篇—使用ASI框架进行文件下载说明:本文介绍iOS网络编程中经常用到的框架ASI,如何使用该框架进行文件的下载. 一.简单介绍代码示例: #import "YYViewCo ...
C#导出excel
public FileResult ExportExcels(string StartTime, string EndTime, string SendType) { List<SMSSExpo ...
Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别
初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如某个菜鸟的帖子的疑问,when to ...

phoenix与spark整合

phoenix与spark整合的更多相关文章

随机推荐

热门专题