开源Astro(SparkSQL On HBase)】的更多相关文章

SparkSQL是指整合了Hive的spark-sql cli, 本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler, 具体配置参见:Hive(五):hive与hbase整合 目录: SparkSql 访问 hbase配置 测试验证 SparkSql 访问 hbase配置:  拷贝HBase的相关jar包到Spark节点上的$SPARK_HOME/lib目录下,清单如下: guava-.jar htrace-core--incubating.jar hbas…
华为2015年7月20日在O'Reilly Open Source Convention (OSCON) 上宣布Spark SQL on HBase package正式开源.Spark SQL on HBase package 项目又名 Astro,端到端整合了 Spark,Spark SQL和HBase的能力,有助于推动帮助Spark进入NoSQL的广泛客户群,并提供强大的在线查询和分析以及在垂直企业大规模数据处理能力. Astro的新特性使得数据修改,智能扫描系统具有强大的可操作性,类似于自…
这里的SparkSQL是指整合了Hive的spark-sql cli(关于SparkSQL和Hive的整合,见文章后面的参考阅读). 本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler . 环境篇 hadoop-2.3.0-cdh5.0.0 apache-hive-0.13.1-bin spark-1.4.0-bin-hadoop2.3 hbase-0.96.1.1-cdh5.0.0 部署情况如下图:   测试集群,将Spark Worker部署在每台Dat…
//写入hbase(hfile方式) org.apache.hadoop.hbase.client.Connection conn = null; try { SparkLog.debug("开始读取hbase信息..."); if (StringUtils.isNotBlank(type) && type.equalsIgnoreCase("hbase")) { SparkLog.debug("======================…
由于SparkSQL不支持HBase的数据源(HBase-1.1.2),网上有很多是采用Hortonworks的SHC,而SparkSQL操作HBase自定义数据源大多数都是基于Scala实现,我就自己写了一个Java版的SparkSQL操作HBase的小案例. 1.SparkOnHBase package com.mengyao.tag.utils.external.hbase; import org.apache.spark.SparkConf; import org.apache.spar…
Hbase系列文章 HBase(一): c#访问hbase组件开发 HBase(二): c#访问HBase之股票行情Demo HBase(三): Azure HDInsigt HBase表数据导入本地HBase 基于HDInsight 3.4 HBase集群规划参考 hadoop(四): 本地 hbase 集群配置 Azure Blob Storage HBase(五): HBase运维管理 HBase(六): HBase体系结构剖析(上) HBase(七): HBase体系结构剖析(下) HB…
前面的一篇文章<微软.谷歌.亚马逊.Facebook等硅谷大厂91个开源软件盘点(附下载地址)>列举了国外8个互联网公司(包括微软.Google.亚马逊.IBM.Facebook.Twitter.eBay.VMware)的开源软件项目,今天我们来盘点一下国内几个体量较大的互联网大厂(腾讯.百度.阿里.美团点评.华为)都有哪些开源软件.快点Mark起来并转发给需要的人吧.   百度开源软件    1.ECharts:JavaScript 图表库  ECharts是一款由百度前端技术部开发的,基于…
HBase是Apache Hadoop的数据库,能够对大型数据提供随机.实时的读写访问.HBase的目标是存储并处理大型的数据.HBase是一个开源的,分布式的,多版本的,面向列的存储模型,它存储的是松散型数据. 一.HBase:BigTable的开源实现 1.1 HBase出现的背景 (1)随着数据规模越来越大,大量业务场景开始考虑数据存储水平扩展,使得存储服务可以增加/删除,而目前的关系型数据库更专注于一台机器. (2)海量数据量存储成为瓶颈,单台机器无法负载大量数据. (3)单台机器IO读…
HBase 使用场景和成功案例 有时候了解软件产品的最好方法是看看它是怎么用的.它可以解决什么问题和这些解决方案如何适用于大型应用架构,能够告诉你很多.因为HBase有许多公开的产品部署,我们正好可以这么做.本章节将详细介绍一些人们成功使用HBase的使用场景. 注意:不要自我限制,认为HBase只能解决这些使用场景.它是一个初生的技术,根据使用场景进行创新正驱动着系统的发展.如果你有新想法,认为可以受益于HBase提供的功能,试试吧.社区很乐于帮助你,也会从你的经验中学习.这正是开源软件精神.…
有时候了解软件产品的最好方法是看看它是怎么用的.它可以解决什么问题和这些解决方案如何适用于大型应用架构,能够告诉你很多.因为HBase有许多公开的产品部署,我们正好可以这么做.本章节将详细介绍一些人们成功使用HBase的使用场景. 注意:不要自我限制,认为HBase只能解决这些使用场景.它是一个初生的技术,根据使用场景进行创新正驱动着系统的发展.如果你有新想法,认为可以受益于HBase提供的功能,试试吧.社区很乐于帮助你,也会从你的经验中学习.这正是开源软件精神. HBase仿效了Google的…