帮一个朋友写个样例,顺便练手啦~一直在做平台的各种事,但是代码后续还要精进啊... import java.util.Date import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.client.{Put, Scan, Result} import org.apache.hadoop.hbase.io.ImmutableBytesWritable import org.apache.had…
前言 在搭建大数据Hadoop相关的环境时候,遇到很多了很多错误.我是个喜欢做笔记的人,这些错误基本都记载,并且将解决办法也写上了.因此写成博客,希望能够帮助那些搭建大数据环境的人解决问题. 说明: 遇到的问题以及相应的解决办法是对于个人当时的环境,具体因人而异.如果碰到同样的问题,本博客的方法无法解决您的问题,请先检查环境配置问题. Hadoop伪分布式相关的问题 1,FATAL conf.Configuration: error parsing conf hdfs-site.xml 原因:…
背景: 场景需求1:使用spark直接读取HBASE表 场景需求2:使用spark直接读取HIVE表 场景需求3:使用spark读取HBASE在Hive的外表 摘要: 1.背景 2.提交脚本 内容 场景需求1:使用spark直接读取HBASE表 编写提交脚本: export SPARK2_HOME=/var/lib/hadoop-hdfs/spark--bin-hadoop2. export HBASE_LIB_HOME=/opt/cloudera/parcels/CDH/lib/hbase $…
问题: spark集成hive,启动spark-shell或者spark-sql的时候,报错: INFO MetaStoreDirectSql: MySQL check failed, assuming we are not on mysql: Lexical error at line 1, column 5. Encountered: "@" (64), after : "". 环境: spark-1.4 hive-1.2.1 mysql-5.1 jdbc驱动…
前言 在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为hive默认使用的引擎是MapReduce.因此就将spark作为hive的引擎来对hbase进行查询,在成功的整合之后,我将如何整合的过程写成本篇博文.具体如下! 事前准备 在进行整合之前,首先确保Hive.HBase.Spark的环境已经搭建成功!如果没有成功搭建,具体可以看我之前写的大数据学习系…
2.6.与 Hive 的集成2.6.1.HBase 与 Hive 的对比1) Hive(1) 数据仓库Hive 的本质其实就相当于将 HDFS 中已经存储的文件在 Mysql 中做了一个双射关系,以方 便使用 HQL 去管理查询.(2) 用于数据分析.清洗Hive 适用于离线的数据分析和清洗,延迟较高.(3) 基于 HDFS.MapReduceHive 存储的数据依旧在 DataNode 上,编写的 HQL 语句终将是转换为 MapReduce 代码执行. 2) HBase(1) 数据库是一种面…
第6章 HBase API 操作6.1 环境准备6.2 HBase API6.2.1 判断表是否存在6.2.2 抽取获取 Configuration.Connection.Admin 对象的方法以及关闭资源的方法6.2.3 创建表(admin)6.2.4 删除表(admin)6.2.5 向表中插入数据(put)6.2.6 删除多行数据(delete)6.2.7 获取所有数据(scan)6.2.8 获取某一行数据(get)6.2.9 获取某一行指定“列族:列”的数据(get)6.3 MapRedu…
HBase与Hive的对比 1.Hive (1) 数据仓库 Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询. (2) 用于数据分析.清洗 Hive适用于离线的数据分析和清洗,延迟较高. (3) 基于HDFS.MapReduce Hive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行. 2.HBase (1) 数据库 是一种面向列存储的非关系型数据库. (2) 用于存储结构化和非结构化的数据…
1 HBase与Hive的对比 1.Hive (1) 数据仓库 Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询. (2) 用于数据分析.清洗 Hive适用于离线的数据分析和清洗,延迟较高. (3) 基于HDFS.MapReduce Hive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行. 2.HBase (1) 数据库 是一种面向列存储的非关系型数据库. (2) 用于存储结构化和非结构化的…
Hive集成HBase 配置 将hive的lib/中的HBase.jar包用实际安装的Hbase的jar包替换掉 cd /opt/hive/lib/ ls hbase-0.94.2*  rm -rf hbase-0.92* cp /opt/hbase/hbase-0.94.2*  将Hive的lib/中的zookeeper.jar包用HBase中lib/中的替换掉 步骤同上   在hive-site.xml中添加: <property>         <name>hive.aux…