HBase实验(CRUD和MR入库)】的更多相关文章

目录 前期准备 在HBase shell中实现CRUD操作 1. 启动命令行客户端 2. 创建表 3. 删除.新增列族 4. 删除表teacher 5. 新增数据 6. 查看数据 用Java API实现CRUD操作 工程结构 1. 导入依赖包 2. 调用Java API 3. 导出hbasedemo.jar包 4. 将HBase依赖包加入到hadoop classpath中 5. 运行 注:也可直接在eclipse中运行(跳过3.5步骤),因为要访问zookeeper,所以要修改eclipse所…
现在非常喜欢IDEA,之前在mac 上用的eclipse 经常出现无缘无故的错误.所以转为IDEA.  不过新工具需要学习成本,手头上的项目就遇到了很多问题,现列举如下: 背景描述 在hadoop 开发时,经常在mr阶段将清洗后的数据入库到Hbase. 在这个过程中,需要编译.打jar包,然后上传到服务器,执行hadoop jar   *.jar 命令.每次清洗后需要手动4步操作.农民阿姨天生喜欢取巧,故这几天一直研究如何简化此过程. 思路描述 1.之前项目自动化打包上传都用ant ,不过是在w…
开启zookeeper.hadoop.hbase: 打开eclipse创一个java project,然后导入所需jar包: 写好java代码,运行create,然后去hbase shell里查看: 运行delete: package hh; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.H…
1.为何要 BulkLoad 导入?传统的 HTableOutputFormat 写 HBase 有什么问题? 我们先看下 HBase 的写流程: 通常 MapReduce 在写HBase时使用的是 TableOutputFormat 方式,在reduce中直接生成put对象写入HBase,该方式在大数据量写入时效率低下(HBase会block写入,频繁进行flush,split,compact等大量IO操作),并对HBase节点的稳定性造成一定的影响(GC时间过长,响应变慢,导致节点超时退出,…
将数据导入到HBase有三种方式:(1) Mapreduce,输出为TableOutputFormat.(2) 用HBase API .(3)Bulk Loading.对于大量的数据入库,第三种数据是最为有效的. 下图描述了Bulk Loading的过程:先将数据(MySQL ,Oracle ,文本文件等)加载到HDFS,通过MapReduce 将数据做成HFile (HFileOutPutForm).然后使用HBase提供的CompleteBulkLoad(LoadIncrementalHFi…
1. HBase的存储形式 hbase的内部使用KeyValue的形式存储,其key时rowKey:family:column:logTime,value是其存储的内容. 其在region内大多以升序的形式排列,唯一的时logTime是以降序的形式进行排列. 所以,rowKey里越靠近左边的信息越容易被检索到.其设计时,要考虑把重要的信息放左边,不重要的信息放到右边.这样可以提高查询数据的速度.最重要的提高索引速度的就是设计合适的rowKey. 在做RowKey设计时,请先考虑业务是读比写多,还…
背景:我司作为某运营商公司的技术咨询公司,发现有第三方开发公司在使用HBase 1.1.2 (HDP 2.4.2.258版本)一段时间使用正常后,从某一天开始报OOM,从而导致RegionServer宕机. 故障排查步骤 查看 regionserver的log和stdout.由于是突然宕机,log没有任何error信息,stdout 因为自动拉起以及默认启动脚本是重定向覆盖,所以被洗掉了:而oom dump当时还没开启,无任何明显提示信息. regionserver的log中尽管没有发现erro…
Oracle数据迁移至HBase操作记录 @(HBase) 近期需要把Oracle数据库中的十几张表T级别的数据迁移至HBase中,过程中遇到了许多苦难和疑惑,在此记录一下希望能帮到一些有同样需求的兄弟. HBase表设计 首先,是根据Oracle的数据规划HBase的表和表结构. 从业务上看,十几张表大概可以分为两大部分: 交易信息 客户操作 刚开始的计划是将所有表都导入HBase中的一张大表,但是思索讨论之后发现是行不通的: 1.由于各个表之间的业务关系复杂,无法设定一个理想的Rowkey.…
FROM:http://www.just4e.com/hbase.html Apache HBase™ 参考指南  HBase 官方文档中文版 Copyright © 2012 Apache Software Foundation.保留所有权利. Apache Hadoop, Hadoop, MapReduce, HDFS, Zookeeper, HBase 及 HBase项目 logo 是Apache Software Foundation的商标. Revision History Revis…
HBase官方文档 目录 序 1. 入门 1.1. 介绍 1.2. 快速开始 2. Apache HBase (TM)配置 2.1. 基础条件 2.2. HBase 运行模式: 独立和分布式 2.3.配置文件 2.4. 配置示例 2.5.重要配置   3. 升级 3.1. 从 0.94.x 升级到 0.96.x 3.2. 从 0.92.x 升级到 0.94.x 3.3. 从 0.90.x 升级到 0.92.x 3.4. 从0.20x或0.89x升级到0.90.x   4. HBase Shell…