hbase(二)】的更多相关文章

一.HBase简介 1.1简介 hbase是bigtable的开源山寨版本.是建立的hdfs之上,提供高可靠性.高性能.列存储.可伸缩.实时读写的数据库系统.它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作).主要用来存储非结构化和半结构化的松散数据.与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力. 1.2 Hbase与传统数据库的对…
版本 HDP:3.0.1.0 HBase:2.0.0 一.前言 之前的文章也提到过,最近工作中需要对HBase进行二次开发(参照HBase的AES加密方法,为HBase增加SMS4数据加密类型).研究了两天,终于将开发流程想清楚并搭建好了debug环境,所以就迫不及待地想写篇文章分享给大家. 二.思路 首先看到这个需求,肯定是需要先实现HBase配置AES加密<HBase配置AES加密>,或者还可以再继续了解实现SMS4加密算法<Java版SMS4加密解密算法>.等到这些都完成之后…
目录 一.基础操作 1.进入shell命令行 2.帮助查看命令 二.命名空间操作 1.创建namespace 2.查看namespace 3.删除命名空间 三.表操作 1.查看所有表 2.创建表 3.查看表详情 4.修改表 1)删除列簇信息 2)修改版本信息 5.删除表 四.数据操作 1.增加数据 2.更新数据 3.Scan查看数据 1)扫描全表 2)从限定开始位置扫描全表 3)查询列簇的数据 4)查询列的数据 4.Get查看数据 1)查询指定rowkey 2)查询某个列簇 3)查询某个列 4)…
上一章完成了c#访问hbase的sdk封装,接下来以一个具体Demo对sdk进行测试验证.场景:每5秒抓取指定股票列表的实时价格波动行情,数据下载后,一方面实时刷新UI界面,另一方面将数据放入到在内存中模拟的MQ (实际生产情况,可用kafka等集群代替)->存入HBase数据库.提供按指定时间范围股票价格数据查询. 目录: 示例说明 示例效果图 rest server运行状态检查 获取股票实时数据代码 数据持续化至Hbase代码 从HBase读取数据代码 示例说明: 在Hbase 中创建两个表…
1. 试用thrift python/java以及hbase client api.结论例如以下:     1.1 thrift的安装和公布繁琐.可能会遇到未知的错误,且hbase.thrift的版本号在变化中. 长处代码简单,须要打包的内容少.     1.2 hbase client api,须要的jar非常多,公布版的容量也非常大.打包后近百兆. 长处是.明白.无歧义. 2. 推荐用hbase client api的方式搞定. 3. 下面均为技术细节. 4. 有一台机器/一个集群,在执行h…
此笔记仅用于作者记录复习使用,如有错误地方欢迎留言指正,作者感激不尽,如有转载请指明出处 Hbase环境搭建 Hbase环境搭建 hadoop为HA的Hbase配置 Zookeeper集群的正常部署并启动 Hadoop集群的正常部署并启动 解压HBase 修改HBase配置文件 替换HBase根目录下的lib目录下的jar包,以解决兼容问题 将Hadoop配置文件软连接到HBase的conf目录下 将整理好的HBase安装目录scp到其他机器节点 启动服务 查看页面验证是否启动成功 HMaste…
Phoenix:Phoenix将SQL查询语句转换成多个scan操作,并编排执行最终生成标准的JDBC结果集.   Spring将数据库访问的样式代码提取到JDBC模板类中,JDBC模板还承担了资源管理和异常处理的工作,Phoenix作为JDBC驱动同样可以将其与Spring集成,提高开发效率.   具体操作如下:   1.配置applicationContext.xml <beans xmlns="http://www.springframework.org/schema/beans&q…
配置 hive 与 hbase 整合的目的是利用 HQL 语法实现对 hbase 数据库的增删改查操作,基本原理就是利用两者本身对外的API接口互相进行通信,两者通信主要是依靠hive_hbase-handler.jar工具类. 但请注意:使用Hive操作HBase中的表,只是提供了便捷性,前面章节已经介绍,hiveQL引擎使用的是MapReduce,对于性能上,表现比较糟糕,在实际应用过程中可针对不同的场景酌情使用. 注意:本文介绍的内容适用的版本见我前面章节,HDP2.4.2 ( HBase…
执行HBase时常会遇到个错误,我就有这种经历. ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times 检查日志:org.apache.hadoop.ipc.RPC$VersionMismatch: Protocol org.apache.hadoop.hdfs.protocol.ClientProtocol version mismatch. (client = 42, server = 41) 假设…
一.数据的备份与恢复 1. 备份 停止 HBase 服务后,使用 distcp 命令运行 MapReduce 任务进行备份,将数据备份到另一个地方,可以是同一个集群,也可以是专用的备份集群. 即,把数据转移到当前集群的其他目录下(也可以不在同一个集群中): $ bin/hadoop distcp \ hdfs://node21:8020/hbase \ hdfs://node21:8020/HbaseBackup/backup20180820 尖叫提示:执行该操作,一定要开启 Yarn 服务 2…
一.创建单节点HBase实例 https://hbase.apache.org/book.html#quickstart (一)jdk版本要求Java: HBase Version JDK 7 JDK 8 2.0 Not Supported yes 1.3 yes yes 1.2 yes yes 1.1 yes Running with JDK 8 will work but is not well tested. (二)具体步骤: 安装和配置: 1.从Apache Download Mirro…
一. 背景(原http://blog.csdn.net/u011414200/article/details/50437356 ,对其进行了一定更改) 1.1 网络上的大部分教程 都是机器间含有SSH联通来启动的.生产环境一般都是不配置SSH机器之间互通的. 1.2 主机规划 IP 主机名 用户名 部署模块 进程 10.6.3.43 master5 hadoop5 NameNodeResourceManagerHBase NameNodeDFSZKFailoverControllerResour…
Hbase系列文章 HBase(一): c#访问hbase组件开发 HBase(二): c#访问HBase之股票行情Demo HBase(三): Azure HDInsigt HBase表数据导入本地HBase 基于HDInsight 3.4 HBase集群规划参考 hadoop(四): 本地 hbase 集群配置 Azure Blob Storage HBase(五): HBase运维管理 HBase(六): HBase体系结构剖析(上) HBase(七): HBase体系结构剖析(下) HB…
作者经历了多次基于HBase实现全量与增量数据的迁移测试,总结了在使用HBase进行数据迁移的多种实践,本文针对全量与增量数据迁移的场景不同,提供了1+2的技巧分享. HBase全量与增量数据迁移的方法 1.背景 在HBase使用过程中,使用的HBase集群经常会因为某些原因需要数据迁移.大多数情况下,可以用离线的方式进行迁移,迁移离线数据的方式就比较容易了,将整个hbase的data存储目录进行搬迁就行,但是当集群数据量比较多的时候,文件拷贝的时间很长,对业务影响时间也比较长,往往在设计的时间…
课程大纲及内容简介: 每节课约35分钟,共不下40讲 第一章(11讲) ·分布式和传统单机模式 ·Hadoop背景和工作原理 ·Mapreduce工作原理剖析 ·第二代MR--YARN原理剖析 ·Cloudera Manager 4.1.2安装 ·Cloudera Hadoop 4.1.2 安装 ·CM下集群管理一 ·CM下集群管理二 ·Hadoop fs 命令详解 ·cloudera manager管理集群·cloudera manager下集群高级管理 第二章(约10讲) ·Hive数据表和…
------------吾亦无他,唯手熟尔,谦卑若愚,好学若饥------------- 常见的非关系型数据库: Mongo DB Redis HBase 二维表的介绍: 在关系模型中,数据结构表示为一个二维表,一个关系就是一个二维表(但不是任意一个二维表都能表示一个关系),二维表名就是关系名.表中的第一行通常称为属性名,表中的每一个元组和属性都是不可再分的,且元组的次序是无关紧要的. 常用的关系术语如下: 记录 二维表中每一行称为一个记录,或称为一个元组. 字段 二维表中每一列称为一个字段,或…
一.官方资料 1.官网:http://hbase.apache.org/ 2.官方文档:HBase 官方文档中文版 二.apache软件下载基地 1. Apache Software Foundation Distribution Directory archive.apache.org 2.选择合适的HBase版本: 官方版本:http://archive.apache.org/dist/hbase/ CDH版本:http://archive.cloudera.com/cdh5 三.精选 1.…
作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 一.传统方式 这种方式就是常用的TableInputFormat和TableOutputFormat来读写hbase,如下代码所示 简单解释下,用sc.newAPIHadoopRDD根据conf中配置好的scan来从Hbase的数据列族中读取包含(ImmutableBytesWritable, Result)的RDD, 随后取出rowkey和value的键值对儿利用StatCounter进行一…
请先参见"集成Nutch/Hbase/Solr构建搜索引擎之一:安装及运行",搭建测试环境 http://blog.csdn.net/jediael_lu/article/details/37329731 一.被索引的域 Schema.xml 1.文档基本内容 在使用solr对Nutch抓取到的网页进行索引时,schema.xml被替换成以下内容. 文件中指定了哪些域被索引.存储等内容. <?xml version="1.0" encoding="U…
Hbase深入学习(二) 安装hbase This guidedescribes setup of a standalone hbase instance that uses the local filesystem. Itleads you through creating a table, inserting rows via the hbase shell, andthen cleaning up and shutting down your standalone hbase instan…
引言 在上一篇中搭建了Hadoop的单机环境,这一篇则搭建HBase的单机环境 环境准备 1,服务器选择 阿里云服务器:入门型(按量付费) 操作系统:linux CentOS 6.8 Cpu:1核 内存:1G 硬盘:40G 2,配置选择 JDK:1.8 (jdk-8u144-linux-x64.tar.gz) Hadoop:2.8.2 (hadoop-2.8.2.tar.gz) HBase:1.6.2 (hbase-1.2.6-bin.tar.gz) 3,下载地址 官网地址: JDK: http…
Hive架构图: 一般用户接口采用命令行操作, hive与hbase整合之后架构图: 使用场景 场景一:通过insert语句,将文件或者table中的内容加入到hive中,由于hive和hbase已经整合,因此也会加入到hbase当中 场景二:hbase不支持join或者gruop等,可以通过这种方式,让hbase支持sql语句等 场景三,使用Hbase加载数据,然后用Hive查询数据,这样既有了Hbase的高速读写数据,也有了Hive的sql语句方便查询: 部署hive整合hbase环境: 先…
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 hbase-2.1.3 一.单机模式搭建 不依赖HDFS 使用本地文件系统. 1.解压HBase,配置HBase环境变量[root@PCS102 local]# tar -zxvf hbase-2.1.3-bin.tar.gz -C /usr/local/[root@PCS102 local]# vi /etc/profile[ro…
一.hbase数据模型 完整的官方文档的翻译,参考:https://www.cnblogs.com/simple-focus/p/6198329.html 1.rowkey 与nosql数据库们一样,row key是用来检索记录的主键.访问HBASE table中的行,只有三种方式: 1.通过单个row key访问 2.通过row key的range(正则) 3.全表扫描 Row key行键 (Row key)可以是任意字符串(最大长度 是 64KB,实际应用中长度一般为 10-100bytes…
一.安装前提 1.HBase 依赖于 HDFS 做底层的数据存储 2.HBase 依赖于 MapReduce 做数据计算 3.HBase 依赖于 ZooKeeper 做服务协调 4.HBase源码是java编写的,安装需要依赖JDK 1.版本选择 打开官方的版本说明http://hbase.apache.org/1.2/book.html JDK的选择 Hadoop的选择 此处我们的hadoop版本用的的是2.7.6,HBase选择的版本是1.2.6 2.下载安装包 官网下载地址:http://…
HBase 系列(二)安装部署 本节以 Hadoop-2.7.6,HBase-1.4.5 为例安装 HBase 环境.HBase 也有三种模式:本地模式.伪分布模式.分布模式. 一.环境准备 (1) HBase 下载 HBase 下载地址:http://archive.apache.org/dist/hbase/ (2) SSH 服务 service sshd status 参考:http://www.cnblogs.com/binarylei/p/9049149.html (3) 域名系统 D…
一.建表高级属性 下面几个 shell 命令在 hbase 操作中可以起到很到的作用,且主要体现在建表的过程中,看 下面几个 create 属性 1.bloomfilter 布隆过滤器 默认是 NONE 是否使用布隆过虑及使用何种方式, 布隆过滤可以每列族单独启用     使用 HColumnDescriptor.setBloomFilterType(NONE | ROW | ROWCOL) 对列族单独启用布隆        Default = ROW 对行进行布隆过滤(默认是ROW过滤)   …
1.    预先分区 默认情况下,在创建 HBase 表的时候会自动创建一个 Region 分区,当导入数据的时候,所有的 HBase 客户端都向这一个 Region 写数据,直到这个 Region 足够大了才进行切分.一种可以加快批量写入速度的方法是通过预先创建一些空的 Regions,这样当数据写入 HBase 时,会按照 Region 分区情况,在集群内做数据的负载均衡. HBase之五:hbase的region分区 2.    Rowkey优化 HBase 中 Rowkey 是按照字典序…
深入HBase架构解析(二) 前言 这是<深入HBase架构解析(一)>的续,不多废话,继续.... HBase读的实现 通过前文的描述,我们知道在HBase写时,相同Cell(RowKey/ColumnFamily/Column相同)并不保证在一起,甚至删除一个Cell也只是写入一个新的Cell,它含有Delete标记,而不一定将一个Cell真正删除了,因而这就引起了一个问题,如何实现读的问题?要解决这个问题,我们先来分析一下相同的Cell可能存在的位置:首先对新写入的Cell,它会存在于M…
在<HBase源代码分析之MemStore的flush发起时机.推断条件等详情>一文中,我们具体介绍了MemStore flush的发起时机.推断条件等详情.主要是两类操作.一是会引起MemStore数据大小变化的Put.Delete.Append.Increment等操作,二是会引起HRegion变化的诸如Regin的分裂.合并以及做快照时的复制拷贝等.相同会触发MemStore的flush流程.同一时候.在<HBase源代码分析之compact请求发起时机.推断条件等详情(一)>…