HBase 学习之路（一）—— HBase简介

HBase学习之路（一）HBase基础介绍

产生背景自 1970 年以来,关系数据库用于数据存储和维护有关问题的解决方案.大数据的出现后, 好多公司实现处理大数据并从中受益,并开始选择像 Hadoop 的解决方案.Hadoop 使用分布式文件系统,用于存储大数据,并使用 MapReduce 来处理.Hadoop 擅长于存储各种格式的庞大的数据,任意的格式甚至非结构化的处理. Hadoop 的限制 Hadoop 只能执行批量处理,并且只以顺序方式访问数据.这意味着必须搜索整个数据集, 即使是最简单的搜索工作. 当处理结果在另一个庞大的…

HBase 学习之路（九）——HBase容灾与备份

一.前言本文主要介绍Hbase常用的三种简单的容灾备份方案,即CopyTable.Export/Import.Snapshot.分别介绍如下: 二.CopyTable 2.1 简介 CopyTable可以将现有表的数据复制到新表中,具有以下特点: 支持时间区间 .row区间 .改变表名称 .改变列族名称 .以及是否Copy已被删除的数据等功能: 执行命令前,需先创建与原表结构相同的新表: CopyTable的操作是基于HBase Client API进行的,即采用scan进行查询, 采用put…

大数据学习之路之HBASE

Hadoop之HBASE 一.HBASE简介 HBase是一个开源的.分布式的,多版本的,面向列的,半结构化的NoSql数据库,提供高性能的随机读写结构化数据的能力.它可以直接使用本地文件系统,也可以使用Hadoop的HDFS文件存储系统.不过,为了提高数据的可靠性和系统的健壮性,并且发挥HBase处理大数据的能力,使用HDFS作为文件存储系统才更为稳妥. HBase存储的数据从逻辑上来看就像一张很大的表,并且它的数据列可以根据需要动态地增加.除此之外,每个单元(cell,由行和列所确定的位置)…

HBase学习之路（二）HBase集群安装

前提 1.HBase 依赖于 HDFS 做底层的数据存储 2.HBase 依赖于 MapReduce 做数据计算 3.HBase 依赖于 ZooKeeper 做服务协调 4.HBase源码是java编写的,安装需要依赖JDK 版本选择打开官方的版本说明http://hbase.apache.org/1.2/book.html JDK的选择 Hadoop的选择此处我们的hadoop版本用的的是2.7.5,HBase选择的版本是1.2.6 安装 1.zookeeper的安装参考http://w…

HBase学习之路（十一）HBase的协过滤器

协处理器—Coprocessor 1. 起源 Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和.计数.排序等操作.比如,在旧版本的(<0.92)Hbase 中,统计数据表的总行数,需要使用 Counter 方法,执行一次 MapReduce Job 才能得到.虽然 HBase 在数据存储层中集成了 MapReduce,能够有效用于数据表的分布式计算.然而在很多情况下,做一些简单的相加或者聚合计算的时候,如果直接将计算过程放置在 server 端,…

HBase学习之路（三）HBase集群Shell操作

进入HBase命令行在你安装的随意台服务器节点上,执行命令:hbase shell,会进入到你的 hbase shell 客户端 [hadoop@hadoop1 ~]$ hbase shell SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding /lib/slf4j-log4j12-.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: Found…

HBase 学习之路（八）——HBase协处理器

一.简述在使用HBase时,如果你的数据量达到了数十亿行或数百万列,此时能否在查询中返回大量数据将受制于网络的带宽,即便网络状况允许,但是客户端的计算处理也未必能够满足要求.在这种情况下,协处理器(Coprocessors)应运而生.它允许你将业务计算代码放入在RegionServer的协处理器中,将处理好的数据再返回给客户端,这可以极大地降低需要传输的数据量,从而获得性能上的提升.同时协处理器也允许用户扩展实现HBase目前所不具备的功能,如权限校验.二级索引.完整性约束等. 二.协处理器类…

HBase 学习之路（六）——HBase Java API 的基本使用

一.简述截至到目前(2019.04),HBase 有两个主要的版本,分别是1.x 和 2.x ,两个版本的Java API有所不同,1.x 中某些方法在2.x中被标识为@deprecated过时.所以下面关于API的样例,我会分别给出1.x和2.x两个版本.完整的代码见本仓库: Java API 1.x Examples Java API 2.x Examples 同时你使用的客户端的版本必须与服务端版本保持一致,如果用2.x版本的客户端代码去连接1.x版本的服务端,会抛出NoSuchColu…

【Hbase学习之二】Hbase 搭建

环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 hbase-2.1.3 一.单机模式搭建不依赖HDFS 使用本地文件系统. 1.解压HBase,配置HBase环境变量[root@PCS102 local]# tar -zxvf hbase-2.1.3-bin.tar.gz -C /usr/local/[root@PCS102 local]# vi /etc/profile[ro…

Hbase 学习（十） HBase Snapshots

HBase Snapshots允许你对一个表进行快照(即可用副本),它不会对Region Servers产生很大的影响,它进行复制和恢复操作的时候不包括数据拷贝.导出快照到另外的集群也不会对Region Servers产生影响. 下面告诉你如何使用Snapshots功能 1.开启快照支持功能,在0.95+之后的版本都是默认开启的,在0.94.6+是默认关闭 <property> <name>hbase.snapshot.enabled</name> <value…

hbase学习（二）hbase单机和高可用完全分布式安装部署

hbase版本 2.0.4 与hadoop兼容表http://hbase.apache.org/book.html#hadoop 我的 hadoop版本是3.1 1.单机版hbase 1.1解压安装包 tar xf hbase-2.0.4-bin.tar.gz -C /opt/ 1.2配置环境变量编辑/etc/profile export HBASE_HOME=/opt/hbase- export PATH=$PATH:$HBASE_HOME/bin 生效环境变量 sourc…

HBase 学习之路（一）—— HBase简介

一.Hadoop的局限 HBase是一个构建在Hadoop文件系统之上的面向列的数据库管理系统. 要想明白为什么产生HBase,就需要先了解一下Hadoop存在的限制?Hadoop可以通过HDFS来存储结构化.半结构甚至非结构化的数据,它是传统数据库的补充,是海量数据存储的最佳方法,它针对大文件的存储,批量访问和流式访问都做了优化,同时也通过多副本解决了容灾问题. 但是Hadoop的缺陷在于它只能执行批处理,并且只能以顺序方式访问数据,这意味着即使是最简单的工作,也必须搜索整个数据集,无法实现对…

hbase学习（一）hbase简介

1.hadoop生态系统 2.hbase简介非关系型数据库知识面扩展 cassandra.hbase.mongodb.redis couchdb,文件存储数据库 Neo4j非关系型图数据库 3.hbase概念 hadoop Database,是一个高可靠性.高性能.面向列.可伸缩.实时读写的分布式数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散…

HBase 学习之路（十）—— HBase的SQL中间层 Phoenix

一.Phoenix简介 Phoenix是HBase的开源SQL中间层,它允许你使用标准JDBC的方式来操作HBase上的数据.在Phoenix之前,如果你要访问HBase,只能调用它的Java API,但相比于使用一行SQL就能实现数据查询,HBase的API还是过于复杂.Phoenix的理念是we put sql SQL back in NOSQL,即你可以使用标准的SQL就能完成对HBase上数据的操作.同时这也意味着你可以通过集成Spring Data JPA或Mybatis等常用的持久层…

HBase 学习之路（七）——HBase过滤器详解

一.HBase过滤器简介 Hbase提供了种类丰富的过滤器(filter)来提高数据处理的效率,用户可以通过内置或自定义的过滤器来对数据进行过滤,所有的过滤器都在服务端生效,即谓词下推(predicate push down).这样可以保证过滤掉的数据不会被传送到客户端,从而减轻网络传输和客户端处理的压力. 二.过滤器基础 2.1 Filter接口和FilterBase抽象类 Filter接口中定义了过滤器的基本方法,FilterBase抽象类实现了Filter接口.所有内置的过滤器则直接或者间…

HBase学习之路（十）HBase表的设计原则

建表高级属性下面几个 shell 命令在 hbase 操作中可以起到很大的作用,且主要体现在建表的过程中,看下面几个 create 属性 1. BLOOMFILTER 默认是 NONE 是否使用布隆过虑及使用何种方式,布隆过滤可以每列族单独启用使用 HColumnDescriptor.setBloomFilterType(NONE | ROW | ROWCOL) 对列族单独启用布隆 Default = ROW 对行进行布隆过滤对 ROW,行键的哈希在每次插入行时将被添加到布隆对 ROW…

HBase学习之路（九）HBase phoenix的使用

HBase phoenix的下载下载地址http://mirror.bit.edu.cn/apache/phoenix/ 选择对应的hbase版本进行下载,测试使用的是hbase-1.2.6版本…

HBase学习之路（七）HBase 原理

系统架构错误图解这张图是有一个错误点:应该是每一个 RegionServer 就只有一个 HLog,而不是一个 Region 有一个 HLog. 正确图解从HBase的架构图上可以看出,HBase中的组件包括Client.Zookeeper.HMaster.HRegionServer.HRegion.Store.MemStore.StoreFile.HFile.HLog等,接下来介绍他们的作用. Client 1.HBase 有两张特殊表: .META.:记录了用户所有表拆分出来的的 Re…

HBase学习之路（六）过滤器

过滤器(Filter) 基础API中的查询操作在面对大量数据的时候是非常苍白的,这里Hbase提供了高级的查询方法:Filter.Filter可以根据簇.列.版本等更多的条件来对数据进行过滤,基于Hbase本身提供的三维有序(主键有序.列有序.版本有序),这些Filter可以高效的完成查询过滤的任务.带有Filter条件的RPC查询请求会把Filter分发到各个RegionServer,是一个服务器端(Server-side)的过滤器,这样也可以降低网络传输的压力. 要完成一个过滤的操作,至少需…

【HBase 学习之路（一）—— HBase简介】的更多相关文章

HBase学习之路（一）HBase基础介绍

HBase 学习之路（九）——HBase容灾与备份

大数据学习之路之HBASE

HBase学习之路（二）HBase集群安装

HBase学习之路（十一）HBase的协过滤器

HBase学习之路（三）HBase集群Shell操作

HBase 学习之路（八）——HBase协处理器

HBase 学习之路（六）——HBase Java API 的基本使用

【Hbase学习之二】Hbase 搭建

Hbase 学习（十） HBase Snapshots

hbase学习（二）hbase单机和高可用完全分布式安装部署

HBase 学习之路（一）—— HBase简介

hbase学习（一）hbase简介

HBase 学习之路（十）—— HBase的SQL中间层 Phoenix

HBase 学习之路（七）——HBase过滤器详解

HBase学习之路（十）HBase表的设计原则

HBase学习之路（九）HBase phoenix的使用

HBase学习之路（七）HBase 原理

HBase学习之路（六）过滤器

HBase学习之路（五）MapReduce操作Hbase

HBase学习之路（四）HBase的API操作

HBase 学习之路（五）——HBase常用 Shell 命令

HBase 学习之路（二）—— HBase系统架构及数据结构

HBase 学习之路（四）—— HBase集群环境配置

HBase 学习之路（三）—— HBase基本环境搭建

HBase学习之路（八）HBase大牛博客

HBase 学习之路（十一）—— Spring/Spring Boot + Mybatis + Phoenix 整合

python学习之路-1 python简介及安装方法

Hbase 学习（四） hbase客户端设置缓存优化查询

GIT学习之路第一天简介及其安装