[摘要] 本文主要介绍HBase与HDFS的关系,一些关键进程角色,以及在部署上的建议 HBase与HDFS 我们都知道HBase的数据是存储于HDFS里面的,相信大家也都有这么的认知: HBase是一个分布式数据库,HDFS是一个分布式文件系统 理解了这一点,我们先来粗略回答本文已开始提出的其中两个问题: HBase中的数据为何不直接存放于HDFS之上? HBase中存储的海量数据记录,通常在几百Bytes到KB级别,如果将这些数据直接存储于HDFS之上,会导致大量的小文件产生,为HDFS的元…
一.前言 1.上文中我们已经搭建好了Hadoop和Zookeeper的集群,这一文来将Hadoop集群变得高可用 2.由于Hadoop集群是主从节点的模式,如果集群中的namenode主节点挂掉,那么集群就会瘫痪,所以我们要改造成HA模式(High Avaliable,高可用性)的集群,说白了就是设置一个备用的namenode节点,当线上使用的namenode挂掉后,会切换备用节点,让集群可以继续运行 二.HA模式配置 HA模式原理:比如设置两个namenode节点,一个active,一个sta…
HDFS组件概述 NameNode 存储数据节点信息及元文件,即:分成了多少数据块,每一个数据块存储在哪一个DataNode中,每一个数据块备份到哪些DataNode中 这个集群有哪些DataNode,每一个DataNode的主机名.磁盘容量大小等信息 SecondaryNameNode 辅助NameNode来提高性能,以及防止丢数据的 DataNode 真正存储数据的节点 Client 比如命令行.webHDFS及java客户端等 HDFS中的数据块(Block) 每一个数据块默认容量是128…
Hadoop集群搭建 把环境全部准备好,包括编程环境. JDK安装 版本要求: 强烈建议使用64位的JDK版本,这样的优势在于JVM的能够访问到的最大内存就不受限制,基于后期可能会学习到Spark技术,所以建议在搭建系统环境的时候把JDK的版本安装为64位. 如果已经安装,在你不确定安装的版本情况下,可以使用如下方式查看:快捷键WIN+R,调出DOS窗口,然后输入java –version就可以了,如图所示: IDEAK编程工具安装 破解工具:IDEAKeyTool.jar 使用的方法:打开DO…
MongoDB 是免费开源的跨平台 NoSQL 数据库,命名源于英文单词 humongous,意思是「巨大无比」,可见开发组对 MongoDB 的定位.与关系型数据库不同,MongoDB 的数据以类似于 JSON 格式的二进制文档存储: { name: "Angeladady", age: 18, hobbies: ["Steam", "Guitar"] } 文档型的数据存储方式有几个重要好处:文档的数据类型可以对应到语言的数据类型,如数组类型(…
目录: 1.基本工作准备 1.虚拟机准备 2.java 虚拟机-jdk环境配置 3.ssh无密码登录 2.hadoop的安装与配置 3.hbase安装与配置(集成安装zookeeper) 4.zookeeper独立安装(整合hadoop和hbase) 5.安装过程中遇到的常见过程…
(一)hadoop2.x版本下载及安装 Hadoop 版本选择目前主要基于三个厂商(国外)如下所示: 1.基于Apache厂商的最原始的hadoop版本, 所有发行版均基于这个版本进行改进. 2.基于HortonWorks厂商的开源免费的hdp版本. 3.基于Cloudera厂商的cdh版本,Cloudera有免费版和企业版, 企业版只有试用期.不过cdh大部分功能都是免费的. (二)hadoop2.x分布式集群配置 1.集群资源规划设计 2.hadoop2.x分布式集群配置 1)hadoop2…
常见的HBase新手问题: 什么样的数据适合用HBase来存储? 既然HBase也是一个数据库,能否用它将现有系统中昂贵的Oracle替换掉? 存放于HBase中的数据记录,为何不直接存放于HDFS之上? 能否直接使用HBase来存储文件数据? Region(HBase中的数据分片)迁移后,数据是否也会被迁移? 为何基于Spark/Hive分析HBase数据时性能较差? 开篇 用惯了Oracle/MySQL的同学们,心目中的数据表,应该是长成这样的: 这种表结构规整,每一行都有固定的列构成,因此…
引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭…
        HBase 是一个开源的非关系(NoSQL)的可伸缩性分布式数据库.它是面向列的,并适合于存储超大型松散数据.HBase适合于实时,随机对Big数据进行读写操作的业务环境.   本文基本环境: Centos 7   Linux Master 3.10.0-229.el7.x86_64 Hadoop-2.7.1 完全分布式 3台机 Hbase-1.1.2  HBase官网下载 hbase-1.1.2-bin.tar.gz 三台虚拟机主机名: Master  分配2G内存  name…
一.数据的备份与恢复 1. 备份 停止 HBase 服务后,使用 distcp 命令运行 MapReduce 任务进行备份,将数据备份到另一个地方,可以是同一个集群,也可以是专用的备份集群. 即,把数据转移到当前集群的其他目录下(也可以不在同一个集群中): $ bin/hadoop distcp \ hdfs://node21:8020/hbase \ hdfs://node21:8020/HbaseBackup/backup20180820 尖叫提示:执行该操作,一定要开启 Yarn 服务 2…
在C#中的Datatable数据变量的操作过程中,可以通过DataTable变量的Rows属性的InsertAt方法往DataTable的指定位置行数位置插入一个新行数据,即往DataTable表格指定位置插入新数据DataRow,如果在插入新行数据的时候使用的是Rows属性的Add方法,则是插入到表格的最后一行位置. 首先给出我们Demo的Datatable变量dataDt的结构信息,该表格中含有3列,分别为Name.Id.Memo.有个业务需求需要生成一个新行数据DataRow对象,并将Da…
本文收录在Linux运维企业架构实战系列 前言:本篇博客是博主踩过无数坑,反复查阅资料,一步步搭建,操作完成后整理的个人心得,分享给大家~~~ 1.认识Hadoop和Hbase 1.1 hadoop简单介绍 Hadoop是一个使用java编写的Apache开放源代码框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理.Hadoop框架工作的应用程序可以在跨计算机群集提供分布式存储和计算的环境中工作.Hadoop旨在从单一服务器扩展到数千台机器,每台机器都提供本地计算和存储. 1.…
前言 笔者在分类中的hbase栏目之前已经分享了hbase的安装以及一些常用的shell命令的使用,这里不仅仅重新复习一下shell命令,还会介绍hbase的DDL以及DML的相关操作. hbase的shell操作 启动hbase shell 在hbase的安装目录的bin目录下面启动我们的hbase,执行命令:hbase shell,执行效果以>结束,如下执行效果: [root@mini1 bin]# ./hbase shell SLF4J: Class path contains multi…
折腾了这么久,hbase终于装好了 ------------------------- 上篇: Hadoop3集群搭建之——虚拟机安装 Hadoop3集群搭建之——安装hadoop,配置环境 Hadoop3集群搭建之——配置ntp服务 Hadoop3集群搭建之——hive安装 在安装之前,查了一下资料,关于hbase与hadoop兼容性的. 最开始看hadoop的时候,在好像慕课网上看的,hadoop全家桶之间的兼容性问题(以前被java web的各种jar包坑坏了的Java菜鸟,心理有点小阴影…
转自:http://blog.csdn.net/zhongwen7710/article/details/39577431 本blog的内容包含: 第一部分:Hbase框架原理理解 第二部分:Hbase调用MapReduce函数使用理解 第三部分:Hbase调用Java API使用理解 第四部分:Hbase Shell操作 第五部分:Hbase建表.读写操作方式性能优化总结   第一部分:Hbase框架原理理解   概述 HBase是一个构建在HDFS上的分布式列存储系统:HBase是基于Goo…
本文收录在Linux运维企业架构实战系列 前言:本篇博客是博主踩过无数坑,反复查阅资料,一步步搭建,操作完成后整理的个人心得,分享给大家~~~ 1.认识Hadoop和Hbase 1.1 hadoop简单介绍 Hadoop是一个使用java编写的Apache开放源代码框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理.Hadoop框架工作的应用程序可以在跨计算机群集提供分布式存储和计算的环境中工作.Hadoop旨在从单一服务器扩展到数千台机器,每台机器都提供本地计算和存储. 1.…
1:创建表 create 'MY_TABLE', 'CF1','CF2' 2:在hbase上插入一条数据 put ' ,'CF1:V1', 'uwo1' 3:在phoenix上创建视图 create view MY_TABLE (PK varchar primary key, CF1.V1 varchar, CF2.V2 varchar, CF1.V3 varchar); 4:查询phoenix的视图 : jdbc:phoenix:df1:> select * from MY_TABLE; +-…
0,HBase简介 HBase是Apache Hadoop中的一个子项目,是一个HBase是一个开源的.分布式的.多版本的.面向列的.非关系(NoSQL)的.可伸缩性分布式数据存储模型,Hbase依托于Hadoop的HDFS作为最基本存储基础单元.HBase的服务器体系结构遵从简单的主从服务器架构,它由HRegion Server群和HMaster Server构成.HMaster Server负责管理所有的HRegion Server,而HBase中的所有Server都是通过Zookeeper…
大数据集群为了保证故障转移,一般通过zookeeper来整体协调管理,当节点数大于等于6个时推荐使用,接下来描述一下Hbase集群部署在zookeeper上的过程: 安装Hbase之前首先系统应该做通用的集群环境准备工作,这些是必须的: 1.集群中主机名必须正确配置,最好有实际意义:并且主机名都在hosts文件中对应主机IP,一一对应,不可缺少 这里集群有6台服务器:bigdata1,bigdata2,bigdata3,bigdata4,bigdata5,bigdata6 这里是3台主机,分别对…
工作中一般使用的都是zookeeper和Hbase的分布式集群. more /etc/profile cd /usr/local zookeeper-3.4.5.tar.gz zookeeper在安装部署的时候,节点数量必须是不少于三个的奇数个. =================================== 伪分布式搭建(3个节点): 伪分布式集群,就是在一台pc中,启动多个zookeeper的实例,完全分布式是指每台pc,启动一个zookeeper实例. 1.1 解压缩zookeep…
0x01 软件环境 OS: CentOS6.5 x64 java: jdk1.8.0_111 hadoop: hadoop-2.5.2 hbase: hbase-0.98.24 0x02 集群概况 IP hostname 192.168.1.10 master 192.168.1.11 slave1 192.168.1.12 slave2 0x03 安装HBase 下载.解压 下载地址:http://www.apache.org/dyn/closer.cgi/hbase/ 软件版本:hbase-…
本文将基于hbase 0.98.1解说其在linux集群上的安装方法,并对一些重要的设置项进行解释,本文原文链接:http://blog.csdn.net/bluishglc/article/details/24593597,转载请注明出处. 1. 安装与配置 1.1. 前置条件 确保已经安装了hadoop并保证hadoop运行正常.关于hbase与hadoop的版本号依赖关系,请參考:  https://hbase.apache.org/book/configuration.html#hado…
本文由  网易云发布. 作者:范欣欣 本篇文章仅限本站分享,如需转载,请联系网易获取授权. HBase自身具有极好的扩展性,也因此,构建扩展集群是它的天生强项之一.在实际线上应用中很多业务都运行在一个集群上,业务之间共享集群硬件.软件资源.那问题来了,一个集群上面到底应该运行哪些业务可以最大程度上利用系统的软硬件资源?另外,对于一个给定业务来说,应该如何规划集群的硬件容量才能使得资源不浪费?最后,一个给定的RegionServer上到底部署多少 Region比较合适?想必这些问题都曾经困惑过很多…
第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2.4 配置 Spark Standalone 模式2.5 配置 Spark History Server2.6 配置 Spark HA2.7 配置 Spark Yarn 模式第3章 执行 Spark 程序3.1 执行第一个 spark 程序3.2 Spark 应用提交3.3 Spark shell3…
当es集群的数据量较小的情况下elasticdump这个工具比较方便,但是当数据量达到一定级别比如上百G的时候,elasticdump速度就很慢了,此时我们可以使用快照的方法进行备份 elasticdump工具的使用可以参考 博文:elasticsearch5.0.1集群一次误删除kibana索引引发的血案 http://blog.csdn.net/reblue520/article/details/61925375 个人感觉这两个工具各有优缺点,和mysql的备份工具比起来: elasticd…
1.简介 HBase备份的方法在[How to]HBase集群备份方法文章中已经有些介绍,但是这些方法都不是HBase本身的特性在支持,都是通过MR计算框架结合HBase客户端的方式,或者直接拷贝HBase的底层hdfs数据的方式进行备份的,但从操作上来说也比较繁琐复杂,数据完整性和及时性上也做的并不是很好. 本文介绍另外一种集群间的数据自动备份特性,这个特性是HBase的内部特性,用户数据备份和数据容灾和集群功能划分. 数据容灾可以认为只是为了数据的保存的措施,除此之外我们也可以灵活使用这种机…
原文地址:https://www.cnblogs.com/hanzhi/articles/8794984.html 目录 引言 目录 一环境选择 1集群机器安装图 2配置说明 3下载地址 二集群的相关配置 1主机名更改以及主机和IP做相关映射 更改主机名 做主机和IP的关系映射 2ssh免登录 3防火墙关闭 4时间配置 5快捷键设置可选 6整体环境变量设置 二Hadoop的环境搭建 1JDK配置 2hadoop配置 21 文件准备 22 环境配置 23 修改配置文件 231 修改 core-si…
一.概要 本文记录hbase高可用集群部署过程,在部署hbase之前需要事先部署好hadoop集群,因为hbase的数据需要存放在hdfs上,hadoop集群的部署后续会有一篇文章记录,本文假设hadoop集群已经部署好,分布式hbase集群需要依赖zk,并且zk可以是hbase自己托管的也可以是我们自己单独搭建的,这里我们使用自己单独搭建的zk集群,我们的hadoop集群是用的cdh的发行版,所以hbase也会使用cdh的源. 二.环境 1.软件版本 centos6 zookeeper-3.4…
https://www.cnblogs.com/ejiyuan/p/5591613.html HBase简介 HBase是Apache Hadoop中的一个子项目,是一个HBase是一个开源的.分布式的.多版本的.面向列的.非关系(NoSQL)的.可伸缩性分布式数据存储模型,Hbase依托于Hadoop的HDFS作为最基本存储基础单元.HBase的服务器体系结构遵从简单的主从服务器架构,它由HRegion Server群和HMaster Server构成.HMaster Server负责管理所有…