流式大数据计算实践（2）----Hadoop集群和Zookeeper

【流式大数据计算实践（2）----Hadoop集群和Zookeeper】的更多相关文章

流式大数据计算实践（1）----Hadoop单机模式

一.前言 1.从今天开始进行流式大数据计算的实践之路,需要完成一个车辆实时热力图 2.技术选型:HBase作为数据仓库,Storm作为流式计算框架,ECharts作为热力图的展示 3.计划使用两台虚拟机来打一个小型的分布式系统,使用Ubuntu系统二.HBase简介 1.HBase是基于HDFS(Hadoop分布式文件系统)的NoSQL数据库,采用k-v的存储方式,所以查询速度相对比较快. 2.下面画图比较HBase与传统的RDS(关系型数据库)数据库的区别 (1)RDS,经常用的比如MySQ…

流式大数据计算实践（3）----高可用的Hadoop集群

一.前言 1.上文中我们已经搭建好了Hadoop和Zookeeper的集群,这一文来将Hadoop集群变得高可用 2.由于Hadoop集群是主从节点的模式,如果集群中的namenode主节点挂掉,那么集群就会瘫痪,所以我们要改造成HA模式(High Avaliable,高可用性)的集群,说白了就是设置一个备用的namenode节点,当线上使用的namenode挂掉后,会切换备用节点,让集群可以继续运行二.HA模式配置 HA模式原理:比如设置两个namenode节点,一个active,一个sta…

流式大数据计算实践（2）----Hadoop集群和Zookeeper

一.前言 1.上一文搭建好了Hadoop单机模式,这一文继续搭建Hadoop集群二.搭建Hadoop集群 1.根据上文的流程得到两台单机模式的机器,并保证两台单机模式正常启动,记得第二台机器core-site.xml内的fs.defaultFS参数值要改成本机的来启动,启动完毕后再改回来 2.清空数据,首先把运行单机模式后生成的数据全部清理掉 rm -rf /work/hadoop/nn/current rm -rf /work/hadoop/dn/current hdfs namenode…

流式大数据计算实践（4）----HBase安装

一.前言 1.前面我们搭建好了高可用的Hadoop集群,本文正式开始搭建HBase 2.HBase简介 (1)Master节点负责管理数据,类似Hadoop里面的namenode,但是他只负责建表改表等操作,如果挂掉了也不会影响使用 (2)RegionServer节点负责存储数据,类似Hadoop里面的datanode,通过Zookeeper进行通信 (3)可以看出HBase实际上是基于HDFS的分布式数据库,但是单机模式下也可以直接用普通文件系统存储数据二.HBase环境搭建 1.下载tar…

流式大数据计算实践（6）----Storm简介&使用&安装

一.前言 1.这一文开始进入Storm流式计算框架的学习二.Storm简介 1.Storm与Hadoop的区别就是,Hadoop是一个离线执行的作业,执行完毕就结束了,而Storm是可以源源不断的接受数据源,不停的对数据进行处理,而数据就行水流一样不停的流进来,经过处理,再将结果存入数据库或者做其他用途 2.基础概念 (1)Tuple(元组):数据流传递的基本单元,相当于数据的流动通过Tuple作为对象来传递 (2)Spout(龙卷):相当于数据源,通过重写nextTuple()方法,源源不断…

流式大数据计算实践（5）----HBase使用&SpringBoot集成

一.前言 1.上文中我们搭建好了一套HBase集群环境,这一文我们学习一下HBase的基本操作和客户端API的使用二.shell操作先通过命令进入HBase的命令行操作 /work/soft/hbase-/bin/hbase shell 1.建表 create 'test', 'cf' (1)以上命令是建立一个test表,里面有一个列族cf (2)与RDS不同,HBase的列不是必须的,当向列族中插入一个单元格数据时,才有了列 2.查看所有表 list 3.查看表属性 describe 't…

流式大数据计算实践（7）----Hive安装

一.前言 1.这一文学习使用Hive 二.Hive介绍与安装 Hive介绍:Hive是基于Hadoop的一个数据仓库工具,可以通过HQL语句(类似SQL)来操作HDFS上面的数据,其原理就是将用户写的HQL语句转换成MapReduce任务去执行,这样不用开发者去写繁琐的MapReduce程序,直接编写简单的HQL语句,降低了很多学习成本.由于Hive实际上是执行MapReduce,所以Hive的查询速度较慢,不适合用于实时的计算任务 1.下载Hive的tar包,并解压 -bin.tar.gz 2…

【流式大数据计算实践（2）----Hadoop集群和Zookeeper】的更多相关文章

流式大数据计算实践（1）----Hadoop单机模式

流式大数据计算实践（3）----高可用的Hadoop集群

流式大数据计算实践（2）----Hadoop集群和Zookeeper

流式大数据计算实践（4）----HBase安装

流式大数据计算实践（6）----Storm简介&使用&安装

流式大数据计算实践（5）----HBase使用&SpringBoot集成

流式大数据计算实践（7）----Hive安装

大数据运维尖刀班 | 集群_监控_CDH_Docker_K8S_两项目_腾讯云服务器

本地日志数据实时接入到hadoop集群的数据接入方案

大数据学习路线：Hadoop集群同步技术分享