Flume-1.4.0和Hbase-0.96.0整合

在使用Flume的时候，请确保你电脑里面已经搭建好Hadoop、Hbase、Zookeeper以及Flume。本文将以最新版的Hadoop-2.2.0、Hbase-0.96.0、Zookeeper-3.4.5以及Flume-1.4.0为例进行说明。如何安装分布式的Hadoop、Hbase、Zookeeper请参见本博客的《Hadoop2.2.0完全分布式集群平台安装与设置》、《Hbase 0.96.0分布式安装手册》、《Zookeeper 3.4.5分布式安装手册》；如何安装分布式Flume本博客将在以后的文章中介绍。

　　1、本程序一共用了三台集群搭建集群，这三台机器的Hostname分别为master、node1、node2；master机器是Hadoop以及Hbase集群的master。三台机器上分别启动的进程如下：

[wyp@master ~]$ jps

2973 HRegionServer

4083 Jps

2145 DataNode

3496 HMaster

2275 NodeManager

1740 NameNode

2790 QuorumPeerMain

1895 ResourceManager

[wyp@node1 ~]$ jps

7801 QuorumPeerMain

11669 DataNode

29419 Jps

11782 NodeManager

29092 HRegionServer

[wyp@node2 ~]$ jps

2310 DataNode

2726 HRegionServer

2622 QuorumPeerMain

3104 Jps

2437 NodeManager

　　2、以master机器作为flume数据的源、并将数据发送给node1机器上的flume，最后node1机器上的flume将数据插入到Hbase中。master机器上的flume和node1机器上的flume中分别做如下的配置：
在master的$FLUME_HOME/conf/目录下创建以下文件（文件名随便取），并做如下配置，这是数据的发送端：

[wyp@master conf]$ vim example.conf

agent.sources = baksrc

agent.channels = memoryChannel

agent.sinks = remotesink

agent.sources.baksrc.type = exec

agent.sources.baksrc.command = tail -F /home/wyp/Documents/data/data.txt

agent.sources.baksrc.checkperiodic = 1000

agent.channels.memoryChannel.type = memory

agent.channels.memoryChannel.keep-alive = 30

agent.channels.memoryChannel.capacity = 10000

agent.channels.memoryChannel.transactionCapacity = 10000

agent.sinks.remotesink.type = avro

agent.sinks.remotesink.hostname = node1

agent.sinks.remotesink.port = 23004

agent.sinks.remotesink.channel = memoryChannel

在node1的$FLUME_HOME/conf/目录下创建以下文件（文件名随便取），并做如下配置，这是数据的接收端：

[wyp@node1 conf]$ vim example.conf

agent.sources = avrosrc

agent.channels = memoryChannel

agent.sinks = fileSink

agent.sources.avrosrc.type = avro

agent.sources.avrosrc.bind = node1

agent.sources.avrosrc.port = 23004

agent.sources.avrosrc.channels = memoryChannel

agent.channels.memoryChannel.type = memory

agent.channels.memoryChannel.keep-alive = 30

agent.channels.memoryChannel.capacity = 10000

agent.channels.memoryChannel.transactionCapacity =10000

agent.sinks.fileSink.type = hbase

agent.sinks.fileSink.table = wyp

agent.sinks.fileSink.columnFamily = cf

agent.sinks.fileSink.column = charges

agent.sinks.fileSink.serializer =

org.apache.flume.sink.hbase.RegexHbaseEventSerializer

agent.sinks.fileSink.channel = memoryChannel

这两个文件配置的含义我就不介绍了，自己google一下吧。
　　3、在master机器和node1机器上分别启动flume服务进程：

[wyp@master apache-flume-1.4.0-bin]$ bin/flume-ng agent

--conf conf

--conf-file conf/example.conf

--name agent

-Dflume.root.logger=INFO,console

[wyp@node1 apache-flume-1.4.0-bin]$ bin/flume-ng agent

--conf conf

--conf-file conf/example.conf

--name agent

-Dflume.root.logger=INFO,console

当分别在node1和master机器上启动上面的进程之后，在node1机器上将会输出以下的信息：

2014-01-20 22:41:56,179 (pool-3-thread-1)

[INFO - org.apache.avro.ipc.NettyServer$NettyServerAvroHandler.

handleUpstream(NettyServer.java:171)]

[id: 0x16c775c5, /192.168.142.161:42201 => /192.168.142.162:23004] OPEN

2014-01-20 22:41:56,182 (pool-4-thread-1)

[INFO - org.apache.avro.ipc.NettyServer$NettyServerAvroHandler.

handleUpstream(NettyServer.java:171)]

[id: 0x16c775c5, /192.168.142.161:42201 => /192.168.142.162:23004]

BOUND: /192.168.142.162:23004

2014-01-20 22:41:56,182 (pool-4-thread-1)

[INFO - org.apache.avro.ipc.NettyServer$NettyServerAvroHandler.

handleUpstream(NettyServer.java:171)]

[id: 0x16c775c5, /192.168.142.161:42201 => /192.168.142.162:23004]

CONNECTED: /192.168.142.161:42201

在master机器上将会输出以下的信息：

2014-01-20 22:42:16,625 (lifecycleSupervisor-1-0)

[INFO - org.apache.flume.sink.AbstractRpcSink.

createConnection(AbstractRpcSink.java:205)]

Rpc sink remotesink: Building RpcClient with hostname: node1, port: 23004

2014-01-20 22:42:16,625 (lifecycleSupervisor-1-0)

[INFO - org.apache.flume.sink.AvroSink.initializeRpcClient(AvroSink.java:126)]

Attempting to create Avro Rpc client.

2014-01-20 22:42:19,639 (lifecycleSupervisor-1-0)

[INFO - org.apache.flume.sink.AbstractRpcSink.start(AbstractRpcSink.java:300)]

Rpc sink remotesink started.

这样暗示node1上的flume和master上的flume已经连接成功了。
　　4、如何测试？可以写一个脚本往/home/wyp/Documents/data/data.txt（见上面master机器上flume上面的配置）文件中追加东西：

for i in {1..1000000}; do

echo "test flume to Hbase $i" >>

/home/wyp/Documents/data/data.txt;

sleep 0.1;

done

　　运行上面的脚本，这样将每隔0.1秒往/home/wyp/Documents/data/data.txt文件中添加内容，这样master上的flume将会接收到/home/wyp/Documents/data/data.txt文件内容的变化，并变化的内容发送到node1机器上的flume，node1机器上的flume把接收到的内容插入到Hbase的wyp表中的cf:charges列中（见上面的配置）。

　　本文是以最新版的Flume和最新办的Hbase进行整合，在整合的过程中将会出现flume依赖包版本问题，解决方法是用
$HADOOP_HOME/share/hadoop/common/lib/guava-11.0.2.jar替换$FLUME_HOME/lib/guava-10.0.1.jar包；
用$HADOOP_HOME/share/hadoop/common/lib/protobuf-java-2.5.0.jar替换$HBASE_HOME/lib/protobuf-java-2.4.0.jar包。然后再启动步骤三的两个进程。

Flume-1.4.0和Hbase-0.96.0整合的更多相关文章

dial tcp 10.96.0.1:443: getsockopt: no route to host --- kubernetes（k8s）DNS 服务反复重启
kubernetes(k8s)DNS 服务反复重启解决: k8s.io/dns/pkg/dns/dns.go:150: Failed to list *v1.Service: Get https:// ...
（转）dial tcp 10.96.0.1:443: getsockopt: no route to host --- kubernetes（k8s）DNS 服务反复重启
转:https://blog.csdn.net/shida_csdn/article/details/80028905 kubernetes(k8s)DNS 服务反复重启解决: k8s.io/dns/ ...
hbase0.96.0单机模式安装(win7 无需cygwin)
之前折腾了几天,想让hbase的单机模式在cygwin上跑起来,都不成功.正当我气馁之时,我无意中发现hbase0.96.0的bin和conf目录下有一些扩展名为cmd的文件.这难道是给win ...
x509: certificate is valid for 10.96.0.1, 172.18.255.243, not 120.79.23.226
服务器:阿里云服务器 master:120.79.23.226 node:39.108.131.246 系统:Centos 7.4 node节点加入集群中是报错: x509: certificate ...
最新版大数据平台安装部署指南，HDP-2.6.5.0，ambari-2.6.2.0
一.服务器环境配置 1 系统要求名称地址操作系统 root密码 Master1 10.1.0.30 Centos 7.7 Root@bidsum1 Master2 10.1.0.105 Cent ...
.NET Core 2.0及.NET Standard 2.0
.NET Core 2.0的发布时间,.NET Core 2.0预览版及.NET Standard 2.0 Preview大概在5月中旬或下旬发布. .NET Core 2.0正式版本发布时间大约在Q ...
.NET Core 2.0及.NET Standard 2.0 Description
NET Core 2.0的发布时间,.NET Core 2.0预览版及.NET Standard 2.0 Preview大概在5月中旬或下旬发布. .NET Core 2.0正式版本发布时间大约在Q3 ...
环境篇：Kylin3.0.1集成CDH6.2.0
环境篇:Kylin3.0.1集成CDH6.2.0 Kylin是什么? Apache Kylin™是一个开源的.分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析( ...
CDH6.3.0下Apache Atlas2.1.0安装与配置
CDH6.3.0下Apache Atlas2.1.0安装与配置 0. 说明文中的${ATLAS_HOME}, ${HIVE_HOME} 环境变更需要根据实际环境进行替换. 1. 依赖 A. 软件依赖 ...

随机推荐

poj2449第K小路径问题
Remmarguts' Date Time Limit: 4000MS Memory Limit: 65536K Total Submissions: 30017 Accepted: 8159 ...
VueCli4构建项目如何配置文件路径别名？
1.在项目文件根目录上创建 vue.config.js 文件 2.写入以下代码,具体内容见注释: const path = require('path') // 引入path模块 function r ...
Java效率工具Lombok使用与原理
Java效率工具Lombok使用与原理我个人觉得 Lombok是一个优化Java代码以及提升开发效率不错的工具.Lombok 的Github地址为:https://github.com/rzwits ...
webpack-dev-server 使用 react-router 启用 browserhistory 采坑记
问题的产生今天下午请假,忙完手头事之后,在家实在无聊,想着从0开始搭建一个 react 的项目.webpack 基本配置之前研究过,没什么大问题.谁想,在 react-router 的配置时出现了个 ...
pyinstaller打包pyqt5，从入坑到填坑，详解
以上省略pyinstaller安装步骤,直入主题.先分享我的心路历程. 1.pyinstaller -F -i 1.ico UI_Main.py (先在CMD中 cd到 py文件对应的路径) 第一步打 ...
基于 kubeadm 搭建高可用的kubernetes 1.18.2 (k8s)集群二搭建高可用集群
1. 部署keepalived - apiserver高可用(任选两个master节点) 1.1 安装keepalived # 在两个主节点上安装keepalived(一主一备) $ yum inst ...
ReentrantLock解析及源码分析
本文结构 Tips:说明一部分概念及阅读源码需要的基础内容 ReentrantLock简介公平机制:对于公平机制和非公平机制进行介绍,包含对比实现:Sync源码解析额,公平和非公平模式的加锁.解锁 ...
Linux下db2V10.5命令行安装超详细图文教程（附下载地址）
下载地址:https://pan.baidu.com/s/1GtF03x1FMF3IsGdSiBJu-g 提取码:8vfj 失效了发邮件:wells974@163.com 一.db2prereqche ...
Rocket - tilelink - CrossingHelper
https://mp.weixin.qq.com/s/y432EkLcBvVn2u_U3tPWeA 简单介绍CrossingHelper的实现. 1. 基本介绍为节点生成一个跨 ...
js在运算时的类型转换
日期类型与数字类型的运算在加法时将日期对象与数字都当作字符串进行连接字符串的运算方式中没有减法.乘法.除法.转化成数字类型进行运算字符串类型字符与数字类型的运算在加法时将二者都转换成字符串进行 ...

Flume-1.4.0和Hbase-0.96.0整合

Flume-1.4.0和Hbase-0.96.0整合的更多相关文章

随机推荐

热门专题