前段时间学习了storm，最近刚开blog，就把这些资料放上来供大家参考。这个框架用的组件基本都是最新稳定版本，flume-ng1.4+kafka0.8+storm0.9+mysql （项目是maven项目，需要改动mysql配置，提供两种topology：读取本地文件（用来本地测试）；读取服务器日志文件。）

（是visio画的，图太大，放上来字看起来比较小，如果有需要的朋友留邮箱）

实时日志分析系统架构简介

系统主要分为四部分：

负责从各节点上实时采集数据，选用cloudera的flume来实现

由于采集数据的速度和数据处理的速度不一定同步，因此添加一个消息中间件来作为缓冲，选用apache的kafka

对采集到的数据进行实时分析，选用apache的storm

对分析后的结果持久化，暂定用mysql

操作系统：centos6.4

Flume是Cloudera提供的一个分布式、可靠、和高可用的海量日志采集、聚合和传输的日志收集系统，支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。

下图为flume典型的体系结构：

Flume数据源以及输出方式:

Flume提供了从console(控制台)、RPC(Thrift-RPC)、
text(文件)、tail(UNIX
tail)、syslog(syslog日志系统，支持TCP和UDP等2种模式)，exec(命令执行)等数据源上收集数据的能力,在我们的系统中目前
使用exec方式进行日志采集。

Flume的数据接受方，可以是console(控制台)、text(文件)、dfs(HDFS文件)、RPC(Thrift-RPC)和syslogTCP(TCP syslog日志系统)等。在我们系统中由kafka来接收。

Flume版本：1.4.0

Flume下载及文档：http://www.apache.org/dyn/closer.cgi/flume/1.4.0/apache-flume-1.4.0-bin.tar.gz

Flume安装：

$tar zxvf apache-flume-1.4.0-bin.tar.gz /usr/local

Flume启动命令：

$bin/flume-ng agent --conf conf --conf-file conf/flume-conf.properties --name producer -Dflume.root.logger=INFO,console

注意事项：需要更改conf目录下的配置文件，并且添加jar包到lib目录下。

Kafka是一个消息中间件，它的特点是:

1、关注大吞吐量，而不是别的特性

2、针对实时性场景

3、关于消息被处理的状态是在consumer端维护，而不是由kafka server端维护。

4、分布式，producer、broker和consumer都分布于多台机器上。

下图为kafka的架构图：

Kafka版本：0.8.0

Kafka下载及文档：http://kafka.apache.org/

Kafka安装：

> tar xzf kafka-<VERSION>.tgz

> cd kafka-<VERSION>

> ./sbt update

> ./sbt package

> ./sbt assembly-package-dependency Kafka

启动及测试命令：

（1） start server

> bin/zookeeper-server-start.sh config/zookeeper.properties

> bin/kafka-server-start.sh config/server.properties

（2）Create a topic
> bin/kafka-create-topic.sh --zookeeper localhost:2181 --replica 1 --partition 1 --topic test

> bin/kafka-list-topic.sh --zookeeper localhost:2181

（3）Send some messages

> bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test

（4）Start a consumer

> bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test --from-beginning

Storm是一个分布式的、高容错的实时计算系统。

Storm架构图：

storm工作任务topology：

Storm 版本：0.9.0

Storm 下载：Storm安装：

第一步，安装Python2.7.2

# wget http://www.python.org/ftp/python/2.7.2/Python-2.7.2.tgz

# tar zxvf Python-2.7.2.tgz

# cd Python-2.7.2

# ./configure

# make

# make install

# vi /etc/ld.so.conf

第二步，安装zookeeper（kafka自带zookeeper，如果选用kafka的，该步可省略）

#wget http://ftp.meisei-u.ac.jp/mirror/apache/dist//zookeeper/zookeeper-3.3.3/zoo keeper-3.3.3.tar.gz

# tar zxf zookeeper-3.3.3.tar.gz

# ln -s /usr/local/zookeeper-3.3.3/ /usr/local/zookeeper

# vi ~./bashrc (设置ZOOKEEPER_HOME和ZOOKEEPER_HOME/bin)

第三步，安装JAVA

$tar zxvf jdk-7u45-linux-x64.tar.gz /usr/local

jzmq的安装貌似是依赖zeromq的，所以应该先装zeromq，再装jzmq。

这是因为没有安装uuid相关的package。

# yum install e2fsprogs*

2）安装jzmq（非必须）

然
后，jzmq就装好了，这里有个网站上参考到的问题没有遇见，遇见的童鞋可以参考下。在./autogen.sh这步如果报
错：autogen.sh:error:could not find libtool is required to run
autogen.sh，这是因为缺少了libtool，可以用#yum
install libtool*来解决。

第五步，安装storm

$unzip storm-0.9.0-wip16.zip

备注：单机版不需要修改配置文件，分布式在修改配置文件时要注意：冒号后必须加空格。

测试storm是否安装成功：

1. 下载strom starter的代码 git clone 2. 使用mvn -f m2-pom.xml package 进行编译

如果没有安装过maven，参见如下步骤安装：
tar zxvf apache-maven-3.1.1-bin.tar.gz /usr/local

配置maven环境变量

export MAVEN_HOME=/usr/local/maven

export PATH=$PATH:$MAVEN_HOME/bin

验证maven是否安装成功:mvn -v

修改Storm-Starter的pom文件m2-pom.xml ，修改dependency中twitter4j-core 和 twitter4j-stream两个包的依赖版本，如下：
twitter4j-core

twitter4j-stream
[2.2,)

编译完后生成target文件夹

启动zookeeper

zkServer.sh start

启动nimbus supervisor ui

storm nimbus

storm supervisor

storm ui

jps查看启动状态

进入target目录执行：

storm jar storm-starter-0.0.1-SNAPSHOT-jar-with-dependencies.jar storm.starter.WordCountTopology wordcountTop

然后查看http://localhost:8080

注释：单机版不用修改storm.yaml

kafka和storm整合

1.下载kafka-storm0.8插件：2.该项目下载下来需要调试下，找到依赖jar包。然后重新打包，作为我们的storm项目的jar包。

3.将该jar包及kafka_2.9.2-0.8.0-beta1.jar metrics-core-2.2.0.jar scala-library-2.9.2.jar (这三个jar包在kafka-storm-0.8-plus项目依赖中能找到)

备注：如果开发的项目需要其他jar，记得也要放进storm的Lib中比如用到了mysql就要添加mysql-connector-java-5.1.22-bin.jar到storm的lib下

flume和kafka整合

1.下载flume-kafka-plus: 2.提取插件中的flume-conf.properties文件

修改该文件：#source section

producer.sources.s.type = exec
修改所有topic的值改为test

将改后的配置文件放进flume/conf目录下

在该项目中提取以下jar包放入环境中flume的lib下：

以上为单机版的flume+kafka+storm的配置安装

flume+storm插件

https://github.com/xiaochawan/edw-Storm-Flume-Connectors

安装好storm，flume，kafka之后开始项目部署启动（在部署启动之前最好按照安装文档进行storm kafka flume各个组件测试）。

第一步
将编写好的storm项目打成jar包放入服务器上，假如放在/usr/local/project/storm.xx.jar

注:关于storm项目的编写见安装文档中的 kafka和storm整合。

第二步

启动zookeeper(这里可以启动kafka自带的zookeeper或者启动单独安装的kafka，以下以kafka自带为例)

cd /usr/local/kafka

创建主题

注:因为kafka消息的offset是由zookeeper记录管理的，所以在此需指定zookeeper的ip,replica 表示该主题的消息被复制几份，partition 表示每份主题被分割成几部分。test表示主题名称。

> storm supervisor

cd /usr/local/project/

注：storm.xx.jar 为我们编写好的storm项目jar包，第一步完成的工作。 storm.testTopology 为storm项目中main方法所在的类路径。test为此次topology的名字。

第五步

启动flume

cd /usr/local/flume

bin/flume-ng agent --conf conf --conf-file conf/flume-conf.properties --name producer

注：flume.conf.properties为我们自定义的flume配置文件，flume安装好后是没有此文件的，需要我们自己编写，编写方式见flume安装的文章。

至此需要启动的程序已经全部启动，storm项目已经开始运行，可以打开storm ui 观察运行是否正常。

http://localhost:8080

注:此处ip为storm nimbus所在机器Ip 端口可在storm配置文件 storm/conf/storm.yaml中修改

flume+kafka+storm+mysql架构设计的更多相关文章

利用flume+kafka+storm+mysql构建大数据实时系统
架构图
大数据处理框架之Strom：Flume+Kafka+Storm整合
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 storm-0.9 apache-flume-1.6.0 ...
Flume+Kafka+storm的连接整合
Flume-ng Flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统. Flume的文档可以看http://flume.apache.org/FlumeUserGuide.html ...
Flume+Kafka+Storm+Hbase+HDSF+Poi整合
Flume+Kafka+Storm+Hbase+HDSF+Poi整合需求: 针对一个网站,我们需要根据用户的行为记录日志信息,分析对我们有用的数据. 举例:这个网站www.hongten.com(当 ...
简单测试flume+kafka+storm的集成
集成 Flume/kafka/storm 是为了收集日志文件而引入的方法,最终将日志转到storm中进行分析.storm的分析方法见后面文章,这里只讨论集成方法. 以下为具体步骤及测试方法: 1.分别 ...
Flume+Kafka+Storm整合
Flume+Kafka+Storm整合 1. 需求: 有一个客户端Client可以产生日志信息,我们需要通过Flume获取日志信息,再把该日志信息放入到Kafka的一个Topic:flume-to-k ...
MySQL架构设计谈：从开发规范、选型、拆分到减压(转)
作者介绍李辉,原新浪爱彩票运维负责人,常用网名:门牙没了.曾主导新浪爱彩票的MySQL运维工作.培训合伙人.资深讲师,中国科学院大学在读研究生(大数据方向),擅长大型项目的关系型数据库运维和管理,现 ...
一次简单的springboot+dubbo+flume+kafka+storm+redis系统
最近无事学习一下,用springboot+dubbo+flume+kafka+storm+redis做了一个简单的scenic系统 scenicweb:展现层,springboot+dubbo sce ...
Flume+Kafka+Storm+Redis 大数据在线实时分析
1.实时处理框架即从上面的架构中我们可以看出,其由下面的几部分构成: Flume集群 Kafka集群 Storm集群从构建实时处理系统的角度出发,我们需要做的是,如何让数据在各个不同的集群系统之间 ...

随机推荐

abap Excel 导入
ABAP 将EXECL数据导入SAP内表的几个步骤. 本文转自:http://blog.csdn.net/szlaptop/article/details/8663451 http://www.c ...
扩展 Yii2 自带的日志组件
<?php /** * author : forecho <caizhenghai@gmail.com> * createTime : 2015/12/22 18:13 * desc ...
iOS 图文混排链接可点击
对于这个话题我想到 1 第一个解决方法就是使用 webView 比较经典把所有复杂工作都交给控件本身去处理了, 但是好像好多需要自定义的地方没法从 webView获得响应回调 :(估计也可以实 ...
0428 正则表达式 re模块
复习异常处理try except 一定要在except之后写一些提示或者处理的内容 try: '''可能会出现异常的代码'''except ValueError: '''打印一些提示或者处理的内容' ...
python中reduce()函数
reduce()函数也是Python内置的一个高阶函数.reduce()函数接收的参数和 map()类似,一个函数 f,一个list,但行为和 map()不同,reduce()传入的函数 f 必须接收 ...
斯坦福机器学习视频笔记 Week3 逻辑回归与正则化 Logistic Regression and Regularization
我们将讨论逻辑回归. 逻辑回归是一种将数据分类为离散结果的方法. 例如,我们可以使用逻辑回归将电子邮件分类为垃圾邮件或非垃圾邮件. 在本模块中,我们介绍分类的概念,逻辑回归的损失函数(cost fun ...
STL 之map解决 Message Flood（原字典树问题）
Message Flood Time ...
【JavaScript学习整理】DOM对象(location history screen navigator)
DOM: 描述网页各个组成部分之间的关系. parentNode: 父节点 childNode: 子节点 firstChild: 第一个子节点 lastChild: 最后一个子节点 nextSibli ...
springmvc的优化
二.springmvc的工作机制在容器初始化时会建立所有url和controller的对应关系,保存到Map<url,controller>中.tomcat启动时会通知spring初始化 ...
Mysql Java 驱动安装
怎么安装MYSQL的JDBC驱动 1.下载mysql for jdbc driver. http://dev.mysql.com/downloads/connector/j/5.0.html 2.解压 ...

flume+kafka+storm+mysql架构设计

实时日志分析系统架构简介

操作系统：centos6.4

Storm是一个分布式的、高容错的实时计算系统。

flume+kafka+storm+mysql架构设计的更多相关文章

随机推荐

热门专题