大数据应用日志采集之Scribe演示实例完全解析

引子：

　　Scribe是Facebook开源的日志收集系统，在Facebook内部已经得到大量的应用。它能够从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS，分布式文件系统等）上，以便于进行集中统计分析处理。它为日志的“分布式收集，统一处理”提供了一个可扩展的，高容错的方案。当中央存储系统的网络或者机器出现故障时，scribe会将日志转存到本地或者另一个位置，当中央存储系统恢复后，scribe会将转存的日志重新传输给中央存储系统。其通常与Hadoop结合使用，scribe用于向HDFS中push日志，而Hadoop通过MapReduce作业进行定期处理。

　　Scribe从各种数据源上收集数据，放到一个共享队列上，然后push到后端的中央存储系统上。当中央存储系统出现故障时，scribe可以暂时把日志写到本地文件中，待中央存储系统恢复性能后，scribe把本地日志续传到中央存储系统上。需要注意的是，各个数据源须通过thrift（由于采用了thrift，客户端可以采用各种语言编写向scribe传输数据（每条数据记录包含一个category和一个message）。可以在scribe配置用于监听端口的thrift线程数（默认为3）。在后端，scribe可以将不同category的数据存放到不同目录中，以便于进行分别处理。后端的日志存储方式可以是各种各样的store，包括file（文件），buffer（双层存储，一个主储存，一个副存储），network（另一个scribe服务器），bucket（包含多个store，通过hash的将数据存到不同store中），null(忽略数据)，thriftfile（写到一个 Thrift TFileTransport文件中）和multi（把数据同时存放到不同store中）。

　　本文通过3个实例程序，分别演示scribe后端存储为file、network和buffer时的操作方法和流程，演示示例程序位于scribe/examples目录，目录结构如下所示：[hadoop@hadoop1 examples]$ ls
example1.conf example2client.conf hdfs_example.conf scribe_cat
example2central.conf hdfs_example2.conf README scribe_ctrl

一、Example1：file

　　#step_01：创建消息文件存放目录
　　　　mkdir /tmp/scribetest
　　#step_02：启动Scribe
　　　　src/scribed examples/example1.conf
　　#step_03：发送消息到scribe
　　　　echo "hello world" | ./scribe_cat test
　　#step_04: 验证消息记录
　　　　cat /tmp/scribetest/test/test_current
　　#step_05: 检查scribe状态
　　　　./scribe_ctrl status
　　#step_06: 查看scribe计数
　　　　./scribe_ctrl counters
　　#step_07: 停止scribe运行
　　　　./scribe_ctrl stop

二、Example2：Network

　　#step_01:创建工作目录
　　mkdir /tmp/scribetest2
　　#step_02:启动中心scribe程序，服务端口1463，记录方式为file
　　src/scribed examples/example2central.conf
　　#step_03:启动中心client程序，服务端口1464，存储模式为Network，写入消息到中心scribe
　　src/scribed examples/example2client.conf
　　#step_04：发送消息到client scribe
　　echo "test message" | ./scribe_cat -h localhost:1464 test2
　　echo "this message will be ignored" | ./scribe_cat -h localhost:1464 ignore_me
　　echo "123:this message will be bucketed" | ./scribe_cat -h localhost:1464 bucket_me

　　#step_05：验证消息被中心scribe接收和记录到文件
　　cat /tmp/scribetest/test2/test2_current
　　#step_06：验证消息分组，不同category的数据存放到不同目录中
　　cat /tmp/scribetest/bucket*/bucket_me_current

　　#step_07：状态检查消息计数检查，如果管理命令不加参数默认为1643
　　./scribe_ctrl status 1463
　　./scribe_ctrl status 1464
　　./scribe_ctrl counters 1463
　　./scribe_ctrl counters 1464　　
　　#step_08：关闭服务进程
　　./scribe_ctrl stop 1463
　　./scribe_ctrl stop 1464

三、Example3：buffer

　　#step_01：启动中心scribe，服务端口1463
　　src/scribed examples/example2central.conf
　　#step_02：启动客户端scribe，服务端口1464
　　src/scribed examples/example2client.conf
　　#step_03：发送消息到客户端scribe
　　echo "test message 1" | ./scribe_cat -h localhost:1464 test3
　　#step_04：验证消息是否接受，在中心scribe消息存储目录查找
　　cat /tmp/scribetest/test3/test3_current
　　#step_05：停止中心scribe服务，我们期待看到结果是缓存
　　./scribe_ctrl stop 1463
　　#step_06：验证中心scribe运行状态
　　./scribe_ctrl status 1463

　　#step_07：发送消息到客户端-此时消息期待结果是缓存
　　echo "test message 2" | ./scribe_cat -h localhost:1464 test3
　　#step_08：超时客户端scribe会有报警信息
　　./scribe_ctrl status 1464
　　#step_09:重启中心scribe
　　src/scribed examples/example2central.conf
　　#step_10:验证scribe状态
　　./scribe_ctrl status 1463
　　./scribe_ctrl status 1464

　　#step_10:验证中心scribe是否接收到缓存的消息
　　cat /tmp/scribetest/test3/test3_current
　　#step_11:关闭服务进程
　　./scribe_ctrl stop 1463
　　./scribe_ctrl stop 1464

四、工作流程

　　通过以上实例，我们可以看到scribe核心的工作原理和处理流程，具体流程如下图所示：

作者：张子良
出处：http://www.cnblogs.com/hadoopdev
本文版权归作者所有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

分类: 大数据

大数据应用日志采集之Scribe演示实例完全解析的更多相关文章

大数据应用日志采集之Scribe 安装配置指南
大数据应用日志采集之Scribe 安装配置指南大数据应用日志采集之Scribe 安装配置指南 1.概述 Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用.它 ...
大数据抓取采集框架(摘抄至http://blog.jobbole.com/46673/)
摘抄至http://blog.jobbole.com/46673/ 随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前.如何能够做到所见即所得的无阻拦式采集.如 ...
面试系列二：精选大数据面试真题JVM专项-附答案详细解析
公众号(五分钟学大数据)已推出大数据面试系列文章-五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂! 大数据笔面试系列文章分为两种类型: ...
大数据时代日志分析平台ELK的搭建
A,首先说说ELK是啥, ELK是ElasticSearch . Logstash 和 Kiabana 三个开源工具组成.Logstash是数据源,ElasticSearch是分析数据的,Kiaba ...
大数据学习——JAVA采集程序
1 需求从外部购买数据,数据提供方会实时将数据推送到6台FTP服务器上,我方部署6台接口采集机来对接采集数据,并上传到HDFS中提供商在FTP上生成数据的规则是以小时为单位建立文件夹(2016-0 ...
[大数据之Spark]——Transformations转换入门经典实例
Spark相比于Mapreduce的一大优势就是提供了很多的方法,可以直接使用:另一个优势就是执行速度快,这要得益于DAG的调度,想要理解这个调度规则,还要理解函数之间的依赖关系. 本篇就着重描述下S ...
[大数据之Spark]——Actions算子操作入门实例
Actions reduce(func) Aggregate the elements of the dataset using a function func (which takes two ar ...
【原创】大数据基础之Flume（2）Sink代码解析
flume sink核心类结构 1 核心接口Sink org.apache.flume.Sink /** * <p>Requests the sink to attempt to cons ...
入门大数据---通过Yarn搭建MapReduce和应用实例
上一篇中我们了解了MapReduce和Yarn的基本概念,接下来带领大家搭建下Mapreduce-HA的框架. 结构图如下: 开始搭建: 一.配置环境注:可以现在一台计算机上进行配置,然后分发给其它 ...

随机推荐

MVC验证08-jQuery异步验证
原文:MVC验证08-jQuery异步验证本文主要体验通过jQuery异步验证. 在很多的教材和案例中,MVC验证都是通过提交表单进行的.通过提交表单,可以很容易获得验证出错信息.因为,无论是客户端 ...
多线程学习之五超时模式Timer
timed[超时模式]案例:一个线程提供下载数据,另一个线程执行下载,如果有5秒钟以上,提供下载的线程没有提供数据,下载线程因超时异常,停止下载线程运行. 超时异常类 /** * */ package ...
post与get,这两人到底神马区别？？
甲曰:“1. GET使用URL或Cookie传参.而POST将数据放在BODY中. 2. GET的URL会有长度上的限制,则POST的数据则可以非常大. 3. POST比GET安全,因为数据在地址栏上 ...
loadrunner监控度量项及中文解释
1. Number of Concurrent Users (NCU) 并发用户数 – 在指定时刻,系统观察到的并发用户连接数. 2. Request Per Second (RPS) 每秒处理请求数 ...
一个简单的dom查询函数
var regid = /^#([\w-]*)$/, regClass = /^\.([\w-]*)$/, regName = /^(div|a|p|ul|li|input|select|docume ...
Chapter 1 Securing Your Server and Network(1):选择SQL Server业务经理
原版的:http://blog.csdn.net/dba_huangzj/article/details/37924127 ,专题文件夹:http://blog.csdn.net/dba_huang ...
Spring IOC 之Bean定义的继承
一个Bean的定义可以包含大量的配置信息,包括构造器参数.属性值以及容器规范信息,比如初始化方法.静态工厂方法名字等等.一子bean的定义可以从父bean的定义中继承配置数据信息.子bean定义可以覆 ...
VS2010新建Web网站与新建Web应用程序的区别
在Visual Studio 2010中,除了可以使用“创建Web应用程序”的方式来构建自己的Web项目之外,还可以通过创建“Web网站”的方式来构建Web项其中,Web网站的创建方法:打开Visua ...
C++关于数字逆序输出的两种思路，及字符串逆序输出
C++关于数字逆序输出的两种思路,及字符串逆序输出作者:GREATCOFFEE 发布时间:NOVEMBER 15, 2012 分类:编程的艺术最近在跟女神一起学C++(其实我是不怀好意),然后女神 ...
SufaceView（绘图类）
public class MainActivity extends Activity { GrameView grameView; @Override public void onCreate(Bun ...

大数据应用日志采集之Scribe演示实例完全解析

大数据应用日志采集之Scribe演示实例完全解析的更多相关文章

随机推荐

热门专题