利用Flume采集IIS日志到HDFS
1.下载flume 1.7
到官网上下载 flume 1.7版本
2.配置flume配置文件
刚开始的想法是从IIS--->Flume-->Hdfs
但在采集的时候一直报错,无法直接连接到远程的hdfs
- 22 二月 2017 14:59:04,566 WARN [SinkRunner-PollingRunner-DefaultSinkProcessor] (org.apache.flume.sink.hdfs.HDFSEventSink.process:443) - HDFS IO error
- java.io.IOException: Callable timed out after 10000 ms on file: hdfs://192.168.1.75:9008/iis/2017-02-22/u_ex151127.log.1487746609021.tmp
- at org.apache.flume.sink.hdfs.BucketWriter.callWithTimeout(BucketWriter.java:682)
- at org.apache.flume.sink.hdfs.BucketWriter.open(BucketWriter.java:232)
- at org.apache.flume.sink.hdfs.BucketWriter.append(BucketWriter.java:504)
- at org.apache.flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:406)
- at org.apache.flume.sink.DefaultSinkProcessor.process(DefaultSinkProcessor.java:67)
- at org.apache.flume.SinkRunner$PollingRunner.run(SinkRunner.java:145)
- at java.lang.Thread.run(Thread.java:745)
- Caused by: java.util.concurrent.TimeoutException
- at java.util.concurrent.FutureTask.get(FutureTask.java:205)
- at org.apache.flume.sink.hdfs.BucketWriter.callWithTimeout(BucketWriter.java:675)
- ... 6 more
所以后面有选用折中的办法,从 windows flume 采集到linux的flume,再到hdfs
IIS-->(Windows)Flume-->(Linux)Flume-->Hdfs
采集端windows flume配置文件如下:
- a1.sources = r1
- a1.sinks = k1
- a1.channels = c1
- # Describe/configure the source
- a1.sources.r1.type = spooldir
- a1.sources.r1.channels = c1
- a1.sources.r1.spoolDir = C:\\inetpub\\logs\\LogFiles\\W3SVC4
- a1.sources.r1.fileHeader = true
- a1.sources.r1.basenameHeader = true
- a1.sources.r1.basenameHeaderKey = fileName
- a1.sources.r1.ignorePattern = ^(.)*\\.tmp$
- a1.sources.r1.interceptors = i1
- a1.sources.r1.interceptors.i1.type = timestamp
- a1.sinks.k1.type = avro
- a1.sinks.k1.hostname = 192.168.1.75
- a1.sinks.k1.port = 44444
- # Use a channel which buffers events in memory
- a1.channels.c1.type=memory
- a1.channels.c1.capacity=10000
- a1.channels.c1.transactionCapacity=1000
- a1.channels.c1.keep-alive=30
- # Bind the source and sink to the channel
- a1.sources.r1.channels = c1
- a1.sinks.k1.channel = c1
其中主要就是将sinks配置到linux中的flume地址,采集目录就是IIS的某个网站日志文件地址:C:\\inetpub\\logs\\LogFiles\\W3SVC4
接收端linux flume的配置如下:
- tier1.sources=source1
- tier1.channels=channel1
- tier1.sinks=sink1
- tier1.sources.source1.type=avro
- tier1.sources.source1.bind=192.168.1.75
- tier1.sources.source1.port=44444
- tier1.sources.source1.channels=channel1
- tier1.channels.channel1.type=memory
- tier1.channels.channel1.capacity=10000
- tier1.channels.channel1.transactionCapacity=1000
- tier1.channels.channel1.keep-alive=30
- tier1.sinks.sink1.channel=channel1
- tier1.sinks.sink1.type = hdfs
- tier1.sinks.sink1.hdfs.path = hdfs://127.0.0.1:9008/iis
- tier1.sinks.sink1.hdfs.writeFormat = Text
- tier1.sinks.sink1.hdfs.fileType = DataStream
- tier1.sinks.sink1.hdfs.rollInterval = 0
- tier1.sinks.sink1.hdfs.rollSize = 0
- tier1.sinks.sink1.hdfs.rollCount = 0
- tier1.sinks.sink1.hdfs.filePrefix = localhost-%Y-%m-%d
- tier1.sinks.sink1.hdfs.useLocalTimeStamp = true
- tier1.sinks.sink1.hdfs.idleTimeout = 60
3.启动linux中的flume
- ./flume-ng agent -c ../conf -f ../conf/avro_hdfs.conf -n tier1 -Dflume.root.logger=DEBUG,console
4.启动windows中的flume
需要在flume的bin目录中启动
- flume-ng.cmd agent --conf ..\conf --conf-file ..\conf\avro.conf --name a1
利用Flume采集IIS日志到HDFS的更多相关文章
- Flume采集Nginx日志到HDFS
下载apache-flume-1.7.0-bin.tar.gz,用 tar -zxvf 解压,在/etc/profile文件中增加设置: export FLUME_HOME=/opt/apache-f ...
- Centos7 搭建 Flume 采集 Nginx 日志
版本信息 CentOS: Linux localhost.localdomain 3.10.0-862.el7.x86_64 #1 SMP Fri Apr 20 16:44:24 UTC 2018 x ...
- 利用LogParser将IIS日志插入到数据库
利用LogParser将IIS日志插入到数据库 上面的博文是定制一个计划任务来将log日志定时的导入数据库 下面这篇博文是用cmd指令将日志导入到一张sql表中,是一次性操作 Log P ...
- 【Logstash系列】使用Logstash作为收集端采集IIS日志
现阶段Logstash在Windows端的日志采集一直存在若干问题,包括: 1. LS有读锁:进程开启后Input指定路径下的所有文件都会被锁死无法重命名或删除. 2. LS不识别*:如果在pat ...
- Flume采集处理日志文件
Flume简介 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据 ...
- 利用LogParser分析IIS日志
LogParser是微软官方出品的用于读取分析IIS日志的工具,使用类SQL语句过滤文本日志内容,并可将内容导出到csv.sqlserver作进一步分析 下载地址:http://www.micr ...
- flume采集log4j日志到kafka
简单测试项目: 1.新建Java项目结构如下: 测试类FlumeTest代码如下: package com.demo.flume; import org.apache.log4j.Logger; pu ...
- 知方可补不足~利用LogParser将IIS日志插入到数据库
回到目录 LogParser是微软开发的一个日志分析工具,它是命令行格式的,我们通过这个工具,可以对日志文件进行操作,对于一个几百兆的log文件,使用记事本打开是件很残酷的事,所以,很多情况下,我们都 ...
- 利用Flume将MySQL表数据准实时抽取到HDFS
转自:http://blog.csdn.net/wzy0623/article/details/73650053 一.为什么要用到Flume 在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取 ...
随机推荐
- Delphi Math里的基本函数,以及浮点数比较函数(转)
源:Delphi Math里的基本函数,以及浮点数比较函数 Delphi里的好东西太多,多到让人觉得烦.这种感觉就是当年打游戏<英雄无敌3>,改了钱以后,有钱了每天都要造建筑,明明是好事, ...
- Cocos2d-x 的“HelloWorld” 深入分析
本节所用Cocos2d-x版本:cocos2d-1.0.1-x-0.12.0 不能免俗,一切都从“HelloWorld!”开始.打开HelloWorld工程,里面有两个文件目录Classes和win3 ...
- angular登录状态检查
待补充!!!!!!!!!!! 参加链接: http://www.brafox.com/post/2015/javascript/angularjs/angularjs-router-intercept ...
- ARM处理器简介
参考: http://www.arm.com/zh/products/processors/instruction-set-architectures/index.php 1.ARM核演变图 2.AR ...
- vim设置注意记录
set vb t_vb= setlocal buftype = "解决不能保存buff错误
- 一个完整的PHP类包含的七种语法说明
类中的七种语法说明 -属性 -静态属性 -方法 -静态方法 -类常量 -构造函数 -析构函数 <?php class Student { // 类里的属性.方法和函数的访问权限有 (函数和方法是 ...
- 第6组UI组件:ViewAnimator及其子类
ViewAnimator是一个基类,它继承了FrameLayout,因此它表现出FrameLayout的特征,可以将多个View组件“叠”在一起.ViewAnimator额外增加的功能正如它的名字所暗 ...
- Everything开机自启
第一步:关闭自动启动 在设置中关闭everything开机自动启动. 第二步:创建计划任务 点击“开始”—“任务计划程序”—“创建任务” 首先设置任务的名称等,注意一定要勾选“使用最高权限运行”. 然 ...
- WPF中将16进制颜色码转换成SolidColorBrush
使用ColorConverter.ConvertFromString(string colorValue)方法 例如:new SolidColorBrush((Color)ColorConverter ...
- Java高级特性之泛型
首先我们先提出两个问题: 什么是泛型? 为什么要使用泛型?我们先来看看第一个问题什么是泛型.如果你对Java三大特性中的多态性理解的比较透彻的话,泛型就比较好理解了.多态性表示一个对象具备多种状态.比 ...