flume hdfs一些简单配置记忆
############################################
# producer config
############################################
#agent section
producer.sources = s
producer.channels = c c1 c2
producer.sinks = r h es #source section
producer.sources.s.type =exec
producer.sources.s.command = tail -f /usr/local/nginx/logs/test1.log
#producer.sources.s.type = spooldir
#producer.sources.s.spoolDir = /usr/local/nginx/logs/
#producer.sources.s.fileHeader = true producer.sources.s.channels = c c1 c2 producer.sources.s.interceptors = i
#不支持忽略大小写
producer.sources.s.interceptors.i.regex = .*\.(css|js|jpg|jpeg|png|gif|ico).*
producer.sources.s.interceptors.i.type = org.apache.flume.interceptor.RegexFilteringInterceptor$Builder
#不包含
producer.sources.s.interceptors.i.excludeEvents = true ############################################
# hdfs config
############################################
producer.channels.c.type = memory
#Timeout in seconds for adding or removing an event
producer.channels.c.keep-alive= 30
producer.channels.c.capacity = 10000
producer.channels.c.transactionCapacity = 10000
producer.channels.c.byteCapacityBufferPercentage = 20
producer.channels.c.byteCapacity = 800000 producer.sinks.r.channel = c producer.sinks.r.type = avro
producer.sinks.r.hostname = 127.0.0.1
producer.sinks.r.port = 10101
############################################
# hdfs config
############################################
producer.channels.c1.type = memory
#Timeout in seconds for adding or removing an event
producer.channels.c1.keep-alive= 30
producer.channels.c1.capacity = 10000
producer.channels.c1.transactionCapacity = 10000
producer.channels.c1.byteCapacityBufferPercentage = 20
producer.channels.c1.byteCapacity = 800000 producer.sinks.h.channel = c1 producer.sinks.h.type = hdfs
#目录位置
producer.sinks.h.hdfs.path = hdfs://127.0.0.1/tmp/flume/%Y/%m/%d
#文件前缀
producer.sinks.h.hdfs.filePrefix=nginx-%Y-%m-%d-%H
producer.sinks.h.hdfs.fileType = DataStream
#时间类型必加,不然会报错
producer.sinks.h.hdfs.useLocalTimeStamp = true
producer.sinks.h.hdfs.writeFormat = Text
#hdfs创建多长时间新建文件,0不基于时间
#Number of seconds to wait before rolling current file (0 = never roll based on time interval)
producer.sinks.h.hdfs.rollInterval=0
hdfs多大时新建文件,0不基于文件大小
#File size to trigger roll, in bytes (0: never roll based on file size)
producer.sinks.h.hdfs.rollSize = 0
#hdfs有多少条消息时新建文件,0不基于消息个数
#Number of events written to file before it rolled (0 = never roll based on number of events)
producer.sinks.h.hdfs.rollCount = 0
#批量写入hdfs的个数
#number of events written to file before it is flushed to HDFS
producer.sinks.h.hdfs.batchSize=1000
#flume操作hdfs的线程数(包括新建,写入等)
#Number of threads per HDFS sink for HDFS IO ops (open, write, etc.)
producer.sinks.h.hdfs.threadsPoolSize=15
#操作hdfs超时时间
#Number of milliseconds allowed for HDFS operations, such as open, write, flush, close. This number should be increased if many HDFS timeout operations are occurring.
producer.sinks.h.hdfs.callTimeout=30000
| hdfs.round | false | Should the timestamp be rounded down (if true, affects all time based escape sequences except %t) |
| hdfs.roundValue | 1 | Rounded down to the highest multiple of this (in the unit configured using hdfs.roundUnit), less than current time. |
| hdfs.roundUnit | second | The unit of the round down value - second, minute or hour. |
############################################
# elasticsearch config
############################################
producer.channels.c2.type = memory
#Timeout in seconds for adding or removing an event
producer.channels.c2.keep-alive= 30
producer.channels.c2.capacity = 10000
producer.channels.c2.transactionCapacity = 10000
producer.channels.c2.byteCapacityBufferPercentage = 20
producer.channels.c2.byteCapacity = 800000 producer.sinks.es.channel = c2 producer.sinks.es.type = org.apache.flume.sink.elasticsearch.ElasticSearchSink
producer.sinks.es.hostNames = 127.0.0.1:9300
#Name of the ElasticSearch cluster to connect to
producer.sinks.es.clusterName = sunxucool
#Number of events to be written per txn.
producer.sinks.es.batchSize = 1000
#The name of the index which the date will be appended to. Example ‘flume’ -> ‘flume-yyyy-MM-dd’
producer.sinks.es.indexName = flume_es
#The type to index the document to, defaults to ‘log’
producer.sinks.es.indexType = test
producer.sinks.es.serializer = org.apache.flume.sink.elasticsearch.ElasticSearchLogStashEventSerializer
flume hdfs一些简单配置记忆的更多相关文章
- Flume初入门简单配置与使用
1.Flume在集群中扮演的角色 Flume.Kafka用来实时进行数据收集,Spark.Storm用来实时处理数据,impala用来实时查询. 2.Flume框架简介 1.1 Flume提供一个分布 ...
- Flume + HDFS + Hive日志收集系统
最近一段时间,负责公司的产品日志埋点与收集工作,搭建了基于Flume+HDFS+Hive日志搜集系统. 一.日志搜集系统架构: 简单画了一下日志搜集系统的架构图,可以看出,flume承担了agent与 ...
- flume从kafka读取数据到hdfs中的配置
#source的名字 agent.sources = kafkaSource # channels的名字,建议按照type来命名 agent.channels = memoryChannel # si ...
- [bigdata] 使用Flume hdfs sink, hdfs文件未关闭的问题
现象: 执行mapreduce任务时失败 通过hadoop fsck -openforwrite命令查看发现有文件没有关闭. [root@com ~]# hadoop fsck -openforwri ...
- Flume的安装与配置
Flume的安装与配置 一. 资源下载 资源地址:http://flume.apache.org/download.html 程序地址:http://apache.fayea.com/fl ...
- kafka+flume+HDFS日志采集项目框架
1,项目图如下: 2, 实现过程 启动HDFS: sbin/start-dfs.sh 启动zookeeper(三台): bin/zkServer.sh start 启动kafka(三台): root@ ...
- 使用QJM实现HDFS的HA配置
使用QJM实现HDFS的HA配置 1.背景 hadoop 2.0.0之前,namenode存在单点故障问题(SPOF,single point of failure),如果主机或进程不可用时,整个集群 ...
- 小丁带你走进git世界一-git简单配置
小丁带你走进git世界一-git简单配置 1.github的简单配置 配置提交代码的信息,例如是谁提交的代码之类的. git config –global user.name BattleHeaer ...
- 以实际的WebGIS例子探讨Nginx的简单配置
文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/ 1.背景 以实际项目中的一个例子来详细讲解Nginx中的一般配置,其中涉 ...
随机推荐
- 华为S5300系列升级固件S5300SI-V200R001C00SPC300.cc
附带web,V200版本的第一个固件. 附件: 链接:https://pan.baidu.com/s/1QyXIIVho9AkhxUFYJYAkcw 密码:gaxm
- IntelliJ IDEA部署tomcat时Edit Configuration无artifact选项
IntelliJ使用 ##使用IntelliJ IDEA配置web项目时,选择Edit Configration部署Tomcat的Deployment可能会出现以下情况: 导致新手部署过程中摸不着头脑 ...
- ansible saltstart puppet
百台以下用ansible , 百台-千台用saltstart , 千台以上用puppet
- spring事務
spring事物 spring事物其实就是对数据库事物的一种支持,没有数据库事物的话,spring本身是不能提供事物支持的: 在最开始使用原始的jdbc连接数据库进行炒操作是, 获取连接后可以使用co ...
- git 查看commit提交的内容
在使用git的过程中,我们经常需要查看某次commit修改了哪些内容,与之相关的命令就是: git log git show 首先,需要通过git log打印所有commit hashID,之后的gi ...
- 深入理解多线程(一)——Synchronized的实现原理
synchronized,是Java中用于解决并发情况下数据同步访问的一个很重要的关键字.当我们想要保证一个共享资源在同一时间只会被一个线程访问到时,我们可以在代码中使用synchronized关键字 ...
- Android Protobuf应用及原理
前言 之前一直忙于移动端日志SDK Trojan的开源工作,已十分稳定地运行在饿了么团队App中,集成了日志加密和解密功能.哎呀,允许我卖个狗皮膏药,不用不知道,用了就知道,从此爱不释手,Trojan ...
- 正则表达式和grep
本章主要通过一些应用实例,来对正则表达式进行说明. 1.正则表达式 正则表达式就是字符串的表达式.它能通过具有意义的特殊符号表示一列或多列字符串.grep是linux系统下常用的正则表达式工具,可以使 ...
- Navicat Premium 12全系列
Navicat 是香港卓软数码科技有限公司生产的一系列 MySQL.MariaDB.Oracle.SQLite.PostgreSQL 及 Microsoft SQL Server 的图形化数据库管理及 ...
- 几个不同版本的framework改进
一些主要的演变过程及改进,还有很多部分不可能一一列出,下面是从1.1到4.0的一些主要改进: 一..NET Framework 1.1版本 1.ASP.NET移动控件 2.ADO.NET的改动 添加S ...