Flume:Flume是一个分布式,可依赖的,用于高效率的收集.聚类.移动大量数据的服务.Flume使用基于流数据的简单而且可扩展的架构.由于拥有可调的依赖机制和许多故障恢复机制,Flume是健壮而且容错的.Flume使用简单的可扩展的数据模型,能够用于在线数据分析. 官网:http://flume.apache.org/index.html zeppelin:一个能够用来做交互数据分析的基于网页的笔记本.可以用sql和scala或者其他更多语言做出来漂亮的交互文档.https://zeppel…
1. flume安装 (1)下载:wget http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.6.0-cdh5.7.1.tar.gz (2)解压:tar zxvf flume-ng-1.6.0-cdh5.7.1.tar.gz (3)环境变量: export FLUME_HOME=/xxx/soft/apache-flume-1.6.0-cdh5.7.1-bin export PATH=$PATH:$FLUME_HOME/bin source /e…
生成本地log最好生成多个文件放在一个文件夹里,特别多的时候一个小时一个文件 配置好Nginx后,通过flume收集日志到hdfs 可参考flume的文件 用flume的案例二 执行的注意点 avro和exec联合用法 https://blog.csdn.net/HG_Harvey/article/details/78358304 exec实质是收集文件  spool用法 https://blog.csdn.net/a_drjiaoda/article/details/84954593 或者下面…
nginx的日志文件没有rotate功能.如果你不处理,日志文件将变得越来越大,还好我们可以写一个nginx日志切割脚本来自动切割日志文件.第一步就是重命名日志文件,不用担心重命名后nginx找不到日志文件而丢失日志.在你未重新打开原名字的日志文件前,nginx还是会向你重命名的文件写日志,linux是靠文件描述符而不是文件名定位文件.第二步向nginx主进程发送USR1信号.nginx主进程接到信号后会从配置文件中读取日志文件名称,重新打开日志文件(以配置文件中的日志名称命名),并以工作进程的…
本次遇到的问题描述,日志采集同步时,当单条日志(日志文件中一行日志)超过2M大小,数据无法采集同步到kafka,分析后,共踩到如下几个坑.1.flume采集时,通过shell+EXEC(tail -F xxx.log 的方式) source来获取日志时,当单条日志过大超过1M时,source端无法从日志中获取到Event.2.日志超过1M后,flume的kafka sink 作为生产者发送给日志给kafka失败,kafka无法收到消息.以下针对踩的这两个坑做分析,flume 我使用的是1.9.0…
原文地址:http://luxuryzh.iteye.com/blog/1980364 对于一个已经上线的系统,存在未知的bug或者运行时发生异常是很常见的事情,随之而来的几点需求产生了: 1.系统发生异常时是否能够通过日志查看到具体原因 2.怎样第一时间扑捉到异常 3.系统都出现了哪些异常 4.哪些异常出现频率高      第一点好解决,利用log4j.logback等日志框架把异常信息(stacktrace,params)打印到日志文件,可以在查找时很方便看到相信信息.但是这样往往具有滞后性…
场景需求 在使用ELK对日志进行收集的时候,如果需要对数据进行存档,可以考虑使用数据库的方式.为了便于查询,可以同时写一份数据到Elasticsearch 中. 环境准备 CentOS7系统: 192.168.20.60 node1 Kibana ES Logstash Nginx 192.168.20.61 node2 ES MariaDB这里使用收集Nginx日志到数据库和ES中作为示例. 配置数据库 安装好数据库后,配置,并授权: MariaDB [(none)]> create data…
随着 systemd 成了主流的 init 系统,systemd 的功能也在不断的增加,比如对系统日志的管理.Systemd 设计的日志系统好处多多,这里笔者就不再赘述了,本文笔者主要介绍 systemd journal 收集日志的三种方式: 程序使用 libc 库中的 syslog() 函数输出的日志 使用 printf() 函数打印的日志 任何服务进程输出到 STDOUT/STDERR 的所有内容 说明:本文的演示环境为 ubuntu 16.04. syslog() 该函数的声明如下: #i…
nswl 收集日志 参考链接:https://docs.citrix.com/en-us/citrix-adc/12-1/system/web-server-logging.html PS C:\Users\LSGX\Desktop\xxx\bin> .\nswl.exe -help usage : nswl -[cmds] [cmd arguments] cmds cmd arguments: -f <filename> -d debug -help - detail help -st…
fluentd-pilot简介 fluentd-pilot是阿里开源的docker日志收集工具,Github项目地址:https://github.com/AliyunContainerService/fluentd-pilot .你可以在每台机器上部署一个fluentd-pilot实例,就可以收集机器上所有Docker应用日志. fluentd-pilot 具有如下特性: 一个单独的 fluentd 进程收集机器上所有容器的日志.不需要为每个容器启动一个 fluentd 进程. 支持文件日志和…