05_Nginx日志分析
如果不进行过滤,ES中存储的Nginx的日志是整行日志,在Kibana页面中只能查看到整行的日志,并没有其他太多的价值,所以我们需要对日志进行分割过滤,更有利于进行日志的分析。
学习本章需要具备一定的正则表达式知识
正则表达式
普通正则表达
表达式 | 含义 |
---|---|
. | 任意一个字符 |
* | 前面一个字符出现0次或者多次 |
[abc] | 中括号内任意一个字符 |
[^adc] | 非中括号内的字符 |
[0-9] | 数字 |
[a-z] | 小写字母 |
[A-Z] | 大写字母 |
[a-zA-Z0-9] | 所有的字母和数字 |
^xx | 以xx开头 |
xx$ | 以xx结尾 |
\d | 数字 |
\s | 空白字符 |
扩展正则表达式
表达式 | 含义 |
---|---|
? | 前面的字符出现0或者1次 |
+ | 前面的字符出现1或者多次 |
{n} | 前面的字符匹配n次 |
{a,b} | 前面的字符匹配a到b次 |
{,b} | 前面的字符匹配0到b次 |
{a,} | 前面的字符出现a到a+次 |
(string1 | string2) | string1 或者 string2 |
这里只是简单的列举了一些正则表达式,如果想要详细学习正则表达式的可以百度,有很多文档都写的很详细。
分享一个工具,平时自己写完正则表达式可以作为测试使用 http://tool.oschina.net/regex/
Nginx日志分析
Nginx日志说明
'$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
该日志未做任何修改,为Nginx默认的main日志的格式。接下来我们简单的看一下各个字段的含义
$1 访问的IP(如果经过反向代理,则该IP为反向代理服务器的IP地址)
$3 远端访问的用户
$4 访问时间
$6 请求方式
$7 访问的URL
$9 状态码
$10 请求的文件大小
$11 从哪个URL跳转过来
$12 客户端信息
$13 反向代理时获取真实IP
参考下面一个日志
45.251.100.145 - - [20/Sep/2019:19:33:33 +0800] "GET /index.html HTTP/1.1" 200 78905343 "-" "AndroidDownloadManager/8.1.0 (Linux; U; Android 8.1.0; PACT00 Build/O11019)" "120.163.153.183"
利用Logstash去提取Nginx的日志
- Grok使用(?<xxx>提取内容) 来提取xxx字段
- 提取客户端IP:(?<clientip>[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3})) # 因为nginx日志中的IP一般都是正常的IP。所以简单的匹配即可
- 提取时间: \[(?<requesttime>[^]+ \+[0-9]+)\]
- 提取请求方式: "(?<requesttype>[A-Z]+)
- 提取请求的内容:(?<requesturl>[^ ]+)
- 提取ua:"(?<ua>[^"])"
- 提取真实IP: (?<realip>[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}))# 该形式只能匹配一个ip,如果有多个IP会报错,目前还未找到其他形式,,暂时作为一个问题放在这里。
利用Kibana的Dev tools工具,对一个日志进行一个匹配
得出如下匹配表达式
(?<clientip>[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}) - - \[(?<requesttime>[^ ]+ \+[0-9]+)\] "(?<requesttype>[A-Z]+) (?<requesturl>[^ ]+) HTTP/\d\.\d" (?<status>[0-9]+) [0-9]+ "[^"]+" "(?<ua>[^"]+)" "(?<realip>[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3})"
修改logstash配置文件
input {
file {
path => /var/log/nginx/access.log
}
}
filter {
grok {
match => {
"message" => '(?<clientip>[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}) - - \[(?<requesttime>[^ ]+ \+[0-9]+)\] "(?<requesttype>[A-Z]+) (?<requesturl>[^ ]+) HTTP/\d\.\d" (?<status>[0-9]+) [0-9]+ "[^"]+" "(?<ua>[^"]+)" "(?<realip>[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3})'
}
}
}
output {
elasticsearch {
hosts => ["http://172.16.142.141:9200"]
}
}
此时在去kibana面板中查看时,可以看到过滤出来的内容,但是如果正则表达式匹配的有问题的话,则显示为 - ,点开查看详细内容,在tag中可以看到_grokparsefailure(正则解析失败)
如果正则表达式没有问题,只是个别这样的情况,可以选择在logstash的输出中配置,不将这样的信息输出到es中,这样也就不会再kibana中看到。
output {
if "_grokparsefailure" not in [tags] and "_dateparsefailure" not in [tags]{
elasticsearch {
hosts => ["http://172.16.142.141:9200"]
}
}
}
当然如果这样配置之后,一些正则不能匹配的则不会发送的ES,可能会错过一些信息,所以,最好还是全部都发送到ES中,可以根据错误去修改正则表达式等
05_Nginx日志分析的更多相关文章
- 【转】gc日志分析工具
性能测试排查定位问题,分析调优过程中,会遇到要分析gc日志,人肉分析gc日志有时比较困难,相关图形化或命令行工具可以有效地帮助辅助分析. Gc日志参数 通过在tomcat启动脚本中添加相关参数生成gc ...
- 海量日志分析方案--logstash+kibnana+kafka
下图为唯品会在qcon上面公开的日志处理平台架构图.听后觉得有些意思,好像也可以很容易的copy一个,就动手尝试了一下. 目前只对flume===>kafka===>elacsticSea ...
- ELK+Kafka集群日志分析系统
ELK+Kafka集群分析系统部署 因为是自己本地写好的word文档复制进来的.格式有些出入还望体谅.如有错误请回复.谢谢! 一. 系统介绍 2 二. 版本说明 3 三. 服务部署 3 1) JDK部 ...
- Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍
网站日志分析项目案例(一)项目介绍:当前页面 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例 ...
- Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:当前页面 网站日志分析项目案例 ...
- Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:http://www.cnbl ...
- MyCAT日志分析
MyCAT日志对于了解MyCAT的运行信息不可获取,譬如MyCAT是否采用读写分离,对于一个查询语句,MyCAT是怎样执行的,每个分片会分发到哪个节点上等等. 默认是info级别,通过log4j.xm ...
- ELK+redis搭建nginx日志分析平台
ELK+redis搭建nginx日志分析平台发表于 2015-08-19 | 分类于 Linux/Unix | ELK简介ELKStack即Elasticsearch + Logstas ...
- Mysql慢查询和慢查询日志分析
Mysql慢查询和慢查询日志分析 众所周知,大访问量的情况下,可添加节点或改变架构可有效的缓解数据库压力,不过一切的原点,都是从单台mysql开始的.下面总结一些使用过或者研究过的经验,从配置以 ...
随机推荐
- 使用其他身份运行计算机(DOS命令)
runas/user:administrator cmd d: cd esop sfispri.ini
- Unity_如何判断应用设备内存小于1G(内容可定制为根据机器配置进行不同LOD)
直接上脚本,需要用的时候在需要的地方调用就好. 如: //获取设别的最大内存,作为判断LOD等级和决定1G以下设备不能进游戏 #if UNITY_ANDROID && !UNITY_E ...
- iOS - OC 使用运行时来获取并修改类
前言: Objective C的runtime技术功能非常强大,能够在运行时获取并修改类的各种信息,包括获取方法列表.属性列表.变量列表,修改方法.属性,增加方法,属性等等,本文对相 ...
- Extjs 兼容IE8常见问题及解决方法
1. 在IE8中整个页面都打不开,一般情况是: 页面组件中最后一个属性出现了逗号 没有多余的逗号,就很有可能是组件中没有设置renderTo:Ext.getBody(); 2. 页面按钮颜色失效 自定 ...
- vue滚动分页加载以及监听事件处理
<template> <div class="bodyContainer"> <div class="allContent" id ...
- 配置java环境遇到的问题及解决方案
第一个问题: 安装SDK过程中有过报错,就要注意文件是否齐全,我看了下sdk文件夹下的platforms里面是空的.打开sdk里面的SDK Manager.exe,勾选一个安卓版本进行下载即可. 第二 ...
- python高并发的详解
一.什么是高并发 高并发(High Concurrency)是互联网分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计保证系统能够同时并行处理很多请求. 高并发相关常用的一些指标有响应时间( ...
- 虚拟dom应用
vdom如何应用,核心api是什么 1.介绍snabbdom(开源社区用的多,vue2用的是他) 首先回顾下之前的vdom格式 真实的dom <body> <ul id=" ...
- Win10 hosts文件无法保存
Win10无法修改编辑保存hosts文件怎么办?Win10系统默认是没有权限去编辑保存系统里的文件,这也是权限不够才导致修改编辑hosts后无法保存的原因,解决的办法就是把自己的帐户权限给提高就行了. ...
- CPC组队赛训练记录
2017中国大学生程序设计竞赛-哈尔滨站 (rank 39)solved 4 补 1 2018 CCPC 吉林 solved 5 2017CCPC秦皇岛 solved 4 待补题 2017ACM/IC ...