grok 官方文档

<pre name="code" class="html">grok:

解析任意文本并构造它:

Grok 是当前最好的方式在logstash 解析蹩脚的非结构化日志数据 到一些结构化的可查询的。

这个工具是完美的对于syslog logs, apache和其他webserver logs,mysqllogs,在一般情况下,任何日志格式

通常对于人是友好的而不是对于电脑

Logstash 有120种模式默认,你可以找到它们在:https://github.com/logstash-plugins/logstash-patterns-

core/tree/master/patterns. 

Grok Basics:

Grok 通过结合文本模式来匹配你的日志

语法对于一个grok 是 %{SYNTAX:SEMANTIC}

语法是 模式的名字会匹配你的文本,比如,3.44 会通过NUMBER 模式匹配和55.3.244.1 通过IP模式匹配。

语法是你如何匹配:

SEMANTIC （语义）是标识 你给到一块文本被匹配。

比如,3.44 可能是一个一个事件的持续事件,因此你可以简单的调用它。

此外, 一个字符串 55.3.244.1 可能识别客户端发出的请求。

在上述例子中,你的grok filter 可以看起来像这样:

%{NUMBER:duration} %{IP:client}

你可以添加一个数据类型转换成你的grok 模式。默认的 所有的语义都保存作为字符串.

如果你希望 转换一个语义的数据类型,比如改变一个字符串为一个整型 然后将其后缀为目标数据类型。

比如  %{NUMBER:num:int}  会转换num语义从一个字符串到一个整型,当前只支持转换是int和float

例子: 这个质疑的语法和语义,我们可以把有用的字段从一个简单的日志像这个虚构的http 请求日志:

55.3.244.1 GET /index.html 15824 0.043

匹配模式:

%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}

{

  "client": [

    "55.3.244.1"

  ],

  "method": [

    "GET"

  ],

  "request": [

    "/index.html"

  ],

  "bytes": [

    "15824"

  ],

  "duration": [

    "0.043"

  ]

}

正则表达式:

Grok 坐在正则表达式之上,因此很多的正则表达式也是正确的在grok里。

正则表达式库是Oniguruma，你可以看到完整的支持的正则表达式的语言在Oniguruma 网站

自定义 模式:

有时候logstash没有你需要的模式,你有几个选项:

第一,你可以使用Oniguruma 语法用于命名捕获 让你匹配一个文件的片段,保存作为字段

(?<field_name>the pattern here)

/********

55.3.244.1 GET /index.html 15824 0.043

(?<field_name>\S+)

输出:

{

  "field_name": [

    "55.3.244.1"

  ]

}

(?<field_name>\S+\s+)

输出:多了个空格

{

  "field_name": [

    "55.3.244.1 "

  ]

}

(?<field_name>\S+\s+\S+)

输出:

{

  "field_name": [

    "55.3.244.1 GET"

  ]

}

例如, 后缀日志有一个队列id 是10或者11 个16进制字符,你可以捕获像这样:

(?<queue_id>[0-9A-F]{10,11})

d4111111112

表达式:

(?<queue_id>[0-9A-F]{10,11})

输出:

{

  "queue_id": [

    "4111111112"

  ]

}

或者,你也可以创建一个自定义模式的文件:

创建一个目录叫做patterns 里面有个文件叫做extra(文件名不重要,但是名字得对你有意义)

在这个文件中,写pattern 你需要的作为pattern名字,一个空格,然后正则用于哪个模式

例如: 后缀队列id例子:

# contents of ./patterns/postfix:

POSTFIX_QUEUEID [0-9A-F]{10,11}

Jan  1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-

id=<20130101142543.5828399CCAF@mailserver14.example.com>

filter {

  grok {

    patterns_dir => ["./patterns"]

    match => { "message" => "%{SYSLOGBASE} %{POSTFIX_QUEUEID:queue_id}: %{GREEDYDATA:syslog_message}" }

  }

}

上面的会被匹配,结果是下面的字段:

timestamp: Jan 1 06:25:43

logsource: mailserver14

program: postfix/cleanup

pid: 21403

queue_id: BEF25A72965

syslog_message: message-id=<20130101142543.5828399CCAF@mailserver14.example.com>

timestamp, logsource, program, 和pid 来自SYSLOGBASE  模式本身定义了一些模式

/*******************

zjtest7-frontend:/usr/local/logstash-2.3.4/config# pwd

/usr/local/logstash-2.3.4/config

zjtest7-frontend:/usr/local/logstash-2.3.4/config# ls -lr patterns/

total 4

-rw-r--r-- 1 root root 32 Aug 30 13:33 postfix

zjtest7-frontend:/usr/local/logstash-2.3.4/config/patterns# cat postfix

POSTFIX_QUEUEID [0-9A-F]{10,11}

zjtest7-frontend:/usr/local/logstash-2.3.4/config# cat stdin.conf

input {

  stdin {

     }

}

filter {

  grok {

    patterns_dir => ["./patterns"]

    match => { "message" => "%{SYSLOGBASE} %{POSTFIX_QUEUEID:queue_id}: %{GREEDYDATA:syslog_message}" }

  }

}

output {

 stdout {

  codec=>rubydebug{}

   }

 }

zjtest7-frontend:/usr/local/logstash-2.3.4/config# ../bin/logstash -f stdin.conf

Settings: Default pipeline workers: 1

Pipeline main started

Jan  1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-

id=<20130101142543.5828399CCAF@mailserver14.example.com>

{

           "message" => "Jan  1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-

id=<20130101142543.5828399CCAF@mailserver14.example.com>",

          "@version" => "1",

        "@timestamp" => "2016-08-30T05:34:11.849Z",

              "host" => "0.0.0.0",

         "timestamp" => "Jan  1 06:25:43",

         "logsource" => "mailserver14",

           "program" => "postfix/cleanup",

               "pid" => "21403",

          "queue_id" => "BEF25A72965",

    "syslog_message" => "message-id=<20130101142543.5828399CCAF@mailserver14.example.com>"

}

简介:

插件支持下面的配置选项:

需要的配置选项:

grok {

  }

细节:

add_field

1.值类型是hash

2. 默认值是{}

如果 filter 是成功的,增加任何属性字段到这个事件，Field名字可以动态的和包含event部分使用%{field}.

filter {

  grok {

     add_field => { "foo_%{somefield}" => "Hello world, from %{host}" }

    patterns_dir => ["./patterns"]

    match => { "message" => "%{SYSLOGBASE} %{POSTFIX_QUEUEID:queue_id}: %{GREEDYDATA:syslog_message}" }

  }

}

输出；

zjtest7-frontend:/usr/local/logstash-2.3.4/config# ../bin/logstash -f stdin.conf

Settings: Default pipeline workers: 1

Pipeline main started

Jan  1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-

id=<20130101142543.5828399CCAF@mailserver14.example.com>

{

             "message" => "Jan  1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-

id=<20130101142543.5828399CCAF@mailserver14.example.com>",

            "@version" => "1",

          "@timestamp" => "2016-08-30T05:44:35.071Z",

                "host" => "0.0.0.0",

           "timestamp" => "Jan  1 06:25:43",

           "logsource" => "mailserver14",

             "program" => "postfix/cleanup",

                 "pid" => "21403",

            "queue_id" => "BEF25A72965",

      "syslog_message" => "message-id=<20130101142543.5828399CCAF@mailserver14.example.com>",

    "foo_%{somefield}" => "Hello world, from 0.0.0.0"

}

##你可以一次增加多个字段:

filter {

  grok {

     add_field => { "foo_%{somefield}" => "Hello world, from %{host}"

     "new_field" => "new_static_value"

               }

    patterns_dir => ["./patterns"]

    match => { "message" => "%{SYSLOGBASE} %{POSTFIX_QUEUEID:queue_id}: %{GREEDYDATA:syslog_message}" }

  }

}

输出；

zjtest7-frontend:/usr/local/logstash-2.3.4/config# ../bin/logstash -f stdin.conf

Settings: Default pipeline workers: 1

Pipeline main started

Jan  1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-

id=<20130101142543.5828399CCAF@mailserver14.example.com>

{

             "message" => "Jan  1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-

id=<20130101142543.5828399CCAF@mailserver14.example.com>",

            "@version" => "1",

          "@timestamp" => "2016-08-30T05:46:37.029Z",

                "host" => "0.0.0.0",

           "timestamp" => "Jan  1 06:25:43",

           "logsource" => "mailserver14",

             "program" => "postfix/cleanup",

                 "pid" => "21403",

            "queue_id" => "BEF25A72965",

      "syslog_message" => "message-id=<20130101142543.5828399CCAF@mailserver14.example.com>",

    "foo_%{somefield}" => "Hello world, from 0.0.0.0",

           "new_field" => "new_static_value"

add_tag

1.值类型是array

2.默认是[]

如果filter 成功,增加任意的tags 到这个事件。Tags 可以动态的包含事件的部分使用%{field} syntax.

filter {

  grok {

    add_tag => [ "foo_%{somefield}" ]

  }

}

# You can also add multiple tags at once:

filter {

  grok {

    add_tag => [ "foo_%{somefield}", "taggedy_tag"]

  }

}

zjtest7-frontend:/usr/local/logstash-2.3.4/config# ../bin/logstash -f stdin.conf

Settings: Default pipeline workers: 1

Pipeline main started

Jan  1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-

id=<20130101142543.5828399CCAF@mailserver14.example.com>

{

             "message" => "Jan  1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-

id=<20130101142543.5828399CCAF@mailserver14.example.com>",

            "@version" => "1",

          "@timestamp" => "2016-08-30T05:50:18.451Z",

                "host" => "0.0.0.0",

           "timestamp" => "Jan  1 06:25:43",

           "logsource" => "mailserver14",

             "program" => "postfix/cleanup",

                 "pid" => "21403",

            "queue_id" => "BEF25A72965",

      "syslog_message" => "message-id=<20130101142543.5828399CCAF@mailserver14.example.com>",

    "foo_%{somefield}" => "Hello world, from 0.0.0.0",

           "new_field" => "new_static_value",

                "tags" => [

        [0] "foo_%{somefield}"

    ]

}

break_on_match

1.值类型是波尔型

2.默认值是true

Break 在第一个匹配,第一次成功匹配通过grok 会导致filter 被完成。如果你需要grok 尝试所有的patterns(

可能解析不同的东西),设置这个为false

match:

1.值类型是hash

2.默认是{}

filter {

  grok { match => { "message" => "Duration: %{NUMBER:duration}" } }

}

grok 官方文档的更多相关文章

【AutoMapper官方文档】DTO与Domin Model相互转换（上）
写在前面 AutoMapper目录: [AutoMapper官方文档]DTO与Domin Model相互转换(上) [AutoMapper官方文档]DTO与Domin Model相互转换(中) [Au ...
2DToolkit官方文档中文版打地鼠教程（三）：Sprite Collections 精灵集合
这是2DToolkit官方文档中 Whack a Mole 打地鼠教程的译文,为了减少文中过多重复操作的翻译,以及一些无必要的句子,这里我假设你有Unity的基础知识(例如了解如何新建Sprite等) ...
2DToolkit官方文档中文版打地鼠教程（二）：设置摄像机
这是2DToolkit官方文档中 Whack a Mole 打地鼠教程的译文,为了减少文中过多重复操作的翻译,以及一些无必要的句子,这里我假设你有Unity的基础知识(例如了解如何新建Sprite等) ...
2DToolkit官方文档中文版打地鼠教程（一）：初始设置
这是2DToolkit官方文档中 Whack a Mole 打地鼠教程的译文,为了减少文中过多重复操作的翻译,以及一些无必要的句子,这里我假设你有Unity的基础知识(例如了解如何新建Sprite等) ...
【AutoMapper官方文档】DTO与Domin Model相互转换（中）
写在前面 AutoMapper目录: [AutoMapper官方文档]DTO与Domin Model相互转换(上) [AutoMapper官方文档]DTO与Domin Model相互转换(中) [Au ...
【AutoMapper官方文档】DTO与Domin Model相互转换（下）
写在前面 AutoMapper目录: [AutoMapper官方文档]DTO与Domin Model相互转换(上) [AutoMapper官方文档]DTO与Domin Model相互转换(中) [Au ...
Ionic2系列——Ionic 2 Guide 官方文档中文版
最近一直没更新博客,业余时间都在翻译Ionic2的文档.之前本来是想写一个入门,后来觉得干脆把官方文档翻译一下算了,因为官方文档就是最好的入门教程.后来越翻译越觉得这个事情确实比较费精力,不知道什么时 ...
Kotlin开发语言文档（官方文档）-- 目录
开始阅读Kotlin官方文档.先上文档目录.有些内容还未阅读,有些目录标目翻译还需琢磨琢磨.后续再将具体内容的链接逐步加上. 文档链接:https://kotlinlang.org/docs/kotl ...
一起学微软Power BI系列-官方文档-入门指南(1)Power BI初步介绍
我们在前一篇文章微软新神器-Power BI,一个简单易用,还用得起的BI产品中,我们初步介绍了Power BI的基本知识.由于Power BI是去年开始微软新发布的一个产品,虽然已经可以企业级应用, ...

随机推荐

可变参数列表-Java SE5新特性(转)
Java1.5增加了新特性:可变参数:适用于参数个数不确定,类型确定的情况,java把可变参数当做数组处理.注意:可变参数必须位于最后一项.当可变参数个数多于一个时,必将有一个不是最后一项,所以只支持 ...
java日期时间处理小结
这两周时间的Java开发让我感觉到JAVA语言确实把一些简单的事情搞得很复杂,比如日期时间处理,或许是考虑不同时区国际化跨平台之类的因素,但JAVA语言处理确实让我很困惑,相信身边好多开发的同事也如此 ...
docker初步
[Note,]由于docker的局限性,docker只能运行在64位的系统中 docker软件应用程序可以重复地运行在任何地方,因为它的容器包含了所有的环境依赖关系! docker有三种方式运行作为 ...
Unity UI和引用的管理中心
我们来谈谈Unity的UI, 通常会写一些UI页面,当A页面需要去操作B页面的时候. 至少要获取B页面的引用吧! 一般新人都会在组件的写一个public GameObject UIB页面的属性, 然后 ...
通过winForm控制webForm的上传控件file的值
文件上传是日常开发中经常遇到的,文件上传用的最多的当然是上传控件file了,一个form表单,其中有一点就是form表单的enctype属性设置为multipart/form-data,呵呵,这个在所 ...
C# 创建Windows服务。服务功能：定时操作数据库（转）
C# 创建Windows服务.服务功能:定时操作数据库一.创建window服务 1.新建项目-->选择Windows服务.默认生成文件包括Program.cs,Service1.cs 2.在S ...
javascript学习笔记（一）
学习书籍 Javascript高级程序设计第3,4章 javascript数据类型 Undefined(undefined) Null(null,空指针) Boolean(true,false) N ...
html基本基础
一 HTML5是用来做什么的? PSD2HTML 信息信息差(信息不对称) 二 html文件新建流程: 新建文本文件网页文件后缀 .html 修改编码:ANSI格式,UTF-8无BOM格式==== ...
NFinal学习笔记 02—NFinalBuild
在学习NFinal的过程中发现在线.net编译器Web版—— NFinalBuild 什么是NFinalBuild呢?它就是帮助我们简单又快速的更新我们网站的一种编译器,我们不用再只为了更新.net网 ...
FullCalendar 的学习笔记（一）
前一段时间,一个老项目需要新增一个小功能,日程表~ 于是网上找了下,发现FullCalendar这个控件还不错于是就拿来用了下,下面简单介绍下我的学习笔记. 首先就是了解下FullCalendar的A ...

grok 官方文档

grok 官方文档的更多相关文章

随机推荐

热门专题