利用ingest node所提供的Pipeline帮我们对数据进行处理。

在Elasticsearch中的配置文件elasticsearch.yml文件中配置：node.ingest: true

ingest node提供了在对文档建立索引之前对其进行预处理的功能：

接收节点拦截索引或批量API请求
运用转换（transformation）
将文档传递回索引或批量API

什么是pipeline呢？

一个pipleline就是一套处理器：
一个processor就像是Logstash里的一个filter拥有对通过管道（pipeline）的文档的读写权限.

那么Elastic到底提供了哪些processor呢？我们可以参阅Elastic的官方文档，我们可以看到许多的pocessors可以被利用。

地址：https://www.elastic.co/guide/en/elasticsearch/reference/7.5/ingest-processors.html

定义一个Pipleline

使用PUT命令配合Ingest API来操作。它是存在于cluster state里的。

PUT _ingest/pipeline/my-pipeline-id

{

  "description": "DESCRIPTION",

  "processors": [

    {

      ...

    }

  ],

  "on_failure": [

    {

      ...

    }

  ]

}

这里my-pipleline-id是我们自己命令的在该cluster唯一标识是的pipleline ID。在里面，我们可以定义我们喜欢的processors数组。在处理

失败后，我们也可以定义相应的processors来完成。

例子

来使用Filebeat来读取一个log文件，并使用processors对这个log的数据进行处理。

log文件中每一条的数据是这样的格式：

20.168.183.41 - - [11/Sep/2019:00:00:05 +0000] "GET /category/health HTTP/1.1" 200 132 "/item/software/623" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.77 Safari/535.7"

配置Filebeat

创建一个叫做filebeat_processor.yml文件：

filebeat.inputs:

- type: log

  enabled: true

  fields:

    apache: true

  paths:

    - /data/nginx-access.log # 根据实际情况而定

output.elasticsearch:

    hosts: ["localhost:9200"]

    pipeline: "my_pipeline_id" # 下一步创建的pipeline ID

使用了一个叫做my_pipleline_id的pipeline。它的定义如下：

PUT _ingest/pipeline/my_pipeline_id

{

  "description": "Drop ECS field and add one new field",

  "processors": [

    {

      "remove": {

        "field": "ecs"

      },

      "set": {

        "field": "added_field",

        "value": 0

      }

    }

  ]

}

定义了两个processor： remove及set。一个是删除一个叫做ecs的项，另外一个是添加一个叫做added_field的项，并把它的值设置为0。

在正常的情况下，如果在我们的配置文件中没有定义那个pipleline的情况下，那么他们的结果是：

{

"_index" : "filebeat-7.3.0-2019.09.11-000001",

"_type" : "_doc",

"_id" : "637VIG0BJD_DqHjgqvC5",

"_score" : 1.0,

"_source" : {

  "@timestamp" : "2019-09-11T14:58:55.902Z",

  "message" : """144.228.123.71 - - [11/Sep/2019:01:52:35 +0000] "GET /category/games HTTP/1.1" 200 117 "/search/?c=Books+Software" "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"""",

  "input" : {

    "type" : "log"

  },

  "fields" : {

    "apache" : true

  },

  "ecs" : {

    "version" : "1.0.1"

  },

  "host" : {

    "name" : "localhost"

  },

  "agent" : {

    "hostname" : "localhost",

    "id" : "c88813ba-fdea-4a98-a0be-468fb53566f3",

    "version" : "7.3.0",

    "type" : "filebeat",

    "ephemeral_id" : "ec3328d6-f7f0-4134-a2b6-8ff0c5141cc5"

  },

  "log" : {

    "offset" : 300352,

    "file" : {

      "path" : "/data/nginx-access.log"

    }

  }

}

}

运行Filebeat

在Filebeat的安装目录，运行如下的命令：

./filebeat -c filebeat_processor.yml

查看效果

在Kibana中可以通过如下的命令来查看,

GET _cat/indices?v

看到了一个已经生产的以filebeat为开头的文件名。我们可以通过如下的命令来查看它的数据：

GET filebeat-7.4.2/_search

其中的一个文档的soure是这样的：

"_source" : {

  "agent" : {

    "hostname" : "localhost",

    "id" : "45832d40-b664-466b-a523-3bc58890ea50",

    "type" : "filebeat",

    "ephemeral_id" : "dbbba131-9c33-4e82-a00a-9e8e09d3e799",

    "version" : "7.4.2"

  },

  "log" : {

    "file" : {

      "path" : "/data/nginx-access.log"

    },

    "offset" : 11497

  },

  "message" : """164.51.31.185 - - [11/Sep/2019:00:04:15 +0000] "GET /item/giftcards/232 HTTP/1.1" 200 130 "/category/electronics" "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"""",

  "input" : {

    "type" : "log"

  },

  "@timestamp" : "2019-11-23T13:11:57.478Z",

  "host" : {

    "name" : "localhost"

  },

  "fields" : {

    "apache" : true

  },

  "added_field" : 0

}

显然ecs这个field已经不见了，而另外一个叫做added_field新的field被成功添加进来了。这个说明我们的pipleline是起作用的。

Filebeat和pipleline processor-不部署logstash，实现对数据的处理的更多相关文章

部署logstash节点
.部署Logstash节点 1.查看系统环境: [root@Logstash ~]# hostname Logstash [root@Logstash ~]# cat /etc/redhat-rele ...
Centos8 部署 ElasticSearch 集群并搭建 ELK，基于Logstash同步MySQL数据到ElasticSearch
Centos8安装Docker 1.更新一下yum [root@VM-24-9-centos ~]# yum -y update 2.安装containerd.io # centos8默认使用podm ...
使用logstash同步MySQL数据到ES
使用logstash同步MySQL数据到ES 版权声明:[分享也是一种提高]个人转载请在正文开头明显位置注明出处,未经作者同意禁止企业/组织转载,禁止私自更改原文,禁止用于商业目的. https:// ...
Logstash读取Kafka数据写入HDFS详解
强大的功能,丰富的插件,让logstash在数据处理的行列中出类拔萃通常日志数据除了要入ES提供实时展示和简单统计外,还需要写入大数据集群来提供更为深入的逻辑处理,前边几篇ELK的文章介绍过利用lo ...
在部署有OGG的数据库主机上打数据库patch遇到的问题libclntsh.so.11.1 active
在部署有OGG的数据库主机上打数据库patch遇到的问题$ORACLE_HOME/lib/libclntsh.so.11.1 active 例如以下是报错提示: [oracle@lei1 175796 ...
GeoServer基础教程（三）：部署发布Shapefile地图数据
转载:http://blog.csdn.net/mingzai624. 这是GeoServer官方网站提供的一份Shapefile测试数据 nyc_roads.zip ,包含了部分纽约的道路信息,我们 ...
SQL数据同步到ElasticSearch（三）- 使用Logstash+LastModifyTime同步数据
在系列开篇,我提到了四种将SQL SERVER数据同步到ES中的方案,本文将采用最简单的一种方案,即使用LastModifyTime来追踪DB中在最近一段时间发生了变更的数据. 安装Java 安装部分 ...
centos7配置Logstash同步Mysql数据到Elasticsearch
Logstash 是开源的服务器端数据处理管道,能够同时从多个来源采集数据,转换数据,然后将数据发送到您最喜欢的“存储库”中.个人认为这款插件是比较稳定,容易配置的使用Logstash之前,我们得明确 ...
Logstash学习之路（五）使用Logstash抽取mysql数据到kakfa
一.Logstash对接kafka测通说明: 由于我这里kafka是伪分布式,且kafka在伪分布式下,已经集成了zookeeper. 1.先将zk启动,如果是在伪分布式下,kafka已经集成了zk ...
Logstash学习之路（四）使用Logstash将mysql数据导入elasticsearch（单表同步、多表同步、全量同步、增量同步）
一.使用Logstash将mysql数据导入elasticsearch 1.在mysql中准备数据: mysql> show tables; +----------------+ | Table ...

随机推荐

log4net的配置及使用
网上查了有很多种写法和配置,结果百度出来都是几种方法混合写法,拷在一起结果还不能正常运行.因此把自己做成功的代码写上来做个备份. 运行环境:log4net 2.03版本,.net 4.5 大体步骤为: ...
python登陆代码简单逻辑
孩子:妈妈,我想要一个登陆的接口妈妈:写,现在写,写1个够吗? 孩子:够了,妈妈真好,谢谢妈妈. 需求写一个简单的登陆逻辑: 1.定义一个账号和密码 2.输入账号和密码,密码要求密文 3.输入正确提 ...
反射DataTable转实体类
using System; using System.Collections.Generic; using System.Data; using System.Reflection; namespac ...
清新水墨色中国风通用教育培训课件PPT模板
模板来源:http://ppt.dede58.com/jiaoxuekejian/26220.html
一则SQL优化案例
原始sql: select CASE ) counts ,) else deadline end as deadline from t_product_credit) c group by sort ...
react 地图发布 cesium 篇
上篇文章介绍了如何搭建 react cesium 开发环境.在开发环境下,项目一切运行正常.最近把项目打包发布出来,却遇见了 cesium 不能正确初始化.打开浏览器的调试面板,出现好多 404,资源 ...
Gradle在Android中的简单使用
Gradle在Android中简单的使用还望支持个人博客站:http://www.enjoytoday.cn Android Studio 使用gradle进行工程构建,为了更好的了解整个andro ...
ThinkPHP 3.2，配置 'URL_MODEL'=>2。 APP_DEBUG设为false，U函数生成的URL的index.php不能去掉，只有将APP_DEBUG改成true，才能去掉index.php，求解~~
ThinkPHP 3.2,配置 'URL_MODEL'=>2.APP_DEBUG设为false,U函数生成的URL的index.php不能去掉,只有将APP_DEBUG改成true,才能去掉in ...
JavaScript—数据可视化（ECharts）
Echarts具有丰富的图表,可以说是数据可视化的神器: 1.下载Echarts 官网下载地址:https://echarts.baidu.com/index.html 2.Echarts引用案例—柱 ...
Java中Class和单例类的作用与类成员的理解
Java中Class类的作用与深入理解在程序运行期间,Java运行时系统始终为所有的对象维护一个被称为运行时的类型标识.这个信息跟踪着每个对象所属的类.JVM利用运行时信息选择相应的方法执行.而保存 ...

Filebeat和pipleline processor-不部署logstash，实现对数据的处理