Logstash为什么那么慢？—

今天跟峡谷金桥聊天，询问起Logstash的性能，金桥提示说Logstash中json的序列化是浪费性能的一方面。于是便有了下面的测试:

第一步，造数据

首先需要造一份数据，数据可以通过logstash的generator来造。

input{

	generator{}

}

output{

	file{

		path => "E:/test.log"

	}

}

生成的数据格式如下:

{"message":"Hello world!","@version":"1","@timestamp":"2016-07-12T13:46:48.821Z","host":"DESKTOP-1GPAD95","sequence":0}

{"message":"Hello world!","@version":"1","@timestamp":"2016-07-12T13:46:48.824Z","host":"DESKTOP-1GPAD95","sequence":1}

{"message":"Hello world!","@version":"1","@timestamp":"2016-07-12T13:46:48.824Z","host":"DESKTOP-1GPAD95","sequence":2}

{"message":"Hello world!","@version":"1","@timestamp":"2016-07-12T13:46:48.825Z","host":"DESKTOP-1GPAD95","sequence":3}

...

第二步，编写测试脚本

测试的思路是，从test.log文件中读取数据。然后计算一定范围内写入的日志数量（靠人工计算啦！）

codec => json 的测试的脚本如下：

input{

	file{

		path => "E:/test.log"

		codec => json

		start_position => "beginning"

	}

}

filter{

	ruby {

		code => "event['tag'] = Time.now"

	}

}

output{

	file{

		path => "E:/json_result3.log"

	}

}

codec => plain 的测试的脚本如下：

input{

	file{

		path => "E:/test.log"

		codec => plain

		start_position => "beginning"

	}

}

filter{

	ruby {

		code => "event['tag'] = Time.now"

	}

}

output{

	file{

		path => "E:/json_result3.log"

	}

}

第三步，计算每10S中产生的日志数量

这里在每条事件中写入了1个时间戳字段，然后打开文件，定位随机定位一个开始的秒数，比如从2016-07-12 22:12:44到2016-07-12 22:12:54这十秒钟，产生的日志数量就是解析的数量。

为了避免机器差异以及运行环境的差异，所带来的误差，这里每个codec执行了3次，计算得出的数据大致如下：

日志名称	起始时间(行数)	结束时间(行数)	总行数(结束-起始)
json_result1.log	2016-07-12 22:12:44(63)	2016-07-12 22:12:54(34728)	34665
json_result2.log	2016-07-12 22:26:18(517)	2016-07-12 22:26:28(27599)	27082
json_result3.log	2016-07-12 22:27:48(147)	2016-07-12 22:27:58(30352)	30205
plain_result1.log	2016-07-12 22:13:41(300)	2016-07-12 22:13:51(50437)	50137
plain_result2.log	2016-07-12 22:22:32(187)	2016-07-12 22:22:42(53525)	53338
plain_result3.log	2016-07-12 22:24:43(360)	2016-07-12 22:24:53(43580)	43220

测试结果也可以参考下面的图片，更为直观一点：

最后说明

从测试的结果来看，的确plan要比json性能高一些，也就是说logstash在做json序列化的时候浪费了很多的性能。

这就给想要自己写数据采集框架的朋友一点提示——Event对象该如何设计？

PS：由于我选取的数据样本范围都是第一个完整的10秒钟，因此可以看到采集的数据量比较少，平均每秒还不到1w.

这可能受多方条件影响：

1 我是读文件--写文件，对于磁盘IO可能有一定的影响
2 我选取的都是开始的10秒钟数据，可能刚开始数据采集还没有稳定~ 如果有时间的朋友，可以采集个1分钟左右，从最后的10s测试。

Logstash为什么那么慢？—— json序列化的更多相关文章

.Net深入实战系列—JSON序列化那点事儿
序当前主流的序列化JSON字符串主要有两种方式:JavaScriptSerializer及Json.net(Nuget标识:Newtonsoft.Json).JavaScriptSerializer ...
Newtonsoft.Json 序列化和反序列化时间格式【转】
1.JSON序列化 string JsonStr= JsonConvert.SerializeObject(Entity); eg: A a=new A(); a.Name="Elain ...
[.net 面向对象程序设计进阶] (13) 序列化(Serialization)(五) Json 序列化利器 Newtonsoft.Json 及通用Json类
[.net 面向对象程序设计进阶] (13) 序列化(Serialization)(五) Json 序列化利器 Newtonsoft.Json 及通用Json类本节导读: 关于JSON序列化,不能 ...
DotNet的JSON序列化与反序列化
JSON(JavaScript Object Notation)JavaScript对象表示法,它是一种基于文本,独立于语言的轻量级数据交换格式.在现在的通信中,较多的采用JSON数据格式,JSON有 ...
C#中JSON序列化和反序列化
有一段时间没有到博客园写技术博客了,不过每天逛逛博客园中大牛的博客还是有的,学无止境…… 最近在写些调用他人接口的程序,用到了大量的JSON.XML序列化和反序列化,今天就来总结下json的序列化和反 ...
使用JSON.Net（Newtonsoft.Json）作为ASP.Net MVC的json序列化和反序列化工具
ASP.Net MVC默认的JSON序列化使用的是微软自己的JavaScriptSerializer.性能低不说,最让人受不了的是Dictionary<,>和Hashtable类型居然对应 ...
Windows Phone 六、JSON序列化
JSON序列化 public class Person { public int Id { get; set; } public string Name { get; set; } public in ...
[MVC_Json序列化]MVC之Json序列化循环引用
在做MVC项目时,难免会遇到Json序列化循环引用的问题,大致错误如下错误1:序列化类型为“...”的对象时检测到循环引用. 错误2:Self referencing loop detected f ...
NetworkComms V3 使用Json序列化器进行网络通信
刚才在网上闲逛,偶然看到一篇文章 C#(服务器)与Java(客户端)通过Socket传递对象网址是:http://www.cnblogs.com/iyangyuan/archive/2012/12/ ...

随机推荐

max min 与 min max 的差别
在求解最优化问题时,遇到一个对偶问题的转换:对于形如的问题,可以转换为求解即原问题的对偶问题.而在一般情况下: 对于这个为题的说明我参照http://math.stackexchange.com/ ...
loop 循环和检测点 9.3
loop 指令为循环指令,所有的循环指令都是短转移,在对应的机器码中包含转移的位移,而不是目的地址.对 IP 的修改范围都为:-128~127. 指令格式:loop 标号操作: (cx)=(cx)- ...
1996: [Hnoi2010]chorus 合唱队
链接:http://www.lydsy.com/JudgeOnline/problem.php?id=1996 Description Input Output Sample Input 4 1701 ...
C#引用类型（class)和值类型(struct)
1. 值参数当利用值向方法传递参数时,编译程序给实参的值做一份拷贝,并且将此拷贝传递给该方法.被调用的方法不传内存中实参的值,所以使用值参数时,可以保证实际值是安全的. using System; ...
java中数组的相关知识
1. 2.数组的命名方法 1)int[]ages=new int[5]; 2) int[]ages; ages=new int[5]; 3)int[]ags={1,2,3,4,5}; 4)int[ ...
Win7 64位命令行编译cuda及设置Windows显卡响应时间
在开始菜单中找到Visual Studio 2013 >> Visual Studio Tools 选择86或64版本的VC命令提示符环境,我用的 VS2013 x86 Native To ...
第七章：利用AdaBoost元算法提高分类性能
本章内容□ 组合相似的分类器来提髙分类性能□应用AdaBoost算法□ 处理非均衡分类问题
最喜欢的算法（们） - Levenshtein distance
String Matching: Levenshtein distance Purpose: to use as little effort to convert one string into th ...
p68 对数变换关于fft2 fftshift 频谱
p68 频谱:绝大多数信号可分解若干不同频率的正弦波, 些正弦波中,频率最低的称为信号的基波,其余称为信号谐波,相当于该信号的基本频率.频率等于基频整数倍的正弦波分量称为谐波. 1.fft2 fft ...
MVC中使用Ueditor
配置.net mvc4项目使用ueditor编辑器. 1.首先下载Ueditor1.3.6开发版(http://ueditor.baidu.com/website/download.html) 2.将 ...