HDFS APPEND性能测试

hbase在写入数据之前会先写hlog，hlog目前是sequencefile格式，采用append的方式往里追加数据。之前团队的同学测试关闭hlog会一定程序上提升写hbase的稳定性。而在我之前的想象中，hlog的写入速度应该是稳定的。于是写了个append程序专门测试hdfs的append性能。

　　代码如下：

FSDataOutputStream stm = fs.create(path, true,
conf.getInt("io.file.buffer.size", 4096),
(short)3, blocksize);
String a = make(1000);
stm.write(a.getBytes());
stm.sync();

　　可以看到，append的过程分两步：先write，然后执行sync()，如果不执行sync，理论上会存在丢失数据的风险。

　　由于不清楚是sync不稳定，还是write本身不稳定。所以对打开和关闭sync均做了测试。

图1：打开sync功能

图2：关闭sync功能

从图1和图2的结果可以看到打开和关闭sync操作同样不稳定，因此可以判断不稳定因素主要出在write本身上。观察write函数，发现在创建它时需要一个blocksize参数，我的代码中一开始是设置的1MB。于是修改为32MB，绝大部分毛刺消失了。进一步修改为64MB，性能有进一步的提升。如下图

图3：设为32MB

图4：设为64MB

　　这个参数是决定多大的文件在hdfs上可读的。传统的hdfs写文件要满足dfs.block.size大小(默认64MB)才可读。但是在append模式下这个可读的大小是由这里的blocksize决定的。默认值在本地文件系统下由fs.local.block.size决定，在hdfs文件系统下仍由dfs.block.size决定。如果设为1MB，那么hdfs上每append 1MB的大小，就可以读到了。当写入的数据达到这个大小时，会触发namenode执行fsync()操作。而在日志中观察到，每次发生这个操作时，都会造成读响应的变慢。

　　fsync()操作的内容比较多，没有仔细看源码，知道原理的同学联系我吧。

　　从附图中可以看到，append_block_size从1MB提高到32MB，再提高到64MB，都会有一定程序的稳定性改善。再提高就没有用了，因为hlog和dfs.block.size的默认大小都是64MB。不过hbase每1s会强制刷新执行一次fsync，所以会看到hbase在打开日志的情况下每1s会有一次小的响应时间波动

　　结论有两点：

　　1 hdfs的append的确是有一点不稳定的

　　2 修改fs.local.block.size或dfs.block.size可以影响这个不稳定因素。

HDFS APPEND性能测试的更多相关文章

HDFS Append时packet的格式以及DataNode对block/checksum文件的处理
HDFS Append时packet的格式以及DataNode对block/checksum文件的处理 HDFS的Block一般比较大,默认64MB/128MB,客户端给DataNode发数据实际上是 ...
HDFS 与 GFS 的设计差异
后端分布式系列」前面关于 HDFS 的一些文章介绍了它的整体架构和一些关键部件的设计实现要点. 我们知道 HDFS 最早是根据 GFS(Google File System)的论文概念模型来设计实现的 ...
HDFS 异常处理与恢复
在前面的文章 <HDFS DataNode 设计实现解析>中我们对文件操作进行了描述,但并未展开讲述其中涉及的异常错误处理与恢复机制.本文将深入探讨 HDFS 文件操作涉及的错误处理与恢复 ...
windows通过thrift访问hdfs
thirift是一个支持跨种语言的远程调用框架,通过thrift远程调用框架,结合hadoop1.x中的thriftfs,编写了一个针对hadoop2.x的thriftfs,供外部程序调用. 1.准备 ...
基于Httpfs访问HDFS的C++实现
Httpfs是hadoop2.x中hdfs项目的内置应用,基于tomcat和jesery,对外提供完备HDFS操作的RESTful接口,无需安装客户端,可方便实现数据交互,如从windows访问存储在 ...
HDFS原理讲解
简介本文是笔者在学习HDFS的时候的学习笔记整理, 将HDFS的核心功能的原理都整理在这里了. [广告] 如果你喜欢本博客,请点此查看本博客所有文章:http://www.cnblogs.com/x ...
利用JAVA API远程进行HDFS的相关操作
学习HDFS有一段时间了,现在把自己总结的HDFS的相关操作代码展示给大家. 主要有HDFS的增删改查,文件的追加,windows本地文件的上传,hdfs文件的下载,文件重命名,创建目录,文件是否存在 ...
使用kafka connect，将数据批量写到hdfs完整过程
版权声明:本文为博主原创文章,未经博主允许不得转载本文是基于hadoop 2.7.1,以及kafka 0.11.0.0.kafka-connect是以单节点模式运行,即standalone. 首先, ...
后端分布式系列：分布式存储－HDFS 与 GFS 的设计差异
「后端分布式系列」前面关于 HDFS 的一些文章介绍了它的整体架构和一些关键部件的设计实现要点. 我们知道 HDFS 最早是根据 GFS(Google File System)的论文概念模型来设计实现 ...

随机推荐

JAVA面向对象-----内部类的概述
JAVA面向对象-–内部类的概述s 将类定义在另一个类的内部则成为内部类.其实就是类定义的位置发生了变化. 在一个类中,定义在类中的叫成员变量,定义在函数中的叫成员函数,那么根据类定义的位置也可以分为 ...
Android 读取清单文件<meta-data>元素的数据
添加属性 <application -- > <meta-data android:value="Channel_0" android:name="UM ...
Vibrator控制手机震动
Vibrator控制手机震动效果图源码下载地址(Android Studio工程):http://download.csdn.net/detail/q4878802/9049755 添加权限 & ...
How to generate the complex data regularly to Ministry of Transport of P.R.C by DB Query Analyzer
How to generate the complex data regularly to Ministry of Transport of P.R.C by DB Query Analyzer 1 ...
C++对象模型的那些事儿之二：对象模型（下）
前言上一篇博客C++对象模型的那些事儿之一为大家讲解了C++对象模型的一些基本知识,可是C++的继承,多态这些特性如何体现在对象模型上呢?单继承.多重继承和虚继承后内存布局上又有哪些变化呢?多态真正 ...
Spark技术内幕：一个图搞定Spark到底有多少行代码
Spark1.0.0发布一个多月了,那么它有多少行代码(Line of Code, LOC)? 注:代码统计未包含测试,sample.
5.创建表，使用alter进行表信息的增删改，Oracle回收站,集合运算
1 Oracle基于用户的管理方案 2 DDL语句可以管理数据库的对象有:视图索引序列同义词约束 3 创建一个表,有2个条件(1 有权限:2有表空间) Oracle给你提 ...
最简单的基于FFmpeg的AVDevice例子（读取摄像头）
=====================================================最简单的基于FFmpeg的AVDevice例子文章列表: 最简单的基于FFmpeg的AVDev ...
Android自制浏览器WebView-android学习之旅(64)
简单讲解如何使用WebView加载百度的网页 acticity代码 public class MainActivity extends Activity { private WebView webVi ...
一台电脑上同启动两个Tomcat的方式，windows/Linux配置。
安装两个jdk,一个JDK路径在:C:\ProgramFiles (x86)\Java\jdk1.7.0_25,另外一个JDK的路径在E:\UCMSServer\j2sdk 在环境变量里并设置J ...

HDFS APPEND性能测试

HDFS APPEND性能测试的更多相关文章

随机推荐

热门专题