简介： Apache Hadoop FileSystem (HDFS) 是被广为使用的大数据存储方案，其核心元数据服务 NameNode 将全部元数据存放在内存中，因此所能承载的元数据规模受限于内存，单个实例所能支撑的文件个数大约 4亿。JindoFS块模式是阿里云基于 OSS 海量存储自研的一个存储优化系统，提供了高效的数据读写加速能力和元数据优化能力。JindoFS 实际表现如何，我们在 10亿文件数规模下做了压测，验证 JindoFS 在达到这个规模的时候是否还可以保持稳定的性能。

主要介绍

Apache Hadoop FileSystem (HDFS) 是被广为使用的大数据存储方案，其核心元数据服务 NameNode 将全部元数据存放在内存中，因此所能承载的元数据规模受限于内存，单个实例所能支撑的文件个数大约 4亿。JindoFS块模式是阿里云基于 OSS 海量存储自研的一个存储优化系统，提供了高效的数据读写加速能力和元数据优化能力。在设计上避免了 NameNode 上的内存限制，与HDFS不同的一点是，JindoFS元数据服务采用RocksDB作为底层元数据存储，RocksDB可以存储在大容量本地高速磁盘，解决了内存容量瓶颈问题。借助于内存缓存，将10%~40%的热文件元数据存放于内存缓存，从而保持稳定的优秀的读写性能。借助于Raft机制，JindoFS元数据服务可以组成3个主备实例，实现服务高可用。JindoFS 实际表现如何，我们在 10亿文件数规模下做了压测，验证 JindoFS 在达到这个规模的时候是否还可以保持稳定的性能。同时在一些关键的元数据操作上，我们也跟 HDFS 做了个测试对比。

JindoFS 10亿文件数测试

HDFS NameNode 单个实例所能支撑的文件个数大约 4亿，主要原因是受限于内存大小。除此之外，由于文件数增加，需要处理的DataNode上报块也增加，造成了性能上的巨大抖动。大量文件信息保存在一个很大的FsImage文件，用于下次启动时加载，而很大的FsImage文件使得 NameNode 启动需要花费10分钟以上的时间。

JindoFS 解决了以上系列问题，它使用 RocksDB 存储元数据，相比于 NameNode 可以存储更大规模的文件数，不受限于内存。另外不需要Worker节点上报块信息，没有性能抖动的问题。JindoFS 元数据服务可以在1s内完成启动，毫秒内完成主备节点切换。所以本次测试，我们分别测试了 JindoFS 从1亿文件数增长到10亿文件数，从而测试其是否可以保持稳定的性能。

数据集（共4组）

为了测试在不同的元数据规模下，JIndoFS元数据服务的性能。我们准备4组数据。分别是：初始状态（0文件数）、1亿文件数、5亿文件数、10亿文件数。我们使用一份真实的经过用户脱敏的HDFS FsImage文件，将其还原到JindoFS元数据服务当中。文件大小按1：1相应地创建block信息一起存入JindoFS元数据。最终生成的数据集如下。

元数据磁盘空间占用

另外，目录层级主要分布在5到7级目录居多。数据集的文件大小分布、目录层级分布一定程度上比较接近生产环境的情况。

NNBench测试

NNBench全称NameNode Benchmark，是HDFS官方自带的用于测试NameNode性能的工具。由于它使用的是标准的FileSystem接口，因此我们可以使用它来测试JindoFS服务端的性能。NNBench的执行参数如下：

测试写性能

-operation create_write -maps 200 -numberOfFiles 5000 -bytesToWrite 512

测试读性能

-operation open_read -maps 200 -numberOfFiles 5000 -bytesToWrite 512

启动200个Map Task，每个Task写（读）5000个文件，共计100万个文件。（受测试集群规模限制，实际同时执行Map个数为128个）

测试结果

NNBench的结果很好地反馈了随着元数据规模增长，元数据服务的性能变化曲线。通过结果我们可以分析得出：

当达到10亿文件数时，写入TPS受到略微影响，TPS 下降为原先的88%。
当达到5亿文件数时，读TPS受到略微影响，TPS 下降为原先的94%。而10亿文件数时，读TPS保持稳定，跟5亿文件数时基本持平。

TPC-DS测试

使用的是官方TPC-DS数据集，5TB数据量，使用的是ORC格式，Spark作为执行引擎进行测试。

测试成绩如下，时间单位秒：

99个查询总耗时对比：

通过观察发现，去掉误差影响，随着元数据规模从0增加到10亿文件数，TPC-DS成绩基本不受影响。

ls -R/count测试

上述NNBench工具主要测试高并发下元数据服务单点写入、单点查询的性能。然而，文件列表导出（ls -R)操作、文件大小统计（du/count)操作也是用户使用频率较高的操作，这些命令的执行时间，反应了元数据服务遍历操作的执行效率。

我们使用两个样本数据进行测试：

对一个表（半年数据，154个分区，270万个文件）执行ls -R操作，统计执行时间，使用以下命令

time hadoop fs -ls -R jfs://test/warehouse/xxx.db/tbl_xxx_daily_xxx > /dev/null

对一个数据库（50万个目录，1800万个文件）执行count操作，统计执行时间，使用以下命令

time hadoop fs -count jfs://test/warehouse/xxx.db

测试结果发现，对于遍历（ls -R/count)相同数量的文件（目录），元数据服务的性能保持稳定，不会随着元数据总量的增长有所变化。

对于10亿级别的文件数，磁盘占用有近100GB，JindoFS元数据服务只会缓存部分热文件元数据，那么元数据文件的page cache是否会对性能有所影响？我们为此做了测试。

热启动：直接重启元数据服务服务，此时系统存在page cahe。

冷启动：我们使用命令echo 3 > /proc/sys/vm/drop_caches清空缓存，并重启元数据服务。

测试结果如下（使用10亿文件数据集）

通过观察发现，冷启动情况下，这些操作耗时增加了约0.2秒，只受到细微的影响。

与HDFS横向对比测试

通过上面的测试我们得知 JindoFS 在10亿文件数下，依然保持了稳定的性能。另外我们补充测试了 JindoFS 跟 HDFS 的对比。由于 HDFS 存储10亿规模文件数需要极高规格的机器，因此本轮测试我们主要测试1亿文件数场景，我们通过横向对比list、du、count等常用操作，对比两者的性能差异。

样本说明

抽取 a, b, c, d 共 4 组目录，

目录 a：Hive warehouse目录包含 31.7万目录，1250万文件；

目录 b：某 database 目录包含 1万2目录，32万文件；

目录 c：某 table 目录包含 91个目录，7.7万文件；

目录 d：spark 结果存放目录包含4.2万目录，7.1万文件；

测试结果（用时更短，性能更好）

单层 list 操作

对单层目录进行展开并输出，采样方法： time hadoop dfs -ls [DIR] > /dev/null

递归 list 操作

对目录进行逐层展开并输出，采样方法： time hadoop dfs -ls -R [DIR] > /dev/null

du 操作

对目录占用的存储空间进行计算，采样方法： time hadoop dfs -du [DIR] > /dev/null

count 操作

对目录的文件(夹)数量、容量进行计算，采样方法： time hadoop dfs -count [DIR] > /dev/null

结果分析

通过上述测试结果，可以明显发现 JindoFS 在list、du、count等常用操作上速度明显快于 HDFS。分析原因，HDFS NameNode 内存中使用了全局的读写锁，所以对于查询操作，尤其是对目录的递归查询操作都需要拿读锁。拿锁之后使用了单线程串行的方式做目录递归操作，速度较慢。拿锁时间长继而又影响了其它rpc请求的执行。JindoFS 从设计上解决了这些问题。它对目录的递归操作使用了多线程并发加速，因此在对目录树的递归操作上速度更快。同时使用了不同的目录树存储结构，配合细粒度锁，从而减少了多个请求之间的影响。

总结

JindoFS 块模式可以轻松地存储10亿+文件数，并且提供高性能的读写请求处理能力。跟 HDFS NameNode 相比占用内存更小、性能更好、运维更加简单。我们可以利用 JindoFS 作为存储引擎，将底层数据存放在对象存储（比如OSS）上，并且利用 JindoFS 的本地缓存加速能力，组成一个云上稳定、可靠、高性能的大数据存储方案，给上层计算分析引擎提供强大有力的支撑。

作者：苏昆辉，花名抚月，阿里巴巴计算平台事业部 EMR 技术专家, Apache HDFS committer，目前从事开源大数据存储和优化方面的工作。

原文链接

本文为阿里云原创内容，未经允许不得转载

10亿+文件数压测，阿里云JindoFS轻松应对的更多相关文章

10 月 30 日北京 LiveVideoStack 阿里云视频云专场限量赠票 100 张
10 月 30 日 | 北京 LiveVideoStack 将携手阿里云共邀 4 位技术大咖,一同探讨从上云到创新,视频云的新技术与新场景.阿里云视频云依托阿里云服务数百万开发者的卓越服务能力与实践, ...
<亲测>阿里云centos7 挂载数据盘配置
阿里云centos7 挂载数据盘配置 2018年07月17日 15:13:53 阅读数:235更多个人分类: linux阿里云ECS数据盘挂载查看磁盘情况 fdisk -l 其中/dev/v ...
阿里云解析记录应对家里动态IP
<?php #需要配置的项 define('ACCESSKEYID',''); #阿里云用户密钥ID 获取方法 https://help.aliyun.com/knowledge_detail/ ...
<亲测>阿里云centos7安装redis
安装redis yum install redis 启动redis systemctl start redis.service 设置redis开机启动 systemctl enable redis.s ...
[转载]点评阿里云、盛大云等国内IaaS产业
免责声明: 本文转自网络文章,转载此文章仅为个人收藏,分享知识,如有侵权,请联系博主进行删除. 原文作者:刘黎明原文地址:http://www.chinacloud.org ...
“军装照”背后——天天P图如何应对10亿流量的后台承载。
WeTest 导读天天P图"军装照"活动交出了一份10亿浏览量的答卷,一时间刷屏朋友圈,看到这幕,是不是特别想复制一个如此成功的H5?不过本文不教你如何做一个爆款H5,而是介绍天 ...
用阿里云ecs部署kubernetes/K8S的坑（VIP、slb、flannel、gw模式）
1 阿里云ecs不支持keepalived vip 1.1 场景描述本来计划用keepalived配合nginx做VIP漂移,用以反代多台master的apiserver的6443端口,结果部署了v ...
wrk 及扩展支持 tcp 字节流协议压测
wrk 及扩展支持 tcp 字节流协议压测高性能.方便使用的 HTTP(s) 的流量压测工具,结合了多个开源项目开发而成: redis 的 ae 事件框架 luajit openssl http-p ...
精准容量、秒级弹性，压测工具 + SAE 方案如何完美突破传统大促难关？
作者 | 代序阿里云云原生技术团队本文整理自<Serverless 技术公开课>,"Serverless"公众号后台回复"入门",即可获取系列文 ...
阿里云视频直播PHP-SDK
阿里云视频直播配置及 PHP-SDK 接入教程准备工作域名管理配置鉴权地址生成器及DEMO演示-熟悉鉴权接入SDK推流回调的配置阿里云视频直播配置及 PHP-SDK 接入教程个人感觉,阿 ...

随机推荐

安装完exe版本jdk之后未配置java_home和path环境变量仍然可以在cmd中使用java命令原因解释
如题: 为何可以打出Java -version的版本 ,因为jdk安装过程,拷贝了java\javac等几个命令到C:\windows\system32目录了. 如果使用javac -version ...
Android 开发Day10
这是main里面的所有代码,按版本修改过 AndroidManifest.xml <?xml version="1.0" encoding="utf-8" ...
记录--uniapp微信小程序引入threeJs并导入模型
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助前言我的需求是使用uniapp写微信小程序,在小程序中使用threeJs就行了,目前暂不考虑兼容app什么的. 1.引入小程序版的thr ...
常用命令--htpasswd--（网站加密）
常用命令htpasswd(网站加密) 常用选项 htpasswd 是一个用于创建和管理HTTP基本认证密码文件的命令行工具,通常与Apache Web服务器一起使用.以下是 htpasswd 常用选项 ...
KingbaseES 如何查看表的创建时间
前言在oracle数据库中,我们可以查看数据字典dba_objects得到表的创建时间.在Kingbase中如何查看表的创建时间呢?Kingbase数据库中无法通过数据字典查看有关信息,但可以通过其 ...
Bochs调试指令
Bochs Bochs就像一台真机一样,处理器在加电之后,要开始取指令并执行指令. jmpf f000:e05b ;转移目标位置ROM-BIOS 如图在左侧显示了该指令所在的物理内存地址 0x ...
02 jQuery选择器
02 jQuery选择器 jQuery的逻辑和css选择器的逻辑是一样的. // 语法: $(选择器) 可以使用jQuery选择器快速的对页面结构进行操作. 案例: <!DOCTYPE html ...
OpenHarmony Meetup 深圳站招募令
OpenHarmony Meetup城市巡回深圳站火热来袭!! 日期:2023年10月15日14:00 地点:深圳市福田区上步路中路1003号深圳市科学馆与OpenHarmony技术大咖近距离 ...
SQL 查询优化指南：SELECT、SELECT DISTINCT、WHERE 和 ORDER BY 详解
SELECT 关键字 SQL的SELECT语句用于从数据库中选择数据.SELECT语句的基本语法如下: SELECT column1, column2, ... FROM table_name; 其中 ...
并发编程面试必备之ConcurrentHashMap源码解析
ConcurrentHashMap在我的面试生涯中,10次有8次是会被问到的,记得刚毕业那会,被问到ConcurrentHashMap源码的无助与苦涩,无奈只能网上找了一些教程,背一背,才算是蒙混过关 ...

10亿+文件数压测，阿里云JindoFS轻松应对