GooseFS助力大数据业务数倍提升计算能力
前言
GooseFS是由腾讯云推出的一款分布式缓存方案,主要针对包括需要缓存加速的数据湖业务场景,提供基于对象存储COS服务的近计算端数据加速层。
GooseFS 基于开源大数据缓存方案 Alluxio 进行设计和研发。相较于开源方案,GooseFS 提供了更多关键特性,稳定性和性能优化;同时深度融合了腾讯云生态,对接了腾讯云TKE、EMR等计算服务,为用户提供开箱即用的能力。
缓存加速和数据本地化GooseFS提供的重要能力之一。
- GooseFS 可以与计算节点混合部署提高数据本地性,利用高速缓存功能解决存储性能问题,提高读写对象存储 COS 文件的效率。
- GooseFS 可以提供近计算端的分布式共享缓存,上层计算应用可以透明地、高效地从远端存储将需要频繁访问的热数据缓存到近计算端,加速数据 I/O 性能。
- GooseFS 提供了感知元数据 Table 的能力,能够加速大数据场景下列出文件列表( List ),重命名文件( Rename )等元数据操作的性能。此外,业务可以按需选择HDD, SSD,NVME SSD 等不同的存储介质,平衡业务成本和数据访问性能。
本文介绍了GooseFS读写元数据时的表现,并与HDFS进行对比;同时也测试了在混合读写情况下GooseFS在性能表现上的稳定性。
01 测试表现
我们使用NNBench进行测试。NNBench是HDFS官方自带的用于测试NameNode性能的工具。由于它使用的是标准的FileSystem接口,因此可以使用它来测试GooseFS服务端的性能。在测试方案上,我们在GooseFS和 HDFS 上创建相同的数据集,观察TPS值,对比GooseFS性能表现情况。
我们使用了1台EMR标准型S2机器(CPU:8核,内存:32GB,高效云盘:100G x 1)作为GooseFS集群的Master节点,3台EMR标准型S5机器(CPU:16核,内存:64GB,高效云盘:100G x 5)作为Worker节点,同时将GooseFS集群缓存策略设置为wPolicy=MUST_CACHE,rPolicy=CACHE。
1. Write测试
大数据场景中需要频繁创建文件,我们首先比较了写入文件的性能,由于本次测试主要目的是验证元数据性能表现,因此文件大小选择了0字节。测试结果如下所示:


可以看到,在集群的环境配置,maps等都相同的情况下:
(1)GooseFS在加载元数据的比hdfs性能至少提升20%。
(2)数据量增加的时候GooseFS处理数据等性能提升更明显。
这个主要是因为GooseFS采用文件粒度锁,可以并发创建文件。而HDFS是全局锁,相当于顺序做创建操作。因此写请求QPS增加的时候,GooseFS性能提升更明显。
2. List测试
Write测试主要测试高并发下元数据服务单点写入、单点查询的性能。然而,文件列表导出(ls/ls -R)操作、文件大小统计(du/count)操作也是用户使用频率较高的操作,这些命令的执行时间,反应了元数据服务遍历操作的执行效率。在测试方案上,为了保证HDFS和GooseFS测试数据的一致性,我们采用相同的数据集,执行相同的操作,测试GooseFS和HDFS元数据服务遍历操作的执行效率。
数据集分两个场景:
(1)多层级数据:50w数据,目录层级4层。
(2)单层级数据:单个目录下10w文件。
相关测试结果表现如下:


可以看到,GooseFS加速数据I/O性能。提供了感知元数据的能力,能够加速大数据场景下列出文件列表List等元数据操作的性能。尤其在多层级的数据中性能加速更加明显。
3、SliveTest测试
SliveTest位于hadoop的test包中,代码结构清晰,其主要功能是通过大量map制造多种rpc请求,检测Namenode的性能。我们可以设定map数量,每个map发起的rpc请求次数,每一种rpc操作占总操作的百分比,以及读写数据量、block size等配置。测试master混合访问情况下各类请求的qps。
在测试方案上,设置RPC请求(读:60%,写:40%)模拟混合访问下,HDFS和GooseFS处理数据的性能。我们将RPC设置为:append 10% create 10% delete 10% mkdir 5% rename 5% read 30% ls 30%。
相关测试结果表现如下:


可以看到,Master在混合访问情况下,GooseFS整体性能表现优于HDFS。
基于上面几个测试,GooseFS采用文件粒度锁及list开启了并发优化,在SliveTest这种混合读写(多读少写)的场景中,GooseFS处理事物的能力明显优于HDFS。
02 总结
GooseFS提供了可预测的资源划分和资源使用,使得系统管理员可以对外提供稳定的性能保证。此外,GooseFS可以给共享存储资源的计算集群带来显著的性能收益。
GooseFS提供近计算端的分布式共享缓存,上层计算应用可以透明地、高效地从远端存储将需要频繁访问的热数据缓存到近计算端,加速数据 I/O 性能。关于更多GooseFS请前往:https://cloud.tencent.com/document/product/436/56412
原文链接:https://mp.weixin.qq.com/s/ICWgpa33S9K11suBKJf0Sw
GooseFS助力大数据业务数倍提升计算能力的更多相关文章
- 华为云BigData Pro解读: 鲲鹏云容器助力大数据破茧成蝶
华为云鲲鹏云容器 见证BigData Pro蝶变之旅大数据之路顺应人类科技的进步而诞生,一直顺风顺水,不到20年时间,已渗透到社会生产和人们生活的方方面面,.然而,伴随着信息量的指数级增长,大数据也开 ...
- CarbonData:大数据融合数仓新一代引擎
[摘要] CarbonData将存储和计算逻辑分离,通过索引技术让存储和计算物理上更接近,提升CPU和IO效率,实现超高性能的大数据分析.以CarbonData为融合数仓的大数据解决方案,为金融转型打 ...
- 使用紧凑的序列化器,数倍提升性能 —— ESFramework 4.0 快速上手(11)
在分布式通信系统中,网络传递的是二进制流,而内存中是我们基于对象模型构建的各种各样的对象,当我们需要将一个对象通过网络传递给另一个节点时,首先需要将其序列化为字节流,然后通过网络发送给目标节点,目标节 ...
- ASP大数据量使用GetRows()提升速度
抽取10万条数据,Access数据库,GetRows() 现有10W条数据,Access数据库保存 通过正常提取: <% Set conn= Server.CreateObject(" ...
- 如何学好Java大数据并快速提升
Java作为一种最流行的,最热门的编程语言,可以说它无处不在,目前全球有着数十亿的设备正在运行着Java,很多服务器程序都是用Java编写,用以处理每天超过数以千万的数据.无论是手机软件.手机Java ...
- 【云+社区极客说】新一代大数据技术:构建PB级云端数仓实践
本文来自腾讯云技术沙龙,本次沙龙主题为构建PB级云端数仓实践 在现代社会中,随着4G和光纤网络的普及.智能终端更清晰的摄像头和更灵敏的传感器.物联网设备入网等等而产生的数据,导致了PB级储存的需求加大 ...
- 腾讯云EMR大数据实时OLAP分析案例解析
OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值.本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾 ...
- Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户
你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:1 ...
- 百亿级别数据量,又需要秒级响应的案例,需要什么系统支持呢?下面介绍下大数据实时分析工具Yonghong Z-Suite
Yonghong Z-Suite 除了提供优秀的前端BI工具之外,Yonghong Z-Suite让用户可以选购分布式数据集市来支持实时大数据分析. 对于这种百亿级的大数据案例,Yonghong Z- ...
随机推荐
- 学会使用Python的threading模块、掌握并发编程基础
threading模块 Python中提供了threading模块来实现线程并发编程,官方文档如下: 官方文档 添加子线程 实例化Thread类 使用该方式新增子线程任务是比较常见的,也是推荐使用的. ...
- 重新整理 .net core 实践篇————熔断与限流[三十五]
前言 简单整理一下熔断与限流,跟上一节息息相关. 正文 polly 的策略类型分为两类: 被动策略(异常处理.结果处理) 主动策略(超时处理.断路器.舱壁隔离.缓存) 熔断和限流通过下面主动策略来实现 ...
- Linux-远程服务ssh
1.远程管理服务介绍 (1)SSH是(Secure Shell Protocol)的简写,由IETF网络工作小组制定:在进行数据传输之前,SSH先对联机数据包通过加密技术进行机密处理,加密后在进行文件 ...
- webrtc之TURE、STUN、摄像头打开实战
前言: 大家周末好,今天给 webrtc之TURE.STUN.摄像头打开实战 大家分享的是webrtc第一篇文章,在之前的音视频文章里面没有分享过关于webrtc的内容:在上个周末分享了一篇关于播放器 ...
- 资源:Intellij IDEA 最新旗舰版注册激活破解*附注册码(2020年亲测)
永久激活 1. 下载jetbrains-agent.jar包(2020.03.22亲测) 链接: https://pan.baidu.com/s/1BFXPwlROEF03BkhGzGIgEA 提取码 ...
- Https:证书生成 .p12 .keyStore 和 .truststore文件理解
当我们需要SSL证书时,可以自动生成SSL证书,但是每个系统都申请一次证书会比较麻烦,所以用到了如下几个文件格式: .p12(PKCS #12) 我们的每一个证书都可以生成一个.p12文件,这个文 ...
- 计算机网络体系结构整理-第九单元移动IP
第九章 移动IP 什么是移动:移动指的是用户连接位置的改变,而不是设备物理位置的改变 移动可以是离散的或连续的 移动IP的基本要求:1.IP地址不变 2.宿地址路由 3.信息量和交互简化 4.安全 5 ...
- HanLP使用教程——NLP初体验
话接上篇NLP的学习坑 自然语言处理(NLP)--简介 ,使用HanLP进行分词标注处词性. HanLP使用简介 HanLP是一系列模型与算法组成的NLP工具包,目标是普及自然语言处理在生产环境中的应 ...
- sort,wc,uniq 排序与统计命令
sort命令 语法:sort [parameter] [file or stdin]参数: -f:忽略大小写的差异,例如A和a视为编码相同 -b:忽略最前面的空格符部分 -n:使用"纯数字& ...
- 『与善仁』Appium基础 — 1、Android系统的测试环境搭建
目录 1.Android操作系统简介 (1)Android系统诞生 (2)Android系统的结构 (3)Android测试环境搭建整体思路 2.Java环境安装 (1)JDK8下载 (2)安装JDK ...