在12月2日下午的“大数据技术与应用”分论坛的第一场演讲中,来自全球知名互联网公司——FaceBook公司的软件工程师、研发经理邵铮就带来了一颗重磅炸弹,他将为我们讲解FaceBook公司的实时数据处理分析平台的核心——Puma的演进以及未来的发展思路。

  FaceBook公司自成立以来发展就非常迅猛,时至今日,每天都有数以万计的人活跃在FaceBook之上,这一庞大的用户群体吸引了大量的企业的注意力,他们希望通过FaceBook这一平台对自己的产品或服务进行营销,以精准找到自己的潜在用户。要精准找到自己的客户,必然要对FaceBook网站用户的实时信息进行分析,FaceBook公司提供的实时数据分析工具就凸显出重要作用。

  据邵铮工程师介绍,FaceBook公司的实时数据分析平台是建立在Hadoop 和Hive的基础之上的,Hadoop Hive集群共有超过3000个节点,共同完成对数据的实时处理分析。如上图所示,数据流通过程涉及的环节较多,每个环节的延迟都会对数据的分析处理能力产生影响,为了最大地降低延迟,尽最大可能为各个用户提供实时查询结果,就要尽可能低地较少每个环节的延迟。

  邵铮工程师在本次技术课程中分享了两个关键之处,一是Scribe,另一个则是Hadoop下的由Facebook公司开发改良的Puma环节。

  邵铮工程师给我们分享了现在Facebook公司所使用的Scribe,如上图所示。并重点给我们讲解了Puma的演进与未来的发展方向。

  上图是邵铮工程师认为的Puma理想工作流程,但实际环境中因为各种因素的制约,实际上不太可能达到这一理想流程。

  上图为Puma的第二个版本,Puma2的命名是为了方便记忆和说明。但据邵铮工程师介绍,Puma同样存在一些局限。他说,HBase的写入速度较快,但读取速度就相对较慢。

  上图为Puma3的拓扑图,相对于Puma2,其延迟将大幅降低。据悉,Facebook公司目前对实时数据的处理分析能力在10秒多一点,但在未来将缩短到5秒甚至更短的时间。因为Facebook公司所具有的特殊性,其在未来将大幅缩短写性能,初步预期,相比于现在,将缩短25%的总体时间。现在每个机柜的内存为60GB,但在未来,其将大量部署SSD以替代内存,其内存大小将是现在的十倍,即600GB。

  邵铮工程师表示,在未来,将对数据调度提供更好的支持,在这点上,需要对Puma进行简单的调度,因为连续的工作负载;并且将进行大规模普及,将Hive迁移到日常的报告查询。并且邵铮工程师透露了一个令人极度兴奋的消息,这些即将开源,将免费的开放给其他工程师。

揭秘FaceBook Puma演变及发展——FaceBook公司的实时数据分析平台是建立在Hadoop 和Hive的基础之上,这个根能立稳吗?hive又是sql的Map reduce任务拆分,底层还是依赖hbase和hdfs存储的更多相关文章

  1. Hbase写入hdfs源码分析

    版权声明:本文由熊训德原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/258 来源:腾云阁 https://www.qclo ...

  2. HBase -- 基于HDFS的开源分布式NoSQL数据库

    HBase(Hadoop Database)是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,我们可以利用HBase技术在廉价的PC上搭建起大规模结构化存储集群.同Google的Bigtable ...

  3. HBase 在HDFS 上的目录树

         总所周知,HBase 是天生就是架设在 HDFS 上,在这个分布式文件系统中,HBase 是怎么去构建自己的目录树的呢? 这里只介绍系统级别的目录树. 一.0.94-cdh4.2.1版本 系 ...

  4. HBase从hdfs导入数据

    需求:将HDFS上的文件中的数据导入到hbase中 实现上面的需求也有两种办法,一种是自定义mr,一种是使用hbase提供好的import工具 一.hdfs中的数据是这样的 每一行的数据是这样的id ...

  5. HBase、HDFS和MapReduce架构异同简解

    HBase.HDFS和MapReduce架构异同 .. HBase(公司架构模型) HDFS2.0(公司架构模型) MR2.0(公司架构模型) MR1.0(公司架构模型) 中央 HMaster Nam ...

  6. HBase在HDFS上的目录介绍

    总所周知,HBase 是天生就是架设在 HDFS 上,在这个分布式文件系统中,HBase 是怎么去构建自己的目录树的呢? 第一,介绍系统级别的目录树. 一.0.94-cdh4.2.1版本 系统级别的一 ...

  7. HBase在HDFS上的目录树

    众所周知,HBase 是天生就是架设在 HDFS 上,在这个分布式文件系统中,HBase 是怎么去构建自己的目录树的呢? 这里只介绍系统级别的目录树: 一.0.94-cdh4.2.1版本 系统级别的一 ...

  8. hbase 从hdfs上读取数据到hbase中

    <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifact ...

  9. hbase与hdfs的交互

    hdfs和hbase的交互,和写MapReduce程序类似,只是需要修改输入输出数据和使用hbase的javaAPI对其进行操作处理即可 public class HBaseToHdfs extend ...

随机推荐

  1. Shell脚本之:字符串

    字符串可以用单引号,也可以用双引号,也可以不用引号. 单引号 str='this is a string' 单引号字符串的限制: 1.单引号里的任何字符都会原样输出,单引号字符串中的变量是无效的: 2 ...

  2. Node.js学习笔记(5)——关于child_process模块

    child_process是node一个比较重要的模块,通过它可以实现创建多线程,来利用多核CPU. 这个模块提供了四个创建子进程的函数. spawn.exec.execFile.fork. spaw ...

  3. 如何修改eclipse的默认字符集和修改中文乱码

    转载,以供以后学习.谢谢 有时候 java代码,导入eclipse中会出现 乱码的问题,通过修改字符集就可以解决. 看下面图片演示过程. 发表在 使用教程 | 标签为 eclipse, 乱码 | 留下 ...

  4. java面试笔记(2019)

    1. 堆啊,栈啊,内存溢出原因 2. Dubbo原理 3. Reids线程 4. 线程池安全 5. linux查看线程命令 6. ABA

  5. 从英语单词shell想到的

    shell当初听到以为很高级 后来才知道只是壳而已 百度百科中解释为 shell 在计算机科学中,Shell俗称壳(用来区别于核),是指“提供使用者使用界面”的软件(命令解析器).它类似于DOS下的c ...

  6. oracle中视图V$PGA_TARGET_ADVICE的用法

    看一下这个视图能给我们带来什么样的信息(视图中每个列都很有帮助):sys@ora10g> SELECT   pga_target_for_estimate / 1024 / 1024 " ...

  7. U-Boot中关于TEXT_BASE,代码重定位,链接地址相关说明

    都知道U-BOOT分为两个阶段,第一阶段是(~/cpu/arm920t/start.S中)在FLASH上运行(一般情况 下),完成对硬件的初始化,包括看门狗,中断缓存等,并且负责把代码搬移到SDRAM ...

  8. 【TensorFlow-windows】(六) CNN之Alex-net的测试

    主要内容: 1.CNN之Alex-net的测试 2.该实现中的函数总结 平台: 1.windows 10 64位 2.Anaconda3-4.2.0-Windows-x86_64.exe (当时TF还 ...

  9. 转载 -- iOS开发之JSON格式数据的生成与解析

    本文将从四个方面对IOS开发中JSON格式数据的生成与解析进行讲解: 一.JSON是什么? 二.我们为什么要用JSON格式的数据? 三.如何生成JSON格式的数据? 四.如何解析JSON格式的数据? ...

  10. Project Euler:Problem 41 Pandigital prime

    We shall say that an n-digit number is pandigital if it makes use of all the digits 1 to n exactly o ...