摘要:EMC公司作为全球信息存储及管理产品方面的领先公司,不久前,EMC宣布收购DSSD加强和巩固了其在行业内的领导地位,日前我们有幸采访到EMC中国的张安站,他就大数据、商业存储、Spark等给大家分享了自己的看法。

谈到大数据,张安站认为大数据本质上是两个根本性的问题,一个是数据很大,如何存储?另外一个是数据很大,如何分析?第一个问题,对于存储厂商来说,就是构建Scalability更好的存储系统,来适应这个超大规模数据存储的需求。第二就是大数据的分析,随着以Hadoop生态环境为代表的分布式计算/ 存储集群的蓬勃发展与成熟,大数据的分析变得越来越高效和准确,原来的离线数据挖掘现在可以做到在线,甚至通过在线挖掘在数分钟内对用户产生基于当前行为的推荐。

张安站,EMC中国卓越研发集团的资深工程师,毕业于南开大学,毕业后加入EMC,在存储部门担任软件工程师。在读研期间,主要从事了基于手持阅读器的在线读物聚合的研究与实现,编码超过30K,积累了丰富的编码实战经验。

并且也研究了基于地理位置的在线广告投放并且成功在手持阅读器上做过原型开发。校招时收到了百度、阿里、搜狗、EMC、 SonicWALL和创新工场等多个知名企业的offer ,并且保持了面试必过的记录。

加入EMC后,主要负责存储系统管理和监控的研究与开发,积累了丰富的系统调试经验;设计实现了存储控制协议SMIS并在系统性能调优方面积累了实战经验;承担了项目组的代码管理工作和Scrum的管理工作。 近半年工作重心在构建下一代的商业存储的管理框架,通过重新设计获得存储系统的可靠性(Reliability)、可用性(Availability )、可扩展性(Scalability)和性能(Performance )得到质的提升。下个月将加入百度的网页搜索部担任系统架构高级研发工程师,负责网页搜索产品服务架构和数据存储架构的设计与升级。

谈到如何学习Hadoop和Spark,他觉得精读源码是必须的,同时还要学会比较,另外,Scala语言是他认为最酷的语言。一个优秀的程序员,肯定会喜欢Scala。以下是对张安站的采访实录:

CSDN:可否介绍一下目前从事的工作?  

张安站:当前主要工作在构建EMC中高端存储的下一代管理控制平台上。这是一个全新的平台。不同与去年发布的VNX2,VNX2实际上还是分File 和Block,它们分别使用不同的CPU,物理上是隔离的。我们现在做的平台是真正的Unified,可以在一个节点上提供File Service, Block Service。由于采用了全新的架构,整个存储系统的可靠性(Reliability)、可用性(Availability)、可扩展性(Scalability)和性能(Performance)得到质的提升。传统的存储系统扩展性是Scale-in的,做不到Scale-out。因此你可以看到每个系统不同的产品型号支持的最大硬盘数量是固定的,因此最大的存储空间也是确定的。为了扩容,不得不买更多的设备,这无疑增加了IT运维的成本。我们现在关注的就是解决传统架构的局限,适应现在云计算,大数据对存储系统新的需求,从而使我们的产品仍然在新的环境中主导存储系统的发展。

不过遗憾的是六月份是我在EMC工作的最后一个月。七月初我会加入百度的网页搜索部,担任系统架构资深研发工程师,负责网页搜索产品服务架构和数据存储架构的设计与升级,包括网页抓取、海量数据处理平台和分布式检索系统。也是正式开始我在职场上的大数据生涯。

对大数据的理解

CSDN:谈谈您对大数据的理解?

张安站:大数据,不同的人在不同的角度都会有不同的理解。但是归根结底,是两个根本性的问题,一个是数据很大,如何存储?另外一个是数据很大,如何分析?第一个问题,对于我们存储厂商来说,就是构建Scalability更好的存储系统,来适应这个超大规模数据存储的需求。第二个问题,就是大数据的分析。随着以Hadoop生态环境为代表的分布式计算/ 存储集群的蓬勃发展与成熟,大数据的分析变得越来越高效和准确,原来的离线数据挖掘现在可以做到在线,甚至通过在线挖掘在数分钟内对用户产生基于当前行为的推荐。

因此,可以说,这些技术的发展,也催生了更多的商业模式,也正在改变我们周围的生活。比如借助大数据分析,交通违章监控可以使用更短的时间通知违章车辆;医院可以使用更多的用户数据的建立更好的模型以获得更好的治疗方案;金融行业可以基于用户的投资行为为用户推荐最佳的理财产品。而这些,无一不和我们的生活息息相关。大数据方兴未艾,机遇与挑战并存,让我们这些可爱的程序猿们更好的为人民服务吧!

CSDN: EMC 不久前收购了初创公司DSSD,您怎么看?

张安站:EMC是一个收购了或者说“融合”了很多公司的公司。EMC历史上最著名的收购莫过于2003年以6亿多美元收购VMware。其实对于EMC的多次收购,从另外一个方面也反应了EMC对于行业趋势的把握和敏感,EMC通过多次收购,不断的加强和巩固在行业内的领导地位,从而也影响了行业的发展趋势。这是EMC 继收购闪存公司XtremIO后在闪存市场的又一举动。其实,2013年发布的EMC中端存储的巅峰之作VNX Rockies也发布了VNX-F的全闪存阵列,最高的IOPS达到了110W。虽然EMC相信磁盘阵列在可以遇见的未来仍将存在,但是也可以从它一系列的动作可以看出,EMC非常重视闪存市场。收购DSSD也是这个战略的一部分。

在EMC World 2014上宣布这个消息,足以说明对DSSD的重视。DSSD的核心团队来自ZFS。ZFS可以说是世界上最先进的文件系统,为什么叫ZFS,就是因为Z是最后一个英文字母,而在这之后,无需再有其他文件系统了。让我们拭目以待,期待2015年Andy Bechtolsheim带领的开发团队将给市场带来的EMC DSSD。Andy在斯坦福读博士时就创立了Sun。因此有足够理由相信Andy会给闪存市场带来惊喜。

传统商业存储的机遇与挑战

CSDN: EMC World 2014 提到了EMC 存储产品对Open-Stack的支持,能不能谈一些这方面的具体内容?

张安站:商业的存储系统如何融入到云计算的集群环境?毕竟,云计算提供了三种基本的服务,即计算资源、网络资源和存储资源。EMC存储部门关注的就是如何将我们的存储产品融入到Open-Stack中,使得Open-Stack可以无缝的使用EMC的存储产品。由于EMC各个存储产品的相对独立性,不同的产品线可能都会支持Open-Stack。其实技术上说白了就是实现一个Open-Stack Cinder的驱动,实现一些Open-Stack的API以使得Open-Stack可以使用存储系统上的存储资源。在这里不得不提的是EMC的软件定义存储的实现ViPR。ViPR 2.0未来将成为其所有存储的核心数据平台。通过添加对OpenStack Clinder插件的支持,ViPR可以与更广泛的第三方存储系统和商品驱动器兼容,EMC认为ViPR 2.0现在能够处理所有现有存储容量的80%。

但是从Business Value来说,EMC对于Open-Stack的支持是为了将我们的存储产品更好的融入Open-Stack中。使得它能够充分利用我们的存储服务。其实从这一点上来讲,和Intel积极推动很多OpenSource的项目一样,最终的目的都是使得这些开源项目更好的运行在公司的核心的软硬件平台上。当然了,也不可否认,这些大公司的推动对于这些项目起到了非常积极的作用。有了大公司在人力物力的投入,这些开源项目都能在各自的领域有了更好的发展。

CSDN:传统商业存储的在云计算背景下的机遇与挑战?

张安站:这个问题,不得不提一下EMC现在力推的第三平台战略。简单来说,第二平台就是传统的数据中心,EMC已经确定了领先的地位。第三平台是建立在移动设备、云服务、社交网络和大数据的基础之上。但是现在科技的发展可以说是重新定义了许多东西,就如EMC World 2014的主题 REDEFINE一样。在这次平台转型的过程中,注定有一些公司被淘汰;一些公司会站在新的浪潮之巅。EMC的传统存储部门肯定会受到影响,但是影响究竟有多大谁都不敢断言。我们现在也是Redesign我们的产品架构,很多模块推倒重来,以更好的适应第三平台的需要。

精读源码是必须的

CSDN:对于学习Hadoop和Spark的同学有什么好的建议?

张安站:学习最重要的是兴趣,还有激情。不能说现在什么技术热就去学什么,那么你可能永远在追随这些技术,无法真正的在技术方面提升自己。从我自己学习Hadoop和Spark的经验来说,熟读源码,精读源码是必须的,特别是你需要做二次开发时。当然了博客是一个很重要的渠道,但是博主是把自己的知识进行提炼,总结形成博文的,可能他知道的一个实现的80%,但是博文可能只能展现60%。所以自己在精读了文章后,一定要深入源码去精读,去对比。比如我学习HDFS时,每次看到一个模块都会和我们公司的产品实现进行横向的对比。举个例子来说,HDFS的服务器端分名字节点(NameNode)和数据节点(DataNode),而我们的产品实现分ControlPath和DataPath。所以从大的架构上来说,二者是想通的,虽然一个是分布式存储系统,一个是中心式的存储系统。

Spark的学习也是,而且Spark的源码无疑更加简练,相信大家能够从源码中学到很多东西。大家都知道Spark是用Scala语言实现的。Scala语言是我认为最酷的语言。一个优秀的程序员,肯定会喜欢Scala。

写在最后:

在采访中,我们能感觉到张安站的激情、睿智以及文采,正如在他的最新博文Redefine:Change in the Changing World中所说,科技的发展重新定义了技术,影响了生活,改变了你我。

点击张安站博客,查看更多技术性文章!

HDFS HA: 高可靠性分布式存储系统解决方案的历史演进

HDFS追本溯源:HDFS操作的逻辑流程与源码解析

HDFS追本溯源:租约,读写过程的容错处理及NN的主要数据结构


CSDN专访:大数据时代下的商业存储的更多相关文章

  1. CSDN专訪:大数据时代下的商业存储

    原文地址:http://www.csdn.net/article/2014-06-03/2820044-cloud-emc-hadoop 摘要:EMC公司作为全球信息存储及管理产品方面的率先公司,不久 ...

  2. 柯南君:看大数据时代下的IT架构(5)消息队列之RabbitMQ--案例(Work Queues起航)

    二.Work Queues(using the Java Client) 走起   在第上一个教程中我们写程序从一个命名队列发送和接收消息.在这一次我们将创建一个工作队列,将用于分发耗时的任务在多个工 ...

  3. 柯南君:看大数据时代下的IT架构(4)消息队列之RabbitMQ--案例(Helloword起航)

    柯南君:看大数据时代下的IT架构(4)消息队列之RabbitMQ--案例(Helloword起航) 二.起航 本章节,柯南君将从几个层面,用官网例子讲解一下RabbitMQ的实操经典程序案例,让大家重 ...

  4. 柯南君:看大数据时代下的IT架构(3)消息队列之RabbitMQ-安装、配置与监控

    柯南君:看大数据时代下的IT架构(3)消息队列之RabbitMQ-安装.配置与监控 一.安装 1.安装Erlang 1)系统编译环境(这里采用linux/unix 环境) ① 安装环境 虚拟机:VMw ...

  5. 看大数据时代下的IT架构(1)业界消息队列对比

    一.MQ(Message Queue) 即 消息队列,一般用于应用系统解耦.消息异步分发,能够提高系统吞吐量.MQ的产品有很多,有开源的,也有闭源,比如ZeroMQ.RabbitMQ. ActiveM ...

  6. 大数据时代下EDM邮件营销的变革

    根据研究,今年的EDM邮件营销的邮件发送量比去年增长了63%,许多方法可以为你收集用户数据,这些数据可以帮助企业改善自己在营销中的精准度,相关性和执行力. 最近的一项研究表明,中国800强企业当中超过 ...

  7. R You Ready?——大数据时代下优雅、卓越的统计分析及绘图环境

    作者按:本文根据去年11月份CSDN举办的“大数据技术大会”演讲材料整理,最初发表于2012年2月期<程序员>杂志. 0  R 的安装

  8. 大数据时代下的用户洞察:用户画像建立(ppt版)

    大数据是物理世界在网络世界的映射,是一场人类空前的网络画像运动.网络世界与物理世界不是孤立的,网络世界是物理世界层次的反映.数据是无缝连接网络世界与物理世界的DNA.发现数据DNA.重组数据DNA是人 ...

  9. 大数据时代的结构化存储--HBase

    迄今,相信大家肯定听说过 HBase,但是对于 HBase 的了解可能仅仅是它是 Hadoop 生态圈重要的一员,是一个大数据相关的数据库技术. 今天我带你们一起领略一下 HBase 体系架构,看看它 ...

随机推荐

  1. SQL_SERVER_2008升级SQL_SERVER_2008_R2的方法

    SQL 2008升级到SQL 2008 R2. 说到为什么要升级是因为,从另一台机器上备份了一个数据库,到我的机器上还原的时候提示"948错误,意思就是不能把高版本的数据库附加到低版本上,所 ...

  2. 谷歌发布 TensorFlow Serving

    TensorFlow服务是一个灵活的,高性能的机器学习模型的服务系统,专为生产环境而设计. TensorFlow服务可以轻松部署新的算法和实验,同时保持相同的服务器体系结构和API. TensorFl ...

  3. 解决nodejs中json序列化时Date类型为UTC格式

    在nodejs中,json序列化时Date类型时,默认转为UTC格式. 如下图 zhupengfei@DESKTOP-HJASOE3 MINGW64 /d/MyProject/exp2 $ node ...

  4. jquery form提交

    $('#form').form("submit", { url: "Stu_sendsms.aspx", onSubmit: function () { $(' ...

  5. Tomcat的安装与配置

    Windows安装Tomcat与启动 安装版安装 安装版长这个样子,下载到电脑上后双击开始安装 双击后出现如下页面,点击 Next> 之后是这个页面,点击 I Agree 之后出现如下页面,点击 ...

  6. 操作系统内存管理之 内部碎片vs外部碎片

    外部碎片:因为行程持续地被载入与置换,使得可用的记忆体空间被分割成许多不连续的区块.虽然记忆体所剩空间总和足够让新行程执行,却因为空间不连续,导致程式无法载入执行.内部碎片:发生在以固定长度分割区来进 ...

  7. MongoDB Java

    MongoDB Java 环境配置 在Java程序中如果要使用MongoDB,你需要确保已经安装了Java环境及MongoDB JDBC 驱动. 你可以参考本站的Java教程来安装Java程序.现在让 ...

  8. Python3 File 方法

    Python3 File(文件) 方法 file 对象使用 open 函数来创建,下表列出了 file 对象常用的函数: 序号 方法及描述 1 file.close() 关闭文件.关闭后文件不能再进行 ...

  9. PTA中提交Python3程序的一些套路

    0. FAQ 0.1 提交后提示"答案错误"或者"格式错误" PTA检查答案正确与否是通过字符串匹配实现的.所以可能有以下几种原因: 格式错误:程序的输出要与题 ...

  10. Java内存泄漏分析系列之七:使用MAT的Histogram和Dominator Tree定位溢出源

    原文地址:http://www.javatang.com 基础概念 先列出几个基础的概念: Shallow Heap 和 Retained Heap Shallow Heap表示对象本身占用内存的大小 ...