摘要:EMC公司作为全球信息存储及管理产品方面的率先公司,不久前。EMC宣布收购DSSD加强和巩固了其在行业内的领导地位,日前我们有幸採訪到EMC中国的张安站。他就大数据、商业存储、Spark等给大家分享了自己的看法。

谈到大数据。张安站觉得大数据本质上是两个根本性的问题。一个是数据非常大。怎样存储?另外一个是数据非常大。怎样分析?第一个问题,对于存储厂商来说。就是构建Scalability更好的存储系统。来适应这个超大规模数据存储的需求。第二就是大数据的分析,随着以Hadoop生态环境为代表的分布式计算/ 存储集群的蓬勃发展与成熟,大数据的分析变得越来越高效和准确。原来的离线数据挖掘如今能够做到在线,甚至通过在线挖掘在数分钟内对用户产生基于当前行为的推荐。

张安站,EMC中国卓越研发集团的资深project师。毕业于南开大学。毕业后增加EMC,在存储部门担任软件project师。

在读研期间,主要从事了基于手持阅读器的在线读物聚合的研究与实现,编码超过30K,积累了丰富的编码实战经验。

而且也研究了基于地理位置的在线广告投放而且成功在手持阅读器上做过原型开发。

校招时收到了百度、阿里、搜狗、EMC、 SonicWALL和创新工场等多个知名企业的offer 。而且保持了面试必过的记录。

增加EMC后。主要负责存储系统管理和监控的研究与开发。积累了丰富的系统调试经验。设计实现了存储控制协议SMIS并在系统性能调优方面积累了实战经验。承担了项目组的代码管理工作和Scrum的管理工作。

近半年工作重心在构建下一代的商业存储的管理框架,通过又一次设计获得存储系统的可靠性(Reliability)、可用性(Availability )、可扩展性(Scalability)和性能(Performance )得到质的提升。下个月将增加百度的网页搜索部担任系统架构高级研发project师,负责网页搜索产品服务架构和数据存储架构的设计与升级。

谈到怎样学习Hadoop和Spark,他觉得精读源代码是必须的。同一时候还要学会比較,另外,Scala语言是他觉得最酷的语言。

一个优秀的程序猿,肯定会喜欢Scala。

下面是对张安站的採訪实录:

CSDN:可否介绍一下眼下从事的工作?  

张安站:当前主要工作在构建EMC中高端存储的下一代管理控制平台上。这是一个全新的平台。不同与去年公布的VNX2,VNX2实际上还是分File 和Block。它们分别使用不同的CPU。物理上是隔离的。我们如今做的平台是真正的Unified。能够在一个节点上提供File Service, Block Service。因为採用了全新的架构。整个存储系统的可靠性(Reliability)、可用性(Availability)、可扩展性(Scalability)和性能(Performance)得到质的提升。传统的存储系统扩展性是Scale-in的,做不到Scale-out。因此你能够看到每一个系统不同的产品型号支持的最大硬盘数量是固定的。因此最大的存储空间也是确定的。

为了扩容。不得不买很多其它的设备。这无疑增加了IT运维的成本。

我们如今关注的就是解决传统架构的局限,适应如今云计算,大数据对存储系统新的需求,从而使我们的产品仍然在新的环境中主导存储系统的发展。

只是遗憾的是六月份是我在EMC工作的最后一个月。

七月初我会增加百度的网页搜索部,担任系统架构资深研发project师,负责网页搜索产品服务架构和数据存储架构的设计与升级,包含网页抓取、海量数据处理平台和分布式检索系统。

也是正式開始我在职场上的大数据生涯。

对大数据的理解

CSDN:谈谈您对大数据的理解?

张安站:大数据。不同的人在不同的角度都会有不同的理解。

可是归根结底,是两个根本性的问题,一个是数据非常大。怎样存储?另外一个是数据非常大,怎样分析?第一个问题,对于我们存储厂商来说。就是构建Scalability更好的存储系统,来适应这个超大规模数据存储的需求。第二个问题,就是大数据的分析。随着以Hadoop生态环境为代表的分布式计算/ 存储集群的蓬勃发展与成熟,大数据的分析变得越来越高效和准确,原来的离线数据挖掘如今能够做到在线,甚至通过在线挖掘在数分钟内对用户产生基于当前行为的推荐。

因此,能够说,这些技术的发展。也催生了很多其它的商业模式,也正在改变我们周围的生活。

比方借助大数据分析,交通违章监控能够使用更短的时间通知违章车辆;医院能够使用很多其它的用户数据的建立更好的模型以获得更好的治疗方案;金融行业能够基于用户的投资行为为用户推荐最佳的理財产品。而这些。无一不和我们的生活息息相关。大数据方兴未艾,机遇与挑战并存,让我们这些可爱的程序猿们更好的为人民服务吧!

CSDN: EMC 不久前收购了初创公司DSSD,您怎么看?

张安站:EMC是一个收购了或者说“融合”了非常多公司的公司。

EMC历史上最著名的收购莫过于2003年以6亿多美元收购VMware。事实上对于EMC的多次收购。从另外一个方面也反应了EMC对于行业趋势的把握和敏感,EMC通过多次收购,不断的加强和巩固在行业内的领导地位,从而也影响了行业的发展趋势。

这是EMC 继收购闪存公司XtremIO后在闪存市场的又一举动。事实上,2013年公布的EMC中端存储的巅峰之作VNX Rockies也公布了VNX-F的全闪存阵列,最高的IOPS达到了110W。尽管EMC相信磁盘阵列在能够遇见的未来仍将存在。可是也能够从它一系列的动作能够看出,EMC非常重视闪存市场。

收购DSSD也是这个战略的一部分。

在EMC World 2014上宣布这个消息,足以说明对DSSD的重视。DSSD的核心团队来自ZFS。ZFS能够说是世界上最先进的文件系统,为什么叫ZFS,就是因为Z是最后一个英文字母。而在这之后。无需再有其它文件系统了。让我们拭目以待。期待2015年Andy Bechtolsheim带领的开发团队将给市场带来的EMC DSSD。

Andy在斯坦福读博士时就创立了Sun。因此有足够理由相信Andy会给闪存市场带来惊喜。

传统商业存储的机遇与挑战

CSDN: EMC World 2014 提到了EMC 存储产品对Open-Stack的支持,能不能谈一些这方面的详细内容?

张安站:商业的存储系统怎样融入到云计算的集群环境?毕竟,云计算提供了三种主要的服务。即计算资源、网络资源和存储资源。

EMC存储部门关注的就是怎样将我们的存储产品融入到Open-Stack中,使得Open-Stack能够无缝的使用EMC的存储产品。因为EMC各个存储产品的相对独立性,不同的产品线可能都会支持Open-Stack。事实上技术上说白了就是实现一个Open-Stack Cinder的驱动,实现一些Open-Stack的API以使得Open-Stack能够使用存储系统上的存储资源。

在这里不得不提的是EMC的软件定义存储的实现ViPR。

ViPR 2.0未来将成为其全部存储的核心数据平台。通过增加对OpenStack Clinder插件的支持。ViPR能够与更广泛的第三方存储系统和商品驱动器兼容,EMC觉得ViPR 2.0如今能够处理全部现有存储容量的80%。

可是从Business Value来说。EMC对于Open-Stack的支持是为了将我们的存储产品更好的融入Open-Stack中。使得它能够充分利用我们的存储服务。

事实上从这一点上来讲。和Intel积极推动非常多OpenSource的项目一样,终于的目的都是使得这些开源项目更好的执行在公司的核心的软硬件平台上。当然了。也不可否认,这些大公司的推动对于这些项目起到了非常积极的作用。有了大公司在人力物力的投入,这些开源项目都能在各自的领域有了更好的发展。

CSDN:传统商业存储的在云计算背景下的机遇与挑战?

张安站:这个问题,不得不提一下EMC如今力推的第三平台战略。简单来说。第二平台就是传统的数据中心。EMC已经确定了率先的地位。第三平台是建立在移动设备、云服务、社交网络和大数据的基础之上。可是如今科技的发展能够说是又一次定义了很多东西。就如EMC World 2014的主题 REDEFINE一样。

在这次平台转型的过程中,注定有一些公司被淘汰;一些公司会站在新的浪潮之巅。EMC的传统存储部门肯定会受到影响,可是影响到底有多大谁都不敢断言。

我们如今也是Redesign我们的产品架构。非常多模块推倒重来,以更好的适应第三平台的须要。

精读源代码是必须的

CSDN:对于学习Hadoop和Spark的同学有什么好的建议?

张安站:学习最重要的是兴趣,还有激情。不能说如今什么技术热就去学什么,那么你可能永远在追随这些技术,无法真正的在技术方面提升自己。从我自己学习Hadoop和Spark的经验来说,熟读源代码,精读源代码是必须的,特别是你须要做二次开发时。当然了博客是一个非常重要的渠道,可是博主是把自己的知识进行提炼,总结形成博文的,可能他知道的一个实现的80%,可是博文可能仅仅能展现60%。

所以自己在精读了文章后,一定要深入源代码去精读。去对照。

比方我学习HDFS时,每次看到一个模块都会和我们公司的产品实现进行横向的对照。举个样例来说,HDFS的server端分名字节点(NameNode)和数据节点(DataNode),而我们的产品实现分ControlPath和DataPath。所以从大的架构上来说,二者是想通的,尽管一个是分布式存储系统,一个是中心式的存储系统。

Spark的学习也是,而且Spark的源代码无疑更加简练。相信大家能够从源代码中学到非常多东西。大家都知道Spark是用Scala语言实现的。Scala语言是我觉得最酷的语言。

一个优秀的程序猿。肯定会喜欢Scala。

写在最后:

在採訪中,我们能感觉到张安站的激情、睿智以及文採,正如在他的最新博文Redefine:Change in the Changing World中所说,科技的发展又一次定义了技术,影响了生活,改变了你我。

点击张安站博客,查看很多其它技术性文章!

HDFS HA: 高可靠性分布式存储系统解决方式的历史演进

HDFS追本溯源:HDFS操作的逻辑流程与源代码解析

HDFS追本溯源:租约。读写过程的容错处理及NN的主要数据结构


CSDN专訪:大数据时代下的商业存储的更多相关文章

  1. CSDN专访:大数据时代下的商业存储

    原文地址:http://www.csdn.net/article/2014-06-03/2820044-cloud-emc-hadoop 摘要:EMC公司作为全球信息存储及管理产品方面的领先公司,不久 ...

  2. 柯南君:看大数据时代下的IT架构(5)消息队列之RabbitMQ--案例(Work Queues起航)

    二.Work Queues(using the Java Client) 走起   在第上一个教程中我们写程序从一个命名队列发送和接收消息.在这一次我们将创建一个工作队列,将用于分发耗时的任务在多个工 ...

  3. 柯南君:看大数据时代下的IT架构(4)消息队列之RabbitMQ--案例(Helloword起航)

    柯南君:看大数据时代下的IT架构(4)消息队列之RabbitMQ--案例(Helloword起航) 二.起航 本章节,柯南君将从几个层面,用官网例子讲解一下RabbitMQ的实操经典程序案例,让大家重 ...

  4. 柯南君:看大数据时代下的IT架构(3)消息队列之RabbitMQ-安装、配置与监控

    柯南君:看大数据时代下的IT架构(3)消息队列之RabbitMQ-安装.配置与监控 一.安装 1.安装Erlang 1)系统编译环境(这里采用linux/unix 环境) ① 安装环境 虚拟机:VMw ...

  5. 看大数据时代下的IT架构(1)业界消息队列对比

    一.MQ(Message Queue) 即 消息队列,一般用于应用系统解耦.消息异步分发,能够提高系统吞吐量.MQ的产品有很多,有开源的,也有闭源,比如ZeroMQ.RabbitMQ. ActiveM ...

  6. 大数据时代下EDM邮件营销的变革

    根据研究,今年的EDM邮件营销的邮件发送量比去年增长了63%,许多方法可以为你收集用户数据,这些数据可以帮助企业改善自己在营销中的精准度,相关性和执行力. 最近的一项研究表明,中国800强企业当中超过 ...

  7. R You Ready?——大数据时代下优雅、卓越的统计分析及绘图环境

    作者按:本文根据去年11月份CSDN举办的“大数据技术大会”演讲材料整理,最初发表于2012年2月期<程序员>杂志. 0  R 的安装

  8. 大数据时代下的用户洞察:用户画像建立(ppt版)

    大数据是物理世界在网络世界的映射,是一场人类空前的网络画像运动.网络世界与物理世界不是孤立的,网络世界是物理世界层次的反映.数据是无缝连接网络世界与物理世界的DNA.发现数据DNA.重组数据DNA是人 ...

  9. 大数据时代的结构化存储--HBase

    迄今,相信大家肯定听说过 HBase,但是对于 HBase 的了解可能仅仅是它是 Hadoop 生态圈重要的一员,是一个大数据相关的数据库技术. 今天我带你们一起领略一下 HBase 体系架构,看看它 ...

随机推荐

  1. 交叉编译x264和ffmpeg

    1.x264 ./configure --host=arm-hisiv300-linux CC=arm-hisiv300-linux-gcc --enable-pic --prefix=/usr/lo ...

  2. springmvc4.2.X fastjson 替换引用配置

    <mvc:annotation-driven> <mvc:message-converters register-defaults="true"> < ...

  3. AC日记——灾后重建 洛谷 P1119

    灾后重建 思路: 看到n<=200,思考弗洛伊德算法: 如何floyed呢? floyed是一种动态规划求最短路的算法: 它通过枚举中间点来更新两点之间最短路: 回到这个题本身: 所有点的重建完 ...

  4. (19)python scrapy框架

    安装scrapy pycharm 建个纯python工程 settings里 环境变量设置 C:\Python27;C:\Python27\Scripts; 下载win32api https://so ...

  5. linux运维(重点)

    linux 添加系统变量: export log="log-all-$(date +%Y-%m-%d).php" export log="log-all-$(date + ...

  6. Java中的JAR/EAR/WAR包的文件夹结构说明(转)

    JAR包:打成JAR包的代码,一般作为工具类,在项目中,会应用到N多JAR工具包. WAR包:JAVA WEB工程,都是打成WAR包,进行发布,如果我们的服务器选择TOMCAT等轻量级服务器,一般就打 ...

  7. 对象第复制operator=

    类机制中有默认的对象复制操作符=,自定义对象复制需要注意一个问题,如果有遇到指针指向的资源是需要释放的,这时需要毫不留情释放,否则内存空间的泄露就不可避免.复制操作与拷贝构造函数的参数是一致的,只是在 ...

  8. EasyMvc入门教程-高级控件说明(18)弹出框控件

    前面两节介绍了信息框与对话框,实际开发中如果我们遇到更复杂的要求,比如要求在弹出框里显示另外的网址,如下所示: 实现代码如下: @Html.Q().Popup().Text("我可以嵌套网页 ...

  9. 转载:JAVA中获取项目文件路径

    本文转载自:http://blog.163.com/michaelgaoit%40126/blog/static/11389538620103711613620/ web 上运行 1:this.get ...

  10. SQLserver字符串分割函数

    一.按指定符号分割字符串,返回分割后的元素个数,方法很简单,就是看字符串中存在多少个分隔符号,然后再加一,就是要求的结果.CREATE function Get_StrArrayLength(  @s ...