你的数据根本不够大，别老扯什么Hadoop了

本文原名“Don’t
use Hadoop when your data isn’t that big ”，出自有着多年从业经验的数据科学家Chris
Stucchio，纽约大学柯朗研究所博士后，搞过高频交易平台，当过创业公司的CTO，更习惯称自己为统计学者。对了，他现在自己创业，提供数据分析、推荐优化咨询服务，他的邮件是：stucchio@gmail.com
。

有人问我，“你在大数据和Hadoop方面有多少经验？”我告诉他们，我一直在使用Hadoop，但是很少处理几TB以上数据的任务。我基本上只是一个大数据新手——知道概念，写过代码，但是没有大规模经验。

他们又问我，“你能使用Hadoop做简单的group by(分组)和sum(统计)吗？”我说当然可以，但我会说需要看具体的文件格式。

他们给我一个U盘，里面存储600MB数据（他们所有的数据，而不是样本数据）。不知道为什么，我用pandas.read_csv（Pandas是一种Python数据分析库）解决方案，而不是Hadoop完成了这个任务后，他们显得很不满意。

Hadoop实际上是有很多局限性的。Hadoop可以运行一个通用的计算，下面我用伪码进行说明：

Scala风格的伪码：

collection.flatMap( (k,v) => F(k,v) ).groupBy( _._1 ).map( _.reduce( (k,v) => G(k,v) ) )

使用SQL风格的伪码表示：

SELECT G(...) FROM table GROUP BY F(...)

或者想我多年解释一样：

目标：统计计算图书馆书籍的数量

Map：你统计奇数书架上书的数量，我统计偶数书架上书的数量。（做统计的人越多，统计出结果越快，就是机器越多，效率越高）

Reduce：把我们每个人单独统计的结果数据加在一起。

我们所做的只有两个：F(k,v)和G(k,v)，除非要在中间步骤中做性能优化，其他一切都是固定的。

在Hadoop里，所有计算都必须按照一个map、一个group by、一个aggregate或者这种计算序列来写。这和穿上紧身衣一样，多憋得慌啊。许多计算用其他模型其实更适合。穿上紧身衣（使用hadoop）的唯一原因就是，可以扩展到极大的数据集。可大多数情况，你的数据集很可能根本远远够不上那个数量级。

可是呢，因为Hadoop和大数据是热词，世界有一半的人都想穿上紧身衣，即使他们实际不需要Hadoop。

一、如果我的数据量是几百兆，Excel可能没法加载它

对于Excel来说的“很大的数据”并非大数据，其实还有其它极好的工具可以使用——我喜欢的是基于Numpy库之上Pandas。它可以将几百MB数据以高效的向量化格式加载到内存，在我购买已3年的笔记本上，一眨眼的功夫，Numpy就能完成1亿次浮点计算。Matlab和R也是极好的工具。

Pandas构建于Numpy库之上，可以以矢量格式的方式有效地把数百兆的数据载入到内存中。在我购买已3年的笔记本上，它可以用Numpy在一眨眼的功夫把1亿的浮点数乘在一起。Matlab和R也是极好的工具。

因此，对于几百兆的数据量，典型的做法是写一个简单的Python脚本逐行读取，处理，然后写到了一个文件就行了

二、可我的数据是10GB呢？

我买了台新笔记本，它有16GB的内存（花$141.98）和256GB的SSD(额外200美元)。，如果在Pandas里加载一个10GB的csv文件，实际在内存里并没有那么大（内存不是占有10G）——可以将
“17284932583” 这样的数值串存为4位或者8位整数，“284572452.2435723”存为8位双精度。

最坏的情况下你还可以不同时将所有数据都一次加载到内存里。

三、可我的数据是100GB、500GB或1TB呢？

一个2T的硬盘才94.99美元，4T是169.99。买一块，加到桌面PC或者服务器上，然后装上PostgreSQL来解决它

四、Hadoop << SQL或Python脚本

在计算的表达能力来说，Hadoop比SQL差。Hadoop里能写的计算，在SQL或者简单的Python脚本都可以更轻松地写出来。

SQL是一个直观的查询语言，适合做业务分析，业务分析师和程序员都很常用。SQL查询非常简单，而且还非常快——只有数据库使用了正确的索引，要花几秒钟的sql查询都不太常见。

Hadoop没有索引的概念，Hadoop只有全表扫描，而且Hadoop抽象层次太多了——我之前的项目尽在应付Java内存错误（ java
memory errors）、内存碎片和集群竞用了，而这些时间远多于实际的数据分析工作。

如果你的数据并不是像SQL表那样的结构化数据（比如纯文本、JSON对象、二进制对象），通常是直接写一个小的Python脚本或者Ruby脚本逐行处理更直接。保存到多个文件，然后逐个处理即可，SQL不适用的情况下，从编程来说Hadoop也没那么糟糕，但相比Python脚本仍然没有什么优势。

除了难以编程，Hadoop还一般总是比其他技术方案要慢。只要索引用得好，SQL查询非常快。比如要计算join，PostgreSQL只需查看索引（如果有），然后查询所需的每个键。而Hadoop呢，必须做全表扫描，然后重排整个表。排序通过多台机器之间分片可以加速，但也带来了跨多机数据流处理的开销。如果要处理二进制文件，Hadoop必须反复访问namenode。而简单的Python脚本只要反复访问文件系统即可。

五、我的数据超过了5TB

只能使用Hadoop，而无需做过多的选择。

你的命可真苦——只能苦逼地折腾Hadoop了，没有太多其他选择（可能还能用许多硬盘容量的高富帅机器来扛），而且其他选择往往贵得要命（脑海中浮现出IOE等等字样……）。

用Hadoop唯一的好处是扩展。如果你的数据是一个数TB的单表，那么全表扫描是Hadoop的强项。此外的话（如果你没有这样大数据量的表），请关爱生命，尽量远离Hadoop。它带来的烦恼根本不值，用传统方法既省时又省力。

六、Hadoop是一个极好的工具

我并不讨厌Hadoop，当我用其它工具不能很好处理数据时我会选择Hadoop。另外，我推荐使用Scalding，不要使用Hive或Pig。Scalding支持使用Scala语言来编写Hadoop任务链，隐藏了其下的MapReduce。

你的数据根本不够大，别老扯什么Hadoop了的更多相关文章

别老扯什么Hadoop了，你的数据根本不够大
本文原名“Don't use Hadoop when your data isn't that big ”,出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过 ...
别老扯什么hadoop，你的数据根本不够大
本文原名“Don't use Hadoop when your data isn't that big ”,出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过 ...
大白话详解大数据HBase核心知识点，老刘真的很用心(2)
前言:老刘目前为明年校招而努力,写文章主要是想用大白话把自己复习的大数据知识点详细解释出来,拒绝资料上的生搬硬套,做到有自己的理解! 01 HBase知识点第6点:HRegionServer架构为 ...
poi导出excel数据量过大
问题:使用poi导出excel,数据量过大导致内存溢出解决思路:1.多sheet导出 2.生成多个excel打包下载 3.生成csv下载本文使用的是第二个思路,代码如下: poiUtil工具类 p ...
使用rowid抽取数据方法以及大数据量游标卡住的应对
平时工作的时候,经常会遇到这种事情,从一个大表A中,抽取字段a在一个相对较小B的表的数据,比如,从一个详单表中,抽取几万个用户号码的话单出来.这种时候,一般来说, 做关联查询: create tabl ...
chart.js插件生成折线图时数据普遍较大时Y轴数据不从0开始的解决办法[bubuko.com]
chart.js插件生成折线图时数据普遍较大时Y轴数据不从0开始的解决办法,原文:http://bubuko.com/infodetail-328671.html 默认情况下如下图 Y轴并不是从0开始 ...
Hadoop！ | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户
你正在使用过时的浏览器,Amaze UI 暂不支持. 请升级浏览器以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:1 ...
bat坐拥大数据。数据挖掘/大数据给他们带来什么。
阿里巴巴CTO即阿里云负责人王坚博士说过一句话:云计算和大数据,你们都理解错了. 实际上,对于大数据究竟是什么业界并无共识.大数据并不是什么新鲜事物.信息革命带来的除了信息的更高效地生产.流通和消 ...
第二篇：智能电网(Smart Grid)中的数据工程与大数据案例分析
前言上篇文章中讲到,在智能电网的控制与管理侧中,数据的分析和挖掘.可视化等工作属于核心环节.除此之外,二次侧中需要对数据进行采集,数据共享平台的搭建显然也涉及到数据的管理.那么在智能电网领域中,数据 ...

随机推荐

java 解析XML文档
Java 解析XML文档一.解析XML文档方式: 1.DOM方式:将整个XML文档读取到内存中,按照XML文件的树状结构图进行解析. 2.SAX方式:基于事件的解析,只需要加载XML中的部分数据,优 ...
VMware系统运维（十四）部署虚拟化桌面 Horzion View Manager 5.2 配置许可
1.通过网页访问https://conntionserver.testad.local/admin,打开如下图所示页面:输入用户名密码 2.进来以后配置View 许可,点击"编辑许可证&qu ...
Flume Spooldir 源的一些问题
Flume Spooldir 源的一些问题来自:http://blog.xlvector.net/2014-01/flume-spooldir-source-problem/ ( 自己写的插件,数据 ...
给VPS装桌面
转自:百度经验致谢! 1.首先我们要先升级一下软件源给安装桌面环境做准备. 执行命令:apt-get update 2.安装桌面环境或窗口管理器: apt-get install xubunt ...
Backbone.js学习之初识hello-world
说了好久好久要学习Backbone.js,现在终于下定决心开始学习了.然后呢,就根据我的学习进度在这里做个简单的记录,方便新人,也方便我自己以后回忆. 准备用bower下载这几个库或框架也是醉了.. ...
.NET DLL 保护措施应用实例(百度云分享工具)
最近做了个小工具,将保护措施思路全部应用到了此工具中. 点我下载 “百度分享工具”介绍大家都知道,在百度云盘中分享文件,只能手工一条条地点击“分享”,如果想分享很多文件,操作会非常辛苦.“百度云分享 ...
在远程系统上开发 SharePoint 应用程序
适用范围: apps for SharePoint | Office 365 | SharePoint Foundation 2013 | SharePoint Server 2013 使用远程安装的 ...
node.js安装方法总结
为了保持一致,这里也列举三个方法第一个方法:通过官网下载安装 https://nodejs.org/en/download/ 这种方式的问题是我们需要自己去找网页,找到链接,然后下载第二个方法:使 ...
linux 系统运行级别及修改[转]
Linux运行级别从0-6,共7个. 0:关机.不能将系统缺省运行级别设置为0,否则无法启动. 1:单用户模式,只允许root用户对系统进行维护. 2:多用户模式,但不能使用NFS(相当于Window ...
Windows下安装GnuRadio最简单的方法（没有之一）
作者在Windows XP SP3 32位下亲测通过,理论上Win7也没问题. 1. 如果系统中安装有Python,请先把Python卸载. 2. 下载安装Python(x,y) 2.7.5.0, 下 ...

你的数据根本不够大，别老扯什么Hadoop了

你的数据根本不够大，别老扯什么Hadoop了的更多相关文章

随机推荐

热门专题