别老扯什么hadoop,你的数据根本不够大
本文原名“Don't use Hadoop when your data isn't that big ”,出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过高频交易平台,当过创业公司的CTO,更习惯称自己为统计学者。对了,他现在自己创业,提供数据分析、推荐优化咨询服务,他的邮件是:stucchio@gmail.com 。
“你有多少大数据和Hadoop的经验?”他们问我。我一直在用Hadoop,但很少处理几TB以上的任务。我基本上只是一个大数据新手——知道概念,写过代码,但是没有大规模经验。
接下来他们会问:“你能用Hadoop做简单的group by和sum操作吗?”我当然会,但我会说需要看看具体文件格式。
他们给我一个U盘,里面有所有的数据,600MB,对,他们所有的数据。不知道为什么,我用pandas.read_csv(Pandas是一种Python数据分析库)而不是Hadoop完成了这个任务后,他们显得很不满意。
Hadoop其实是挺局限的。它无非是运行某个通用的计算,用SQL伪代码表示就是: SELECT G(...) FROM table GROUP BY F(...) 你只能改变G和F操作,除非要在中间步骤做性能优化(这可不怎么好玩!)。其他一切都是死的。
(关于MapReduce,之前作者写过一篇“41个词讲清楚MapReduce”,可以参考。)
Hadoop里,所有计算都必须按照一个map、一个group by、一个aggregate或者这种计算序列来写。这和穿上紧身衣一样,多憋得慌啊。许多计算用其他模型其实更适合。忍受紧身衣的唯一原因就是,可以扩展到极大极大的数据集。可你的数据集实际上很可能根本远远够不上那个数量级。
可是呢,因为Hadoop和大数据是热词,世界有一半的人都想穿上紧身衣,即使他们根本不需要。
可我的数据有好几百MB呢!Excel都装不下
对Excel很大可不是什么大数据。有很多好工具——我喜欢用的是基于Numpy的Pandas。它可以将几百MB数据以高效的向量化格式加载到内存,在我已经3年的老笔记本上,一眨眼的功夫,Numpy就能完成1亿次浮点计算。Matlab和R也是很棒的工具。
数百MB数据一般用一个简单的Python脚本逐行读取文件、处理,然后写到了一个文件就行了。
可我的数据有10G呢!
我刚买了一台笔记本电脑。16G内存花了141.98美元,256GB SSD多收200美元。另外,如果在Pandas里加载一个10GB的csv文件,实际在内存里并没有那么大——你可以将 “17284932583” 这样的数值串存为4位或者8位整数,“284572452.2435723”存为8位双精度。
最差情况下,你还可以不同时将所有数据都一次加载到内存里。
可我的数据有100GB/500GB/1TB!
一个2T的硬盘才94.99美元,4T是169.99。买一块,加到桌面电脑或者服务器上,然后装上PostgreSQL。
Hadoop的适用范围远小于SQL和Python脚本
从计算的表达能力来说,Hadoop比SQL差多了。Hadoop里能写的计算,在SQL或者简单的Python脚本都可以更轻松地写出来。
SQL是直观的查询语言,没有太多抽象,业务分析师和程序员都很常用。SQL查询往往非常简单,而且一般也很快——只要数据库正确地做了索引,要花几秒钟的查询都不太多见。
Hadoop没有任何索引的概念,它只知道全表扫描。而且Hadoop抽象层次太多了——我之前的项目尽在应付Java内存错误、内存碎片和集群竞用了,实际的数据分析工作反而没了时间。
如果你的数据结构不是SQL表的形式(比如纯文本、JSON、二进制),一般写一小段Python或者Ruby脚本按行处理更直接。保存在多个文件里,逐个处理即可。SQL不适用的情况下,从编程来说Hadoop也没那么糟糕,但相比Python脚本仍然没有什么优势。
除了难以编程,Hadoop还一般总是比其他技术方案要慢。只要索引用得好,SQL查询非常快。比如要计算join,PostgreSQL只需查看索引(如果有),然后查询所需的每个键。而Hadoop呢,必须做全表扫描,然后重排整个表。排序通过多台机器之间分片可以加速,但也带来了跨多机数据流处理的开销。如果要处理二进制文件,Hadoop必须反复访问namenode。而简单的Python脚本只要反复访问文件系统即可。
可我的数据超过了5TB!
你的命可真苦——只能苦逼地折腾Hadoop了,没有太多其他选择(可能还能用许多硬盘容量的高富帅机器来扛),而且其他选择往往贵得要命(脑海中浮现出IOE等等字样……)。
用Hadoop唯一的好处是扩展。如果你的数据是一个数TB的单表,那么全表扫描是Hadoop的强项。此外的话,请关爱生命,尽量远离Hadoop。它带来的烦恼根本不值,用传统方法既省时又省力。
附注:Hadoop也是不错的工具
我可不是成心黑Hadoop啊。其实我自己经常用Hadoop来完成其他工具无法轻易完成的任务。(我推荐使用Scalding,而不是Hive或者Pig,因为你可以用Scala语言来写级联Hadoop任务,隐藏了MapReduce底层细节。)我本文要强调的是,用Hadoop之前应该三思而行,别500MB数据这样的蚊子,你也拿Hadoop这样的大炮来轰。
已有35条评论
- 最新
-
毕加索爱编程 2014-09-26 20:08了解hadoop是必须的,现在hadoop更新的很快,基本上一两个月就能发布一个新版本。 各种性能也在提高。 即使对hadoop的褒贬不一,但是不能否认它是一个非常优秀的分布式平台,大家可以多了解一点。 目前最新的hadoop是hadoop2.5.1,界面什么的都更新了0
-
yfteach 2014-08-09 18:34云凡教育Hadoop2.x架构详解和伪分布式环境搭建视频分享http://www.yfteach.com0
-
haitao 2014-03-29 11:29百G、10亿条级别,mssql2005就完全胜任——内存大点、分区表0
-
Mea_Culpa 2013-12-16 15:24现在都好高级,让我这用awk 分进程的情何以堪...0
-
baidu_23542553 2014-11-19 17:08同感啊 awk飘过0
-
-
瓜瓜东西 2013-11-14 08:45hadoop也不是啥高新的技术,只是现阶段说有的技术排列组合到一起,实现了一些功能,大数据库处理,内存处理能力已经到天花板了,技术不好提升了0
-
红帆软件 2013-09-21 15:00 来自 新浪微博路要自己走,乐在其中才有建树,追风总会随风而散0
-
hills 2013-09-20 22:47个人认为,Hadoop的分布式计算和可以理论上无限的水平扩展是优势,业务复杂度一般的TPS达到1万是小CASE。0
-
BYSF_XF 2013-09-20 12:46我上次去一家公司,做小项目的,面试居然还问到了负载均衡什么的,简直扯蛋-1
-
cheniwantyou 2013-09-20 12:19那些小破公司动不动也吹神马hadoop啊,其实都是人傻没办法。这些完全就是炒作罢了0
-
车东 2013-09-19 19:39 来自 新浪微博@梁斌penny 你研究的内存数据库有对此过一些来源引擎吗?0
-
xg1103 2013-09-19 17:14路过~~~~~~~~~0
-
搬砖工人 2013-09-19 09:54其实Hive也是写的SQL语句0
-
getclass 2013-09-18 22:04这句话说的太精辟了 “Hadoop其实是挺局限的。它无非是运行某个通用的计算,用SQL伪代码表示就是: SELECT G(...) FROM table GROUP BY F(...) 你只能改变G和F操作,除非要在中间步骤做性能优化(这可不怎么好玩!)。其他一切都是死的。”0
-
我心向着佛 2013-09-18 19:24 来自 新浪微博[围观]0
-
旖旎嫣儿 2013-09-18 16:14 来自 新浪微博看到了,私信了0
-
Bai-Bertie 2013-09-18 16:13 来自 新浪微博有道理!0
-
iamxiami 2013-09-18 15:05每小时1TB的数据呢? 公司做的项目,每小时差不多可能有1TB的数据. 用户有要求需要秒级查询数据(不统计),为了满足多要求,只能选择冗余多份存放HBASE,更有趣是客户可能需要个IN的操作,有几个列是树型的结构,很可能他查一个数据,条件就几MB,转成几万条查询... 还需要分页... NND,对N多查询自己做seek... 哎~ 真的没什么好替换的方案,被逼的!0
-
普世编程技术 2013-09-20 11:49有个概念叫OLAP知道不? 复杂的,批量数据,就应该先安排作业,然后一天之后才拿到结果。 hadoop这样的东西,只适合google这等即使搜索的业务,所以google自己研究论文,自己实现自己的业务技术。 是个人,是个公司就讲hadoop,就和非洲某个吃不饱饭的小村庄,讨论人家美国总统选举一样荒唐可笑。0
-
-
sniffer12345 2013-09-18 14:42即便是5TB 你上mysql集群也比hadoop好得多-1
-
juefan_c 2013-09-18 14:39也不见得很对, Hadoop能处理上TB级别的数据, 也能处理100M级别的小数据, 但不见得拿100M级别的数据用其它工具处理就是明智的, 例如这100M的数据得从1TB的数据中生成时, 如果反复迁移数据的话, 那成本更大!0
-
胡争辉 2013-09-18 14:33 来自 新浪微博期待翻译后我好转发0
-
白硕SH 2013-09-18 14:18 来自 新浪微博太拽了!0
-
胡争辉 2013-09-18 13:57 来自 新浪微博浇灭NoSQL虚火从清算Hadoop入手0
-
好兵帅克 2013-09-18 13:52用Hadoop之前应该三思而行,别500MB数据这样的蚊子,你也拿Hadoop这样的大炮来轰。这才是核心!2
-
ictcamera 2013-09-18 13:51国内砖家一般不希望把这层纸给捅破0
-
外号cook 2013-09-18 13:29不太懂0
-
无聊找乐 2013-09-18 12:27其实用的人未必不知道这些。 炒作新概念使用新技术 不过是一种营销手段罢了~0
-
Well工作室 2013-09-18 11:59因地制宜!0
-
308682805 2013-09-18 11:47这个是准确的0
-
m101162004 2013-09-18 11:28
别老扯什么hadoop,你的数据根本不够大的更多相关文章
- 别老扯什么Hadoop了,你的数据根本不够大
本文原名“Don't use Hadoop when your data isn't that big ”,出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过 ...
- 你的数据根本不够大,别老扯什么Hadoop了
本文原名"Don't use Hadoop when your data isn't that big ",出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯 ...
- 应对Hadoop集群数据疯长,这里祭出了4个治理对策!
一.背景 在目前规模比较大的互联网公司中,总数据量能达到10PB甚至几十PB数据量的公司,我认为中国已经有超过了20家了.而在这些公司中,也有很多家公司的 日数据增长达到100TB+ 了. 所以我们每 ...
- Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户
你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:1 ...
- Hadoop权威指南:从Hadoop URL读取数据
[TOC] Hadoop权威指南:从Hadoop URL读取数据 使用java.net.URL对象从Hadoop文件系统读取文件 实现类似linux中cat命令的程序 文件名 HDFSCat.java ...
- Hadoop 一: NCDC 数据准备
Hadoop 本文介绍Hadoop- The Definitive Guide一书中的NCDC数据准备,为后面的学习构建大数据环境; 环境 3节点 Hadoop 2.7.3 集群; java vers ...
- hadoop(一)之初识大数据与Hadoop
前言 从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢? 学习Hadoop有一个8020原则,80%都是在不断的配置配 ...
- Hadoop专业解决方案-第1章 大数据和Hadoop生态圈
一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此 ...
- Hadoop 1: NCDC 数据准备
本文介绍Hadoop- The Definitive Guide一书中的NCDC数据准备,为后面的学习构建大数据环境; 环境 3节点 Hadoop 2.7.3 集群; java version &qu ...
随机推荐
- .NET MVC项目设置包含Areas中的页面为默认启动页
利用vs创建一个MVC项目后,一般的默认启动页是根目录下-->Controllers-->HomeController-->Index这个方法对应的页面. 我先说下创建Areas的流 ...
- Webapi创建和使用 以及填坑(一)
Webapi创建和使用 前言:在开发的过程中接口的用途有很多,而且是非常必要.通过接口我们可以跨语言的进行开发web与app或者其他程序,比如http接口.api接口..Rpc接口.rmi.webse ...
- DLL加载,设置相对路径
DLL加载,设置相对路径 1. 加载dll方法之一:(./ 代表当前目录,../ 代表上层目录)包含头文件的相对路径(当前路径为源代码路径,路径 “../../” 当前项目文件夹上级目录),链接lib ...
- [日常]总结2016年7月入职至2016年7月26号微盘所遇bug
2016年刚入职后在新浪微盘项目上所遇到的问题: 1.前端接口的程序不同版本问题,版本号在程序路径中区分,比如2.4.2/lib/sdk/api/weipan/Client.php 2.文件夹接口的m ...
- FastJson序列化Json自定义返回字段,普通类从spring容器中获取bean
前言: 数据库的字段比如:price:1 ,返回需要price:1元. 这时两种途径修改: ① 比如sql中修改或者是在实体类转json前遍历修改. ②返回json,序列化时候修改.用到的是fastj ...
- java过滤器(简化认证)
最近在看过滤器,刚刚实现了过滤器的简化认证功能: 使用过滤器简化认证: 在Web应用程序中,过滤器的一个关键用例是保护应用程序不被未授权的用户访问.为跨国部件公司开发的客户支持应用程序使用了一种非常原 ...
- SAP MM ME57 把PR转成PO
SAP MM ME57 把PR转成PO 加入P3项目里,笔者负责采购和IM库存管理domain.采购环节里的PR转PO,客户global template里建议使用ME57或者在MD04里做.笔者在项 ...
- RPC框架学习总结
1.RPC是一种技术框架的称呼,不是某种具体协议,不局限于某种协议,RPC顾名思义就是远程过程调用,其核心思想是,RPC客户端调用远程服务器上的接口完成过程调用,远程服务器把结果返回. 2.RPC的最 ...
- 切换横竖屏的时候Activity的生命周期变化情况
关于这个,有个博客说得比较清楚:http://blog.csdn.net/wulianghuan/article/details/8603982,直接给出链接,哈哈哈.
- Android为TV端助力 修改videoview的宽度和高度
如果直接用android的videoview.他是不允许你随意的修改宽度和高度的,所以我们要重写videoview! package com.hysmarthotel.view; import and ...