hadoop系列讨论

生产环境下cloudera的cdh版本更受欢迎，但是貌似cloudera对于YARN的开发力度不是很突出，所以在apache与cdh版本选择的时候，大家是怎么考虑的？

主要关注生产环境下的运维成本，期待更多人加入讨论,更希望有对cdh有运维经验的人来分享分享

添加评论

默认排序按时间排序

7 个回答

0赞同反对，不会显示你的姓名

向磊东升乡无可匹敌的杰出司令官，校园西路天…

说实话，真觉得hortonworks的好，三种版本都玩过，还是更喜欢hortonworks，初学者喜欢用cdh，因为更省事一些吧。

发布于 2015-08-03 3 条评论感谢

收藏 • 没有帮助 • 举报 • 作者保留权利

6赞同反对，不会显示你的姓名

ershou 希望做一个建造者，公众号codingcoffee

6 人赞同

果断CDH。
数据工程师应该更关注应用而不是环境本身。
据我了解几家前20的互联网公司也是Cloudera的用户。
话说行业分工也越来越细，Hadoop肯定会往基础组件的方向发展，如果不是希望深入做Hadoop运维的话，就不用折腾原生的了。

发布于 2015-02-05 添加评论感谢

收藏 • 没有帮助 • 举报 • 作者保留权利

4赞同反对，不会显示你的姓名

迪斯帕拉多单身狗. SDE@BloomReach

4 人赞同

因为前一份工作，我曾经在一个八节点的测试集群上安装并使用过CDH,MapR,和Apache的版本。

我的答案是CDH。
必须要说CDH用起来最省时省力。自动探测host，选择版本，配置简单，几乎是傻瓜式一键安装。

MapR方便程度就稍微差一些，但是仍然比Apache要方便很多。但是MapR版本有一个致命的缺点，它用的不是Hadoop的HDFS而是他们自己实现的MapRFS。导致了Hadoop生态系统中所有涉及到文件系统操作的系统都需要使用MapR的发行版。为了兼容MapRFS,源码都被改过。可以到MapR的github账户上看到。

Apache的话就真心需要专职运维人员去管理了。需要使用一些集群管理配置工具了。手动绝对累死。

你所说的CDH没有对yarn的开发力度不大我觉得这个倒不用太担心。CDH会定期根据Apache开源的最新稳定版本发布相应的CDH版本，所以不存在版本落后最新版很多的情况。而且我记得CDH现在加入了parcel管理，可以非常简单方便地切换hadoop版本而不需要重新安装集群。这个功能诱惑力太大了。另外CDH对于超过50个节点的集群就要开始收费了。这个是需要考虑的问题。

编辑于 2015-03-15 1 条评论感谢

收藏 • 没有帮助 • 举报 • 作者保留权利

0赞同反对，不会显示你的姓名

知乎用户架构师 Linux Openstack Hadoop

cloudera的cdh版本在部署大量的集群节点时效率高很多，稳定性感觉也比原生版本好。

发布于 2016-07-13 添加评论感谢

收藏 • 没有帮助 • 举报 • 作者保留权利

0赞同反对，不会显示你的姓名

legolas 从事大数据与数据分析行业，对一切新技术…

CDH5.X版本已经取消了50个节点的限制。

发布于 2016-03-01 1 条评论感谢

收藏 • 没有帮助 • 举报 • 作者保留权利

0赞同反对，不会显示你的姓名

刘垣德数据挖掘

在ubuntu 的wiki里看到因为cloudera由于方便安装，有75%新手选择。网上没有找到这两个组织发行hadoop的比较。不过cloudera貌似基于apache hadoop做bug fix 发布的。
CHD是一个公司发布的，但很多国内小公司都采用。大公司还是自己搞apache的比较好。

编辑于 2014-01-07 添加评论感谢

收藏 • 没有帮助 • 举报 • 作者保留权利

0赞同反对，不会显示你的姓名

fog Light test

CDH 免费版本的功能限制有点多
http://www.cloudera.com/content/dam/www/static/documents/datasheets/cloudera-enterprise-datasheet.pdf