本文章只针对“微型集群处理大数据”的场景. 场景描述: 硬件:5个节点,每个节点可用硬盘1块(700G.500G等).8核cpu,实验室环境(有时候还要跑其他程序跟你抢占资源),16G内存. 软件:hadoop-0.20.2-cdh3u2,hbase-0.90.4-cdh3u2. 业务:sina微博12亿转发微博,700w用户信息.bzip压缩后共150G.要求就是将这些数据入库并且恢复关注和粉丝列表,建立userId与昵称映射,找出Message的转发关系等等. 上述业务实际上比描述的复杂,后