[大牛翻译系列]Hadoop（1）MapReduce 连接：重分区连接（Repartition join）

【[大牛翻译系列]Hadoop（1）MapReduce 连接：重分区连接（Repartition join）】的更多相关文章

[大牛翻译系列]Hadoop（1）MapReduce 连接：重分区连接（Repartition join）

4.1 连接(Join) 连接是关系运算,可以用于合并关系(relation).对于数据库中的表连接操作,可能已经广为人知了.在MapReduce中,连接可以用于合并两个或多个数据集.例如,用户基本信息和用户活动详情信息.用户基本信息来自于OLTP数据库.用户活动详情信息来自于日志文件. MapReduce的连接操作可以用于以下场景: 用户的人口统计信息的聚合操作(例如:青少年和中年人的习惯差异). 当用户超过一定时间没有使用网站后,发邮件提醒他们.(这个一定时间的阈值是用户自己预定义的) 分析…

[大牛翻译系列]Hadoop（3）MapReduce 连接：半连接（Semi-join）

4.1.3 半连接(Semi-join) 假设一个场景,需要连接两个很大的数据集,例如,用户日志和OLTP的用户数据.任何一个数据集都不是足够小到可以缓存在map作业的内存中.这样看来,似乎就不能使用reduce端的连接了.尽管不是必须,可以思考以下问题:如果在数据集的连接操作中,一个数据集中有的记录由于因为无法连接到另一个数据集的记录,将会被移除.这样还需要将整个数据集放到内存中吗?在这个例子中,在用户日志中的用户仅仅是OLTP用户数据中的用户中的很小的一部分.那么就可以从OLTP用户数据中只…

[大牛翻译系列]Hadoop（4）MapReduce 连接：选择最佳连接策略

4.1.4 为你的数据选择最佳连接策略已介绍的每个连接策略都有不同的优点和缺点.那么,怎么来判断哪个最适合待处理的数据? 图4.11给出了一个决策树.这个决策树是于论文<A Comparison of Join Algorithms>中提到的一个决策树的改进版本. 图4.11中的决策树可以归纳为以下三点: 如果数据集中有一个足够小到可以放到map的内存中,那么map端的复制连接就足够了. 如果每个数据集都很大,同时其中一个数据集可以在经过一定条件过滤以后大幅度地减小,那么半连接将会很有效.…

[大牛翻译系列]Hadoop（5）MapReduce 排序：次排序（Secondary sort）

4.2 排序(SORT) 在MapReduce中,排序的目的有两个: MapReduce可以通过排序将Map输出的键分组.然后每组键调用一次reduce. 在某些需要排序的特定场景中,用户可以将作业(job)的全部输出进行总体排序. 例如:需要了解前N个最受欢迎的用户或网页的数据分析工作. 在这一节中,有两个场景需要对MapReduce的排序行为进行优化. 次排序(Secondary sort) 总排序(Total order sorting) 次排序可以根据reduce的键对它的值进行排序.如…

[大牛翻译系列]Hadoop 翻译文章索引

原书章节原书章节题目翻译文章序号翻译文章题目链接 4.1 Joining Hadoop(1) MapReduce 连接:重分区连接(Repartition join) http://www.cnblogs.com/datacloud/p/3578509.html 4.1.1 Repartition join Hadoop(1) MapReduce 连接:重分区连接(Repartition join) http://www.cnblogs.com/datacloud/p/3578509.h…

[大牛翻译系列]Hadoop（2）MapReduce 连接：复制连接（Replication join）

4.1.2 复制连接(Replication join) 复制连接是map端的连接.复制连接得名于它的具体实现:连接中最小的数据集将会被复制到所有的map主机节点.复制连接有一个假设前提:在被连接的数据集中,有一个数据集足够小到可以缓存在内存中. 如图4.5所示,MapReduce复制连接工作原理如下: 使用分布式缓存(Districubted cache)将这个小数据集复制到所有运行map任务的节点. 用各个map任务初始化方法将这个小数据集装载到一个哈希表(hashtable)中. 逐条用大…