在讨论我们是否真的需要Map-Reduce这一分布式计算技术之前,我们先面对一个问题,这可以为我们讨论这个问题提供一个直观的背景。

问题

我们先从最直接和直观的方式出发,来尝试解决这个问题:
先伪一下这个问题:

SELECT COUNT(DISTINCT surname)
FROM big_name_file

我们用一个指针来关联这个文件.

接着考察每一行的数据,解析出里面的姓氏,这里我们可能需要一个姓氏字典或者对照表,然后我们可以利用最长前缀匹配来解析出姓氏。这很像命名实体识别所干的事。

拿到了姓氏,我们还需要一个链表L,这个链表的每个元素存储两个信息,一个是姓氏或者姓氏的编号,另一个是这个姓氏出现的次数。

在考察每一行的数据时,我们解析出姓氏,然后在链表L中查找这个姓氏对应的元素是否存在,如果存在就将这个元素的姓氏出现次数加一,否则就新增一个元素,然后置这个元素的姓氏出现次数为1。

当所有的行都遍历完毕,链表L的长度就是不同的姓氏的个数出现的次数。

    /**
* 直接法伪代码
*/
int distinctCount(file) {
//将磁盘文件file关联到一个内存中的指针f上
f <- file;
//初始化一个链表
L <- new LinkedList();
while(true) {
line <- f.readline();
if(line == null)
break;
//解析出此行的姓氏
surname <- parse(line);
//如果链表中没有这个姓氏,就新增一个,如果有,就将这个姓氏的出现次数+1
L.addOrUpdate(surname,1);
}
//链表的长度就是文件中不同姓氏的个数
return L.size();
}

ok,这个方法在不关心效率和内存空间的情况下是个解决办法。
但是却有一些值得注意的问题:

在进行addOrUpdate操作时,我们需要进行一个find的操作来找到元素是否已在链表中了。对于无序链表来说,我们必须采取逐一比较的方式来实现这个find的语义。

对于上面的考虑,显然我们知道如果能按下标直接找出元素就最好不过了,我们可以在常量时间找出元素并更新姓氏出现的次数。

哈希表法

对于这一点,我们可以采取哈希表来做,采取这个结构,我们可以用常量时间来找到元素并更新。

    int distinctCountWithHashTable(file) {
//将磁盘文件file关联到一个内存中的指针f上
f <- file;
//初始化一个哈希表
T <- new HashTable();
while(true) {
line <- f.readline();
if(line == null)
break;
//解析出此行的姓氏
surname <- parse(line);
//如果哈希表中没有这个姓氏,就新增一个,如果有,就将这个姓氏的出现次数+1
T.addOrUpdate(surname,1);
} //哈希表中实际存储的元素个数就是文件中不同姓氏的个数
return T.size();
}

假设给定文件是有序的

哈希表法看起来很美,但还是有潜在的问题,如果内存不够大怎么办,哈希表在内存中放不下。这个问题同样存在于直接法中。

想想看,如果这个文件是个排好序的文件,那该多好。
所有重复的姓氏都会连着出现,这样我们只需要标记一个计数器,每次读取一行文本,如果解析出的姓氏和上一行的不同,计数器就增1.
那么代码就像下面这样:

    int distinctCountWithSortedFile(file) {
//将磁盘文件file关联到一个内存中的指针f上
f <- file;
//不同姓氏的计数器,初始为0
C <- 0;
//上一行的姓氏
last_surname <- empty;
while(true) {
line <- f.readline();
if(line == null)
break;
//解析出此行的姓氏
surname <- parse(line);
//如果和上一行的姓氏不同,计数器加1
if(!last_surname.equals(surname))
C++;
last_surname <- surname;
} return C;
}

遗憾的是,我们并不能保证给定的文件是有序的。但上面方法的优点是可以破除内存空间的限制,对内存的需求很小很小。

那么能不能先排个序呢?
肯定是可以的,那么多排序算法在。但是有了内存空间的限制,能用到的排序算法大概只有位图法和外排了吧。

位图法

假设13亿/32 + 1个int(这里设32位)的内存空间还是有的,那么我们用位图法来做。
位图法很简单,基本上需要两个操作:

    /**
* 将i编码
*/
void encode(M,i) {
(M[i >> 5]) |= (1 << (i & 0x1F));
}
/**
*将i解码
*/
int decode(M,i) {
return (M[i >> 5]) & (1 << (i & 0x1F));
}

假设我们采取和姓氏字典一样的编号,我们做一个自然升序,那么这个方法就像下面这样:

    int distinctCountWithBitMap(file) {
//将磁盘文件file关联到一个内存中的指针f上
f <- file;
//初始化一个位图结构M,长度为13亿/32 + 1
M <- new Array();
//不同姓氏的个数,初始为0
C <- 0;
while(true) {
line <- f.readline();
if(line == null)
break;
//解析出此行的姓氏编号
surname_index <- parse(line);
//将姓氏编号编码到位图对应的位上
encode(M,surname_index);
} //找出位图中二进制1的个数
C <- findCountOfOneBits(M); return C;
}

ok,一切看起来很完美,但如何有效地找出位图中的二进制1的个数呢?上面使用了一个findCountOfOneBits方法,找出二进制1的个数,好吧,这是另外一个问题,但我们为了完整,可以给出它的一些算法:

int findCountOfOneBits_1(int[] array) {
int c = 0;
for(int i = 0 ; i < array.length; i++)
c += __popcnt(array[i]);
return c;
} int findCountOfOneBits_2(int[] array) {
int c = 0;
for(int i = 0 ; i < array.length; i++) {
while(array[i]) {
array[i] &= array[i] - 1;
c++;
}
} return c;
} int findCountOfOneBits_3(int[] array) {
int c = 0;
unsigned int t;
int e = 0;
for(int i = 0 ; i < array.length; i++) {
e = array[i];
t = e
- ((e >> 1) & 033333333333)
- ((e >> 2) & 011111111111); t = (t + (t >> 3)) & 030707070707
c += (t%63);
} return c;
}

上面的算法哪种效率最高呢?老三。

合并法

ok,位图法看起来破除了内存的限制,的确如此吗?如果内存小到连位图都放不下怎么办?
不解决这个问题了!开玩笑~

既然内存严重不足,那么我们只能每次处理一小部分数据,然后对这部分数据进行不同姓氏的个数的统计,用一个{key,count}的结构去维护这个统计,其中key就代表了我们的姓氏,count代表了它出现的次数。

处理完毕一小批数据后,我们需要将统计结果持久化到硬盘,以备最后累计,这牵扯到一个合并的问题。

如何进行有效地合并也值得思索,因为一开始文件内的姓名是无序的,所以不能在最后时刻进行简单合并,因为同一种姓氏可能出现在不同的统计结果分组中,这会使得统计结果出现重复。
所以我们必须对每批统计结果维护一个group结构或者如下的结构:

统计结果1:{{key=赵,count=631}...}
统计结果2:{{key=赵,count=3124}...}

统计结果N : {{key=赵,count=9956}...}

这样,我们在最后可以按key进行合并,得出如下的结构:

汇总结果1:{{key=赵,count=20234520}...}
汇总结果2:{{key=王,count=33000091...}

汇总结果M:{{key=钱,count=20009323}...}

BTW,数据是瞎编的,我个人并不知道到底哪个姓氏最多。
这样M就是我们不同姓氏的个数。

合并的过程如下图:

由于不断地将部分的统计结果合并到硬盘中,这种方式非常类似LSM算法,不同的是,我们对硬盘上中间文件的合并是on-line的,不是off-line的。

分布式法 Map-Reduce

合并法中,显然需要多次的访问硬盘,这有点问题:

如果是机械硬盘,那么磁盘的寻道时间令人头痛。
并且,合并的算法是串行的,我们无法降低摊还寻道代价。

面对内存容量有限的假设,我们可以推广到单机的计算资源有限的场景中来,设想一下,上面所列举的算法中,如果文档是有序的,那么我们仅仅使用极小的内存就可以解决问题,那么我们不需要分布式,也不需要Map-Reduce。

当然,如果我们不仅需要统计不同姓氏的个数,还想知道不同姓氏出现的频率,以研究到底姓王的多还是姓张的多,那么我们需要一些新思路。

如果我们能将姓名数据仔细分组,使得同样的姓氏会出现在同一组中.
然后将这些组分派到不同的计算节点上,由这些节点并行计算出若干个数C1、C2、...、Cn,最终我们的答案就是:n.
而每个姓氏的频率可以表示为:
frequencyi=Ci∑ni=1Ci,其中i是姓氏的编号,Ci表示第i个姓氏的出现的个数 。

而对应这种分布式计算模型的,就是Map-Reduce.
一个典型的Map-Reduce模型,大概像下图这样:

注:上图来自Search Engines:Information Retrieval In Practice.

对应我们这个问题,伪代码如下:

function Map(file) {
while(true) {
line <- file.readline();
if(line == null)
break;
surname <- parse(line);
count <- 1;
Emit(surname,count);
}
} function Reduce(key,values) {
C <- 0;
surname <- key;
while(!values.empty()) {
C <- C + values.next();
} Emit(surname,C);
}

使用Map-Reduce技术,不仅可以并行处理姓氏频率,同时也可以应对big、big、big-data(比如全银河系的“人”的姓名)。前提是你有足够的计算节点或者机器。

这里还有一个问题需要注意,就是上面的Reduce算法默认了数据已经按姓氏分组了,这个目标我们依靠Shuffle来完成。

在Shuffle阶段,依靠哈希表来完成group by surname.

在这里,将所有数据按姓氏分组并将每一组分派到一个计算节点上显得有些奢侈,所以如果在机器不足的情况下,可以将分组的粒度变大,比如100个姓氏为一组,然后通过多次的Map-Reduce来获得最终结果。

最后,希望我说明白了为什么我们需要Map-Reduce技术。
同时,不得不承认这个问题的设定是比较尴尬的= _ =,因为在对姓氏的parse阶段,我们用到了一个全姓氏字典,显然这个字典本身(Trie or Hash)可以告诉我们不同姓氏的个数。但如果问题的设定不是全部的姓氏都出现在文件中,或许这篇文章就能起到抛砖引玉的效果,那么其中的过程也值得书写下来。

我们为什么需要Map-Reduce?的更多相关文章

  1. MapReduce剖析笔记之三:Job的Map/Reduce Task初始化

    上一节分析了Job由JobClient提交到JobTracker的流程,利用RPC机制,JobTracker接收到Job ID和Job所在HDFS的目录,够早了JobInProgress对象,丢入队列 ...

  2. python--函数式编程 (高阶函数(map , reduce ,filter,sorted),匿名函数(lambda))

    1.1函数式编程 面向过程编程:我们通过把大段代码拆成函数,通过一层一层的函数,可以把复杂的任务分解成简单的任务,这种一步一步的分解可以称之为面向过程的程序设计.函数就是面向过程的程序设计的基本单元. ...

  3. 记一次MongoDB Map&Reduce入门操作

    需求说明 用Map&Reduce计算几个班级中,每个班级10岁和20岁之间学生的数量: 需求分析 学生表的字段: db.students.insert({classid:1, age:14, ...

  4. filter,map,reduce,lambda(python3)

    1.filter filter(function,sequence) 对sequence中的item依次执行function(item),将执行的结果为True(符合函数判断)的item组成一个lis ...

  5. map reduce

    作者:Coldwings链接:https://www.zhihu.com/question/29936822/answer/48586327来源:知乎著作权归作者所有,转载请联系作者获得授权. 简单的 ...

  6. python基础——map/reduce

    python基础——map/reduce Python内建了map()和reduce()函数. 如果你读过Google的那篇大名鼎鼎的论文“MapReduce: Simplified Data Pro ...

  7. Map/Reduce 工作机制分析 --- 作业的执行流程

    前言 从运行我们的 Map/Reduce 程序,到结果的提交,Hadoop 平台其实做了很多事情. 那么 Hadoop 平台到底做了什么事情,让 Map/Reduce 程序可以如此 "轻易& ...

  8. Map/Reduce个人实战--生成数据测试集

    背景: 在大数据领域, 由于各方面的原因. 有时需要自己来生成测试数据集, 由于测试数据集较大, 因此采用Map/Reduce的方式去生成. 在这小编(mumuxinfei)结合自身的一些实战经历, ...

  9. 用通俗易懂的大白话讲解Map/Reduce原理

    Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰 ...

  10. map/reduce of python

    [map/reduce of python] 参考: http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac92 ...

随机推荐

  1. redhat6.5文件共享

    以下操作均需要root用户 a端: 固定nfs端口 #vi /etc/sysconfig/nfs 将里面的RQUOTAD_PORT.LOCKD_TCPPORT.LOCKD_UDPPORT.MOUNTD ...

  2. idea添加jdbc包

    IDEA版本:IDEA 14 这里我使用的第三方jar包是数据库的JDBC jar包导出案例. 1.创建一个Module,名称为dataBase,在里面我们先创建一个folder用来包含所需要的jar ...

  3. PlantUML——4.实例演示1

    给自己发消息 @startuml Alice -> Alice : This is a signal to self.\nIt also demonstrates \nmultiline tex ...

  4. SQl查询数据库库名,表名、表的列名

    查询数据库 select * From master.dbo.sysdatabases where name='数据库名' and status<>512   --读取库中的所有表名 (当 ...

  5. AOP实战(1)

    AOP在MVC中有广泛的应用 如:IActionFilter. IAuthenticationFilter. IAuthorizationFilter.IExceptionFilter.IResult ...

  6. MVC设计模式一

    一:基础知识 1.mvc model view control 2.模型 是应用程序的主体部分,模型表示业务数据与业务逻辑. 一个模型可以为多个视图提供数据 提高了代码的可重用性 3.视图 用户看到的 ...

  7. python中list和str互转

    1.list转str 假设有一个名为test_list的list,转换后的str名为test_str 则转换方法: test_str = "".join(test_list) 例子 ...

  8. Python学习之文件操作

    Python 文件打开方式 文件打开方法:open(name[,mode[buf]]) name:文件路径mode:打开方式buf:缓冲buffering大小 f = open('test.txt', ...

  9. 12:输出1到n位最大整数

    如果按照最简单的循环输出,会遇到边界问题,n非常大的话,int甚至long都不能满足需求,所以这里需要用数组或者是字符串来表示要输出的数字. 如果面试题给定了一个n位整数,那么就是大数问题,用字符串来 ...

  10. Git 简史

    同生活中的许多伟大事件一样,Git 诞生于一个极富纷争大举创新的年代.Linux 内核开源项目有着为数众广的参与者.绝大多数的 Linux 内核维护工作都花在了提交补丁和保存归档的繁琐事务上(1991 ...