MapReduce 原理与 Python 实践


1. MapReduce 原理

以下是个人在MongoDB和Redis实际应用中总结的Map-Reduce的理解

Hadoop 的 MapReduce 是基于 Google - MapReduce: Simplified Data Processing on Large Clusters的一种实现。对 MapReduce 的基本介绍如下:

MapReduce is a programming model and an associated implementation for processing and generating large data sets. Users specify a map function that processes a key/value pair to generate a set of intermediate key/value pairs, and a reduce function that merges all intermediate values associated with the same intermediate key.

MapReduce 是一种编程模型,用于处理大规模的数据。用户主要通过指定一个 map 函数和一个 reduce 函数来处理一个基于key/value pair的数据集合,输出中间的基于key/value pair的数据集合;然后
再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。看到 map/reduce 很容易就联想到函数式编程,而实际上论文中也提到确实受到 Lisp 和其它函数式编程语言的启发。以 Python 为例,map/reduce 的用法如下:

  1. from functools import reduce
  2. from operator import add
  3. ls = map(lambda x: len(x), ["ana", "bob", "catty", "dogge"])
  4. # print(list(ls))
  5. # => [3, 3, 5, 5]
  6. reduce(add, ls)
  7. # => 16

MapReduce 的优势在于对大规模数据进行切分(split),并在分布式集群上分别运行 map/reduce 并行加工,而用户只需要针对数据处理逻辑编写简单的 map/reduce 函数,MapReduce 则负责保证分布式运行和容错机制。Hadoop 的 MapReduce 虽然由 Java 实现,但同时提供 Streaming API 可以通过标准化输入/输出允许我们使用任何编程语言来实现 map/reduce。

以官方提供的 WordCount 为例,输入为两个文件:

  1. hadoop fs -cat file0
  2. # Hello World Bye World
  3. hadoop fs -cat file1
  4. # Hello Hadoop Goodbye Hadoop

利用 MapReduce 来计算所有文件中单词出现数量的统计。MapReduce 的运行过程如下图所示:

" title="">

MapReduce

2.Python map/reduce

Hadoop 的 Streaming API 通过 STDIN/STDOUT 传递数据,因此 Python 版本的 map 可以写作:


  1. #!/usr/bin/env python3
  2. import sys
  3. def read_inputs(file):
  4. for line in file:
  5. line = line.strip()
  6. yield line.split()
  7. def main():
  8. file = sys.stdin
  9. lines = read_inputs(file)
  10. for words in lines:
  11. for word in words:
  12. print("{}\t{}".format(word, 1))
  13. if __name__ == "__main__":
  14. main()

运行一下:


  1. chmod +x map.py
  2. echo "Hello World Bye World" | ./map.py
  3. Hello 1
  4. #World 1
  5. #Bye 1
  6. #World 1

reduce 函数以此读取经过排序之后的 map 函数的输出,并统计单词的次数:


  1. #!/usr/bin/env python3
  2. import sys
  3. def read_map_outputs(file):
  4. for line in file:
  5. yield line.strip().split("\t", 1)
  6. def main():
  7. current_word = None
  8. word_count = 0
  9. lines = read_map_outputs(sys.stdin)
  10. for word, count in lines:
  11. try:
  12. count = int(count)
  13. except ValueError:
  14. continue
  15. if current_word == word:
  16. word_count += count
  17. else:
  18. if current_word:
  19. print("{}\t{}".format(current_word, word_count))
  20. current_word = word
  21. word_count = count
  22. if current_word:
  23. print("{}\t{}".format(current_word, word_count))
  24. if __name__ == "__main__":
  25. main()

reduce 的输入是排序后的 map 输出:


  1. chmod +x reduce.py
  2. echo "Hello World Bye World" | ./map.py | sort | ./reduce.py
  3. # Bye 1
  4. # Hello 1
  5. # World 2

这其实与 MapReduce 的执行流程是一致的,下面我们通过 MapReduce 来执行(已启动 Hadoop),需要用到 hadoop-streaming-2.6.4.jar,不同的 Hadoop 版本位置可能不同:


  1. cd $HADOOP_INSTALL && find ./ -name "hadoop-streaming*.jar"
  2. # ./share/hadoop/tools/lib/hadoop-streaming-2.6.4.jar
  3. mkdir wordcount -p wordcount/input
  4. cd wordcount
  5. echo "Hello World Bye World" >> input/file0
  6. echo "Hello Hadoop Goodbye Hadoop" >> input/file1
  7. hadoop jar $HADOOP_INSTALL/share/hadoop/tools/lib/hadoop-streaming-2.6.4.jar \
  8. -input $(pwd)/input \
  9. -output output \
  10. -mapper $(pwd)/map.py \
  11. -reducer $(pwd)/reduce.py

执行完成之后会在 output 目录产生结果:


  1. hadoop fs -ls output
  2. # Found 2 items
  3. # -rw-r--r-- 1 rainy rainy 0 2016-03-13 02:15 output/_SUCCESS
  4. # -rw-r--r-- 1 rainy rainy 41 2016-03-13 02:15 output/part-00000
  5. hadoop fs -cat output/part-00000
  6. # Bye 1
  7. # Goodbye 1
  8. # Hadoop 2
  9. # Hello 2
  10. # World 2

3. 总结

Hadoop 的架构让 MapReduce 的实际执行过程简化了许多,但这里省略了很多细节的内容,尤其是针对完全分布式模式,并且要在输入文件足够大的情况下才能体现出优势。这里处理纯文本文档作为示例,但我想要做的是通过连接 MongoDB 直接读取数据到 HDFS 然后进行 MapReduce 处理,但考虑到数据量仍然不是很大(700,000条记录)的情况,不知道是否会比直接 Python + MongoDB 更快。

MapReduce 原理与 Python 实践的更多相关文章

  1. 推荐《深入浅出深度学习原理剖析与python实践》PDF+代码

    <深入浅出深度学习原理剖析与Python实践>介绍了深度学习相关的原理与应用,全书共分为三大部分,第一部分主要回顾了深度学习的发展历史,以及Theano的使用:第二部分详细讲解了与深度学习 ...

  2. 深入浅出深度学习:原理剖析与python实践_黄安埠(著) pdf

    深入浅出深度学习:原理剖析与python实践 目录: 第1 部分 概要 1 1 绪论 2 1.1 人工智能.机器学习与深度学习的关系 3 1.1.1 人工智能——机器推理 4 1.1.2 机器学习—— ...

  3. MapReduce原理及其主要实现平台分析

    原文:http://www.infotech.ac.cn/article/2012/1003-3513-28-2-60.html MapReduce原理及其主要实现平台分析 亢丽芸, 王效岳, 白如江 ...

  4. Python实践之(七)逻辑回归(Logistic Regression)

    机器学习算法与Python实践之(七)逻辑回归(Logistic Regression) zouxy09@qq.com http://blog.csdn.net/zouxy09 机器学习算法与Pyth ...

  5. 机器学习算法与Python实践之(四)支持向量机(SVM)实现

    机器学习算法与Python实践之(四)支持向量机(SVM)实现 机器学习算法与Python实践之(四)支持向量机(SVM)实现 zouxy09@qq.com http://blog.csdn.net/ ...

  6. 机器学习算法与Python实践之(三)支持向量机(SVM)进阶

    机器学习算法与Python实践之(三)支持向量机(SVM)进阶 机器学习算法与Python实践之(三)支持向量机(SVM)进阶 zouxy09@qq.com http://blog.csdn.net/ ...

  7. 机器学习算法与Python实践之(二)支持向量机(SVM)初级

    机器学习算法与Python实践之(二)支持向量机(SVM)初级 机器学习算法与Python实践之(二)支持向量机(SVM)初级 zouxy09@qq.com http://blog.csdn.net/ ...

  8. 大数据 --> MapReduce原理与设计思想

    MapReduce原理与设计思想 简单解释 MapReduce 算法 一个有趣的例子:你想数出一摞牌中有多少张黑桃.直观方式是一张一张检查并且数出有多少张是黑桃? MapReduce方法则是: 给在座 ...

  9. 自动化打包资源混淆集成python实践----资源混淆

    前面自动化打包资源混淆集成python实践----打包一文讲述了四种打包方案,以及美团打包方案.apk注释添加渠道号方案的实现.这里讲集成资源混淆. 1.资源混淆带来的好处: 1)对资源文件起一定的保 ...

随机推荐

  1. robotframework的学习笔记(十二)------DatabaseLibrary 库

    1.安装DatabaseLibrary库 DatabaseLibrary 下载地址:https://pypi.python.org/pypi/robotframework-databaselibrar ...

  2. Python新手需要掌握的知识点

    一.基础语法 1 变量 2 逻辑判断 3 循环 4 函数 二.数据结构 1 数字(加减乘除) 2 字符串(一串字符) 3 布尔 (真假) 4 元组 (不能修改的列表) 5 列表(Python的苦力,最 ...

  3. 【Java框架型项目从入门到装逼】第七节 - 学生管理系统项目搭建

    本次的教程是打算用Spring,SpringMVC以及传统的jdbc技术来制作一个简单的增删改查项目,对用户信息进行增删改查,就这么简单. 1.新建项目 首先,打开eclipse,新建一个web项目. ...

  4. 【APS.NET 框架系列】浅谈ASP.NET 框架

       本篇文章稍微偏原理且底层,有一定难度和且比较晦涩. 本篇文章主要是从广度上概括一下,具体的更细粒度的,会在后续的文章中,结合具体的Demo实例分析. 一 .NET框架概述 1.作用:提供了基于. ...

  5. hadoop fs命令

  6. IntelliJ IDEA运行慢解决方法

    今天在用IntelliJ IDEA运行项目时速度奇慢,上网找了一些解决方法,记录一下以供参考. 修改配置文件 IntelliJ IDEA\bin下idea.exe.vmoptions -server ...

  7. Linux CentOS 6.5 配置网络

    网卡说明 第一块网卡为配置外网:eth0 第二块网卡为配置内网:eth1(没有外网的机器也要将内网配置在第二块网卡上) 1.使用ifconfig查看网卡配置信息 2.修改网卡1配置文件/etc/sys ...

  8. 用纯CSS画大白

    纯CSS打造网页大白知识点:      首先要把大白分割,整体baymax中包含header(eye1,eye2,mouth),torso(heart),belly(cover),l-bigfinge ...

  9. iOS 开发 右滑返回上一级控制器

    #import <objc/runtime.h> @interface UINavigationController (Transition)<UIGestureRecognizer ...

  10. IPC- Posix与system v

    一.功能上的区别 posix和system v有什么区别/?现在在应用时应用那一标准浮云484212 | 浏览 243 次 2014-11-06 10:362014-11-19 22:36 最佳答案它 ...