hadoop学习笔记——用python写wordcount程序

尝试着用3台虚拟机搭建了伪分布式系统，完整的搭建步骤等熟悉了整个分布式框架之后再写，今天写一下用python写wordcount程序（MapReduce任务）的具体步骤。

MapReduce任务以来HDFS存储和Yarn资源调度，所以执行MapReduce之前要先启动HDFS和Yarn。我们都知道MapReduce分Map阶段和Reduce阶段，这就需要我们自己写Map阶段的处理方法和Reduce阶段的处理方法。

MapReduce也支持除Java之外的其他语言，但要依赖流处理包（hadoop-streaming-2.7.4.jar），处理包不需要自己下载，hadoop本身带的就有，hadoop2.7的在hadoop-2.7.4/share/hadoop/tools/lib目录下，知道它所在的目录是因为只执行MapReduce命令的时候要指定hadoop-streaming-2.7.4.jar的位置。

接下来就是用python写Map的处理逻辑和Reduce的处理逻辑。wordcount是词频统计，要处理的原文本文件要上传到HDFS上，流程是原文本以流式方式传到Map函数，Map函数处理之后把结果传到Reduce函数，整个处理完后结果会保存在HDFS上，流式处理可以理解成文本一行一行的在原文件、Map函数、Reduce函数、结果文件之间流动处理。

原文本：

hello world

hello hadoop hadoop

nihao world

hello mapreduce

Map方法代码：

#!/usr/bin/python

import sys

for line in sys.stdin:

    line = line.strip()

    words = line.split(' ')

    for word in words:

         print('%s\t%s'%(word,1))

Reduce方法代码：

#!/usr/bin/python

import sys

current_count = 0

current_word = None

for line in sys.stdin:

    line = line.strip()

    word, count = line.split('\t', 1)

    count = int(count)

    if current_word == word:

        current_count += count

    else:

        if current_word:

            print "%s\t%s" % (current_word, current_count)

        current_count = count

        current_word = word

代码的逻辑都很简单，从标准输入按行读取处理数据，每行处理完print打印。

先在shell上测试一下：

#cat word.txt | ./mapper.py | sort

hadoop	1

hadoop	1

hello	1

hello	1

hello	1

mapreduce	1

nihao	1

world	1

world	1

sort是行之间按单词首字母排序，在MapReduce上sort过程hadoop会处理。

如果没有sort，结果是这样的：

#cat word.txt | ./mapper.py

hello	1

world	1

hello	1

hadoop	1

hadoop	1

nihao	1

world	1

hello	1

mapreduce	1

#cat word.txt | ./mapper.py | sort |./reducer.py

hadoop	2

hello	3

mapreduce	1

nihao	1

测试完没问题后就可以用MapReduce来执行了。

输入命令：

hadoop jar hadoop-streaming-2.7.4.jar \

-input /wordcount/word.txt \

-output /wordcount/out \

-mapper /home/hadoop/apps/hadoop-2.7.4/file/wordcount_python/mapper.py \

-reducer /home/hadoop/apps/hadoop-2.7.4/file/wordcount_python/reducer.py

命令解释：

第一行是指明用到的streaming包的位置，第二行指明原文件在HDFS上的路径，第三行是输出结果在HDFS上的路径，输出路径原来不能存在，已存在的话会报错，第四行和第五行指明Map方法和Reduce方法程序路径。

mapper.py和reduce.py需要加上执行权限，chmod +x mapper.py，它们两个py文件不用放在HDFS上，放在本地即可。

执行后就会开启MapReduce任务，配置没问题的话就不会报错，执行完成后会在MapReduce上生成/wordcount/out目录里面有两个文件:

第二个是结果文件，第一个文件可以看到所占空间为0，cat一下什么也没有，只是一个处理成功的标识。

以上就是python写wordcount的具体步骤，如有错误欢迎指正！

hadoop学习笔记——用python写wordcount程序的更多相关文章

Hadoop学习笔记（1）:WordCount程序的实现与总结
开篇语: 这几天开始学习Hadoop,花费了整整一天终于把伪分布式给搭好了,激动之情无法言表······ 搭好环境之后,按着书本的代码,实现了这个被誉为Hadoop中的HelloWorld的程序--W ...
20180821 Python学习笔记：如何获取当前程序路径
20180821 Python学习笔记:如何获取当前程序路径启动的脚本的路径为:D:\WORK\gitbase\ShenzhenHouseInfoCrawler\main.py 当前脚本的路径为:D ...
Hadoop学习笔记(6) ——重新认识Hadoop
Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功 ...
Hadoop学习笔记(2)
Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello ...
Hadoop学习笔记(5) ——编写HelloWorld(2)
Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了.但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce.没错,上一节我 ...
Hadoop学习笔记(2) ——解读Hello World
Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello ...
Hadoop学习笔记(1) ——菜鸟入门
Hadoop学习笔记(1) ——菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分布式系统基础架构,由Apache基金会所开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序. ...
Hadoop学习笔记(1)（转）
Hadoop学习笔记(1) ——菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分布式系统基础架构,由Apache基金会所开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序. ...
Hadoop学习笔记(4) ——搭建开发环境及编写Hello World
Hadoop学习笔记(4) ——搭建开发环境及编写Hello World 整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用JAVA.在linux下开发JAVA还数eclip ...

随机推荐

针对XX系统的可用性方面的相关想法（结合书）
在开始对此系统进行再次分析之前,再回顾下可用性.首先,可用性是与系统故障有关的一个质量属性,是指系统正常运行的时间的比例,一般通过两次故障之间的时间长度或在系统崩溃情况下能恢复正常运行的速度来衡量,同 ...
密码存储中MD5的安全问题与替代方案
md5安全吗?有多么地不安全?如何才能安全地存储密码?... md5安全吗? 经过各种安全事件后,很多系统在存放密码的时候不会直接存放明文密码了,大都改成了存放了 md5 加密(hash)后的密码,可 ...
wcf 访问控制
public class PasswordDigestChannelFactory<TPortTypeClient, TPlugin> where TPortTypeClient : Cl ...
ORACLE_TO_CHAR Function
TECHONTHENNTE WEBSITE: https://www.techonthenet.com/oracle/functions/to_char.php Oracle / PLSQL: TO ...
Centos大文件切割和合并
现在很多公司都会把项目放在云服务器上,当我想把云服务器里面的代码和生成的文件 “sz 文件名称” down下来的时候,发现太大.云服务器不支持下载很大的文件.那么这种情况就需要使用split命令切割文 ...
使用Jmeter进行接口测试和压力测试的配置和使用
1. Jmeter简介 Apache JMeter是Apache组织开发的基于Java的压力测试工具.用于对软件做压力测试,它最初被设计用于Web应用测试,但后来扩展到其他测试领域. JMeter 可 ...
重大漏洞！PHP multipart/form-data头部解析远程拒绝服务漏洞
"有些人看不懂,简单比喻来说吧:目前刚出的任何安全防护都不会拦,网站类专属漏洞畸形数据包,2KB随机数据包,2M网速打死各种网站,cdn通挂!"PHP multipart/for ...
零售企业ERP系统慢
数据库优化案例 https://www.cnblogs.com/double-K/p/9210982.html 写在前面记得在自己学习数据库知识的时候特别喜欢看案例,因为优化的手段是容易掌握的,但是 ...
Ubuntu Tweak (linux下的优化大师）
Ubuntu Tweak 是中国人开发的一款专门为Ubuntu准备的配置.调整工具,它类似与compiz,但是界面更友好. 下面是安装命令: 第一步:添加tweak源 sudo add-apt-rep ...
SecurityError: The operation is insecure.（js不安全操作）
今天突然就遇上了这样的情况,本来在出错的这一行的后面,还有要执行的语句,都没有办法执行,真实坑爹,而最要命的事情,这样的情况,在我的chrome浏览器里没有,但是在firefox里就会出现. The ...

hadoop学习笔记——用python写wordcount程序

hadoop学习笔记——用python写wordcount程序的更多相关文章

随机推荐

热门专题