python写mapReduce初步

最近在学了python了，从mapReduce开始，话不多说了，直接上代码了哈

map阶段，map.py文件

 import sys

 # 标准输入

 # 在终端的话，就需要这样了 cat a.txt | python map_new.py，通过一个管道的形式进行标准输入

 # strip 就是避免字符串前后有回车或者是隐含字符，一般对于字符串都要strip() 一下。

 for line in sys.stdin:

     # print(line.strip())

     ss = line.strip().split(' ')

     for word in ss:

         # word和1之间用制表符进行分割

         print('\t'.join([word.strip(),'']))

reduce阶段：reduce.py文件

map到reduce阶段要做一个排序，相同的key放到了一起

 import sys

 cur_word = None

 sum = 0

 for line in sys.stdin:

     ss = line.strip().split('\t')

     if len(ss) != 2:

         continue

     word,cnt = ss

 # 当读取第一行时，cur_word肯定是None吧

     if cur_word == None:

         cur_word = word

     if cur_word != word:

         # 当 cur_word 和 word不相等时，将其输出

         print('\t'.join([cur_word,str(sum)]))

         cur_word = word

         sum = 0

     sum += int(cnt)

 # 对最后一行进行输出

 print('\t'.join([cur_word,str(sum)]))

还需要一个run.sh

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_FILE_PATH_1="/1.data"

OUTPUT_PATH="/output"

$HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH

# Step 1.

$HADOOP_CMD jar $STREAM_JAR_PATH \

    -input $INPUT_FILE_PATH_1 \

    -output $OUTPUT_PATH \

    -mapper "python map.py" \

    -reducer "python reduce.py" \

    -file ./map_new.py \

    -file ./red_new.py

# HADOOP_CMD： hadoop的bin的路径
# STREAM_JAR_PATH：streaming jar包的路径
# INPUT_FILE_PATH：hadoop集群上的资源输入路径
# OUTPUT_PATH：hadoop集群上的结果输出路径

执行和查看

# cat data.txt | pyton map.py | sort -k1 | python reduce.py > result.txt
# cat result.txt | sort -k2 -rn | head

写的比较简单哈

python写mapReduce初步的更多相关文章

用python写MapReduce函数——以WordCount为例
尽管Hadoop框架是用java写的,但是Hadoop程序不限于java,可以用python.C++.ruby等.本例子中直接用python写一个MapReduce实例,而不是用Jython把pyth ...
用Python写一个简单的Web框架
一.概述二.从demo_app开始三.WSGI中的application 四.区分URL 五.重构 1.正则匹配URL 2.DRY 3.抽象出框架六.参考一.概述在Python中,WSGI( ...
Python实现MapReduce,wordcount实例，MapReduce实现两表的Join
Python实现MapReduce 下面使用mapreduce模式实现了一个简单的统计日志中单词出现次数的程序: from functools import reduce from multiproc ...
快速掌握用python写并行程序
目录一.大数据时代的现状二.面对挑战的方法 2.1 并行计算 2.2 改用GPU处理计算密集型程序 3.3 分布式计算三.用python写并行程序 3.1 进程与线程 3.2 全局解释器锁GIL ...
hadoop学习笔记——用python写wordcount程序
尝试着用3台虚拟机搭建了伪分布式系统,完整的搭建步骤等熟悉了整个分布式框架之后再写,今天写一下用python写wordcount程序(MapReduce任务)的具体步骤. MapReduce任务以来H ...
Python写各大聊天系统的屏蔽脏话功能原理
Python写各大聊天系统的屏蔽脏话功能原理突然想到一个视频里面弹幕被和谐的一满屏的*号觉得很有趣,然后就想用python来试试写写看,结果还真玩出了点效果,思路是首先你得有一个脏话存放的仓库好到时 ...
python写红包的原理流程包含random,lambda其中的使用和见简单介绍
Python写红包的原理流程首先来说说要用到的知识点,第一个要说的是扩展包random,random模块一般用来生成一个随机数今天要用到ramdom中unifrom的方法用于生成一个指定范围的随机 ...
Python写地铁的到站的原理简易版
Python地铁的到站流程及原理(个人理解) 今天坐地铁看着站牌就莫名的想如果用Python写其工作原理是不是很简单就小试牛刀了下大佬们勿喷纯属小弟个人理解首先来看看地铁上显示的站牌如下: 就想这 ...
hadoop-初学者写map-reduce程序中容易出现的问题 3
1.写hadoop的map-reduce程序之前所必须知道的基础知识: 1)hadoop map-reduce的自带的数据类型: Hadoop提供了如下内容的数据类型,这些数据类型都实现了Writab ...

随机推荐

scrapy数据存储在mysql数据库的两种方式
方法一:同步操作 1.pipelines.py文件(处理数据的python文件) import pymysql class LvyouPipeline(object): def __init__(se ...
2019ccpc-HN省赛-A/C/F/I
A.最大下降矩阵时间限制: 1 Sec 内存限制: 512 MB提交: 508 解决: 107[提交] [状态] [讨论版] [命题人:外部导入] 题目描述我们称一个矩阵是下降矩阵,当且仅当, ...
PAT 1144 The Missing Number
1144 The Missing Number (20 分) Given N integers, you are supposed to find the smallest positive in ...
C++标准模板库（STL）之Stack
1.Stack的常用用法 stack:栈,一个后进先出的容器. 1.1.stack的定义加上头文件#include<stack>和using namespace std; stack&l ...
VS2015+VisualSVN+TortoiseSVN安装及使用
1. SVN 是什么 SVN 是 Apache Subversion 的缩写,是一个开放源代码的版本控制系.这些数据放置在一个中央资料档案库(repository) 中. 这个档案库很像一个普通的文件 ...
react native练习
import React, { Component } from 'react' import { Platform, StyleSheet, Text, View,Image ,FlatList} ...
PDF 补丁丁 0.6.0.3355 版发布（修复阅读模式、书签缩放的问题）
PDF补丁丁的新版本修复了染色阅读模式失效.编辑器书签缩放比例调整在某些场合下失败的问题.
laravel5.5 env
env 函数读取的变量里面带有 # 号的情况下数据会丢失
Java垃圾回收算法和内存分配策略
垃圾回收算法和内存分配策略 Java垃圾回收垃圾收集,也就是GC并不是Java的伴生物,而对于GC的所需要完成任务主要就是: 1.哪些内存是需要回收的? 2.何时去回收这些内存? 3.以何种方式去回 ...
使用Vue-cli搭建多页面应用时对项目结构和配置的调整
前提:在这里使用的是webpack模板进行搭建第一步.安装Vue-cli并且进行初始化首先打开git,在里面使用npm全局安装Vue-cli,并且进行初始化 npm i vue-cli -g 然后 ...

python写mapReduce初步

python写mapReduce初步的更多相关文章

随机推荐

热门专题