【大数据应用技术】作业十一｜分布式并行计算MapReduce

本次作业在要求来自：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319

1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。

1）HDFS

HDFS是分布式文件系统，用来存储海量数据。HDFS中有两类节点：NameNode和DataNode。

NameNode是管理节点，存放文件元数据。也就是存放着文件和数据块的映射表，数据块和数据节点的映射表。也就是说，通过NameNode，我们就可以找到文件存放的地方，找到存放的数据。DataNode是工作节点，用来存放数据块，也就是文件实际存储的地方。

工作原理：客户端向NameNode发起读取元数据的消息，NameNode就会查询它的Block Map，找到对应的数据节点。然后客户端就可以去对应的数据节点中找到数据块，拼接成文件就可以了，这就是读写的流程。

2）MapReduce

MapReduce是并行处理框架，实现任务分解和调度。

工作原理：将一个大任务分解成多个小任务(map)，小任务执行完了之后，合并计算结果(reduce)。也就是说，JobTracker拿到job之后，会把job分成很多个maptask和reducetask，交给他们执行。 MapTask、ReduceTask函数的输入、输出都是的形式。HDFS存储的输入数据经过解析后，以键值对的形式，输入到MapReduce()函数中进行处理，输出一系列键值对作为中间结果，在Reduce阶段，对拥有同样Key值的中间数据进行合并形成最后结果。

2.HDFS上运行MapReduce

1）准备文本文件，放在本地/home/hadoop/wc

先准备一个大一点英文文本文件，我这里准备的是一个名为Mrstandfast.txt的文本文件，放在了下载目录下，如下图所示。

使用 mkdir wc 命令新建一个名为wc的文件夹，再使用 mv /home/chen/下载/MrStandfast.txt MrStandfast.txt 命令把MrStandfast.txt文件复制到wc中，如下图所示。

2）编写mapper函数和reducer函数，在本地运行测试通过

首先，我们可以先编写 mapper函数和reducer函数，使用 gedit mapper.py 命令建立mapper.py文件，在其中插入所要执行的语句，并保存关闭。同理，reducer.py也是这样。

mapper.py

#!/usr/bin/env python

import sys

for line in sys.stdin:

    line = line.strip()

    words = line.split()

    for word in words:

        print "%s\t%s" % (word, 1)

reducer.py

#!/usr/bin/env python

from operator import itemgetter

import sys

current_word = None

current_count = 0

word = None

# input comes from STDIN

for line in sys.stdin:

    # remove leading and trailing whitespace

    line = line.strip()

    # parse the input we got from mapper.py

    word, count = line.split('\t', 1)

    # convert count (currently a string) to int

    try:

        count = int(count)

    except ValueError:

        # count was not a number, so silently

        # ignore/discard this line

        continue

    # this IF-switch only works because Hadoop sorts map output

    # by key (here: word) before it is passed to the reducer

    if current_word == word:

        current_count += count

    else:

        if current_word:

            # write result to STDOUT

            print '%s\t%s' % (current_word, current_count)

        current_count = count

        current_word = word

# do not forget to output the last word if needed!

if current_word == word:

    print '%s\t%s' % (current_word, current_count)

完成上述步骤后，可以使用 cat mapper.py 命令和 cat reducer.py 命令来查看，如下图所示。

分别使用 chmod a+x /home/chen/wc/mapper.py 和 chmod a+x /home/chen/wc/reducer.py 命令修改mapper和reducer的权限。

分别使用 echo "foo foo quux labs foo bar quux" | ./mapper 命令和 echo "foo foo quux labs foo bar quux" | ./mapper.py | sort -k1,1 | ./reducer.py 命令在本地测试python代码是否可执行，如下图所示。

3）启动Hadoop：HDFS, JobTracker, TaskTracker

使用 start-all.sh 命令启动hadoop，再使用 jps 命令查看是否启动成功，如下图所示。

4）把文本文件上传到hdfs文件系统上 user/chen/input

由于我先前做实验时已经创建了 /user/chen/input 这个文件夹了，所以在这里我就直接将本地文件上传即可，使用 hdfs dfs -put /home/chen/wc/MrStandfast.txt /user/chen/input/ 命令把本地的MrStandfast.txt上传至hdfs文件系统上 user/chen/input上，再使用 hdfs dfs -ls /user/chen/input/ 命令来查看文件，如下图所示。

注意：如果先前还没有创建文件夹的，可以使用 hdfs dfs -mkdir -p /user/chen/input 命令来创建文件夹，详见https://www.cnblogs.com/bhuan/p/10964927.html

5）streaming的jar文件的路径写入环境变量，让环境变量生效

使用 vim ~/.bashrc 命令将streaming的jar文件的路径写入~/.bashrc中，并使用 source ~/.bashrc 让环境变量生效，如下图所示。

streaming的jar文件的路径：

export STREAM=$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-*.jar

6）建立一个shell脚本文件：streaming接口运行的脚本，名称为run.sh

使用 vim run.sh 命令或者 gedit run.sh 命令添加streaming接口运行的脚本，再使用 source run.sh 命令使其生效，如下图所示。

run.sh文件内容

hadoop jar $STREAM  \

-file /home/chen/wc/mapper.py \

-mapper  /home/chen/wc/mapper.py \

-file /home/chen/wc/reducer.py \

-reducer  /home/chen/wc/reducer.py \

-input /user/chen/input/*.txt \

-output /user/chen/wcountput

7）source run.sh来执行mapreduce

8）查看运行结果

使用 hdfs dfs -cat /user/chen/wcountput/* 命令来查看运行结果，如下图所示。

【大数据应用技术】作业十一｜分布式并行计算MapReduce的更多相关文章

作业——11 分布式并行计算MapReduce
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319 1.用自己的话阐明Hadoop平台上HDFS和MapRedu ...
大数据 --> 大数据关键技术
大数据关键技术大数据环境下数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且很看重数据处理的高效性和可用性. 传统数据处理方法的不足传统的数据采集来源单一,且存 ...
一文看懂大数据的技术生态圈，Hadoop，hive，spark都有了
一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了转载: 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它 ...
AI加持的阿里云飞天大数据平台技术揭秘
摘要:2019云栖大会大数据&AI专场,阿里云智能计算平台事业部研究员关涛.资深专家徐晟来为我们分享<AI加持的阿里云飞天大数据平台技术揭秘>.本文主要讲了三大部分,一是原创技术优 ...
中国大数据六大技术变迁记(CSDN)
大会召开前期,特别梳理了历届大会亮点以记录中国大数据技术领域发展历程,并立足当下生态圈现状对即将召开的BDTC 2014进行展望: 追本溯源,悉大数据六大技术变迁伴随着大数据技术大会的发展,我们亲历 ...
最近整理出了有关大数据，微服务，分布式，Java，Python，Web前端，产品运营，交互等1.7G的学习资料，有视频教程，源码，课件，工具，面试题等等。这里将珍藏多年的资源免费分享给各位小伙伴们
大数据,微服务,分布式,Java,Python,Web前端,产品运营,交互领取方式在篇尾!!! 基础篇.互联网架构,高级程序员必备视频,Linux系统.JVM.大型分布式电商项目实战视频...... ...
案例分析:大数据平台技术方案及案例(ppt)
大数据平台是为了计算,现今社会所产生的越来越大的数据量,以存储.运算.展现作为目的的平台.大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力.适用于大数据的技术,包括大规模并行处理(MPP ...
【HADOOP】| 环境搭建：从零开始搭建hadoop大数据平台（单机/伪分布式）-下
因篇幅过长,故分为两节,上节主要说明hadoop运行环境和必须的基础软件,包括VMware虚拟机软件的说明安装.Xmanager5管理软件以及CentOS操作系统的安装和基本网络配置.具体请参看: [ ...
【大数据应用技术】作业九｜安装关系型数据库MySQL 安装大数据处理框架Hadoop
本次作业的要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161 1.安装MySql 按ctrl+alt+t打开终端窗口,安 ...
了解大数据的技术生态系统 Hadoop,hive,spark(转载)
首先给出原文链接: 原文链接大数据本身是一个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你能够把它比作一个厨房所以须要的各种工具. 锅碗瓢盆,各 ...

随机推荐

EVM靶机渗透
前言靶机下载地址: https://download.vulnhub.com/norzhctf/Basilic.ova 通过渗透靶机来学习相关知识以便提高在真实环境的渗透能力 ==. 安装: 我是用 ...
Android Scroller详解
在学习使用Scroller之前,需要明白scrollTo().scrollBy()方法. 一.View的scrollTo().scrollBy() scrollTo.scrollBy方法是View中的 ...
继首次使用DoNetCore EFCore DbFirst 更新数据实体
//EFCore DB First 步骤 //第一步:Install-Package Microsoft.EntityFrameworkCore.SqlServer -version 2.1.1 // ...
npm 更换阿里淘宝源
执行命令 npm config set registry https://registry.npm.taobao.org/ 查看是否已经更换成功 npm config get registry
【Mac】微信视频对方听不见你的声音
解决方案: 1.打开系统设置 2.选择声音 3.输出选择第一个就可以
【Docker】iptables failed: iptables --wait -t nat -A DOCKER -p tcp -d 0/0 --dport 8480 -j DNAT --to-destination 172.17.0.2:80 ! -i docker0: iptables: No chain/target/match by that name
启动容器的时候,出现如下错误: Error response / --dport -j DNAT --to-destination ! -i docker0: iptables: No chain/t ...
vue父组件触发子组件方法
比如应用场景是弹窗中的组件,想要点弹窗时更新该组件展示对应记录的的值 methods: { edit (record) { this.mdl = Object.assign({}, record) t ...
Centos7源码部署apache/httpd服务
httpd:是一个提供网站服务的程序监听端口:80 环境准备: Linux CentOS7.3系统使用一台服务端,一台客户端即可: 一.安装httpd 1:安装 [root@localhost ~ ...
javascript一个在网页上画线的库
文章;安利一个绘制指引线的JS库leader-line 一个在网页上划线的库感觉很不错.
项目Alpha冲刺 10
作业描述课程: 软件工程1916|W(福州大学) 作业要求: 项目Alpha冲刺(团队) 团队名称: 火鸡堂作业目标: 介绍第10天冲刺的项目进展.问题困难和心得体会 1.团队信息队名:火鸡堂 ...

【大数据应用技术】作业十一｜分布式并行计算MapReduce

【大数据应用技术】作业十一｜分布式并行计算MapReduce的更多相关文章

随机推荐

热门专题