hadoop开发MapReduce程序

准备工作：

1.设置HADOOP_HOME，指向hadoop安装目录

2.在window下，需要把hadoop/bin那个目录替换下，在网上搜一个对应版本的

3.如果还报org.apache.hadoop.io.nativeio.NativeIO$Windows.access0错，把其中的hadoop.dll复制到c:\windows\system32目录

依赖的jar

1.common
　　hadoop-2.7.3\share\hadoop\common\hadoop-common-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\common\lib下的所有
2.hdfs
　　hadoop-2.7.3\share\hadoop\hdfs\hadoop-hdfs-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\hdfs\lib下的所有
3.mapreduce
　　hadoop-2.7.3\share\hadoop\mapreduce\hadoop-mapreduce-client-app-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\mapreduce\hadoop-mapreduce-client-common-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\mapreduce\hadoop-mapreduce-client-core-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\mapreduce\hadoop-mapreduce-client-hs-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\mapreduce\hadoop-mapreduce-client-hs-plugins-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\mapreduce\hadoop-mapreduce-client-jobclient-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\mapreduce\hadoop-mapreduce-client-jobclient-2.7.3-tests.jar
　　hadoop-2.7.3\share\hadoop\mapreduce\hadoop-mapreduce-client-shuffle-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\mapreduce\lib下的所有
4.yarn
　　hadoop-2.7.3\share\hadoop\yarn\lib\hadoop-yarn-api-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\yarn\lib\hadoop-yarn-applications-distributedshell-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\yarn\lib\hadoop-yarn-applications-unmanaged-am-launcher-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\yarn\lib\hadoop-yarn-client-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\yarn\lib\hadoop-yarn-common-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\yarn\lib\hadoop-yarn-registry-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\yarn\lib\hadoop-yarn-server-applicationhistoryservice-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\yarn\lib\hadoop-yarn-server-common-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\yarn\lib\hadoop-yarn-server-nodemanager-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\yarn\lib\hadoop-yarn-server-resourcemanager-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\yarn\lib\hadoop-yarn-server-sharedcachemanager-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\yarn\lib\hadoop-yarn-server-tests-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\yarn\lib\hadoop-yarn-server-web-proxy-2.7.3.jar
　　hadoop-2.7.3\share\hadoop\yarn\lib下的所有

可以通过maven管理：

<?xml version="1.0" encoding="UTF-8"?>

    <project xmlns="http://maven.apache.org/POM/4.0.0"

             xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

             xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

        <modelVersion>4.0.0</modelVersion>

        <groupId>xiaol</groupId>

        <artifactId>xiaol-hadoop</artifactId>

        <version>1.0-SNAPSHOT</version>

        <description>MapReduce</description>

        <properties>

            <project.build.sourceencoding>UTF-8</project.build.sourceencoding>

            <hadoop.version>2.7.3</hadoop.version>

        </properties>

        <dependencies>

            <dependency>

                <groupId>junit</groupId>

                <artifactId>junit</artifactId>

                <version>4.12</version>

            </dependency>

            <dependency>

                <groupId>org.apache.hadoop</groupId>

                <artifactId>hadoop-client</artifactId>

                <version>${hadoop.version}</version>

            </dependency>

            <dependency>

                <groupId>org.apache.hadoop</groupId>

                <artifactId>hadoop-common</artifactId>

                <version>${hadoop.version}</version>

            </dependency>

            <dependency>

                <groupId>org.apache.hadoop</groupId>

                <artifactId>hadoop-hdfs</artifactId>

                <version>${hadoop.version}</version>

            </dependency>

        </dependencies>

    </project>

配置Log4J，放到src/main/resources目录下

log4j.rootCategory=INFO, stdout

log4j.appender.stdout=org.apache.log4j.ConsoleAppender

log4j.appender.stdout.layout=org.apache.log4j.PatternLayout

log4j.appender.stdout.layout.ConversionPattern=[QC] %p [%t] %C.%M(%L) | %m%n

编写Mapper：

package xiaol;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**

 * 整个工作过程：input->split->map->shuffle->reduce->output

 * input:  每一行都是空格分割的单词

 *         hello java

 *         hello python

 * split:   默认按行读取input,每一行作为一个KV对,交给下一步

 *          K就是行首地址,V就是行内容

 *          K:1   V:hello java

 *          K:11  V:hello python

 *          当然这一步可以用户自己重写

 * map:     必须由用户实现的步骤，进行业务逻辑处理

 *          从split的结果中读取数据，统计单词，产生KEYOUT VALUEOUT交给shuffle

 *          这里交给shuffle的K是单词,V是单词出现的次数

 *          hello 1

 *          java 1

 * shuffle  map的结果是KV对的形式，会把相同的K移动到同一个Node上去进行reduce

 *          当传给reduce的时候会相同K的V组装成Iterable<VALUEOUT>类型

 *          hello 1,1

 *          当然这一步可以用户自己重写

 * reduce   必须由用户实现的步骤，进行业务逻辑处理，将shuffle过来的结果进行汇总

 *          从shuffle的结果中读取数据，统计单词，产生KEYOUT VALUEOUT交给output

 *          hello 2

 */

/**

 * org.apache.hadoop.mapreduce.Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>

 *     KEYIN    split完成后交给map的key的类型

 *     VALUEIN  split完成后交给map的value的类型

 *     KEYOUT   map完成后交给shuffle的key的类型

 *     VALUEOUT map完成后交给shuffle的key的类型

 * org.apache.hadoop.io.LongWritable    hadoop自己的Long包装类

 * org.apache.hadoop.io.Text            hadoop自己的Text

 * org.apache.hadoop.io.IntWritable     hadoop自己的Int包装类

 */

public class WordMapper extends Mapper<LongWritable,Text,Text,IntWritable> {

    /**

     * 重写map方法

     * protected void map(KEYIN key, VALUEIN value, Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>.Context context) throws IOException, InterruptedException

     *      KEYIN       split完成后交给map的key的类型，就是那一行的起始地址

     *      VALUEIN     split完成后交给map的value的类型，就是那一行的内容

     *      Context     整个MapReduce的执行环境

     */

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        String s = value.toString();

        String[] words = s.split(" ");  //由于每一行都是空格分割的单词，比如hello java这种的，要统计个数，就先拆分

        for(String word: words){

            /**

             * 在执行环境中写入KEYOUT和VALUEOUT作为下一步(shuffle)的输入

             *

             * 这一步是要统计在当前处理这一行里每个单词出现的次数，这里直接给了个1

             * 这里可能有的人会有疑问：如果在某一行里出现了两个相同的单词会怎么样？

             * 这个是不影响的，比如出现了两个hello，结果就是给shuffle的时候会有两个hello 1

             * 然后shuffle的时候会把这两个hello 1交给reduce去处理

             */

            context.write(new Text(word), new IntWritable(1));

        }

    }

}

编写Reducer

package xiaol;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

/**

 * org.apache.hadoop.mapreduce.Reducer<KEYIN, VALUEIN, KEYOUT, VALUEOUT>

 */

public class WordReducer extends Reducer<Text, IntWritable, Text, LongWritable> {

    /**

     * 重写reduce方法

     * protected void reduce(KEYIN key, Iterable<VALUEIN> values, Reducer<KEYIN, VALUEIN, KEYOUT, VALUEOUT>.Context context) throws IOException, InterruptedException

     *      KEYIN                   shuffle完成后交给reduce的key的类型，其实就是map的KEYOUT

     *      Iterable<VALUEIN>       shuffle完成后交给reduce的value的类型的数组（shuffle那一步会把相同的K分发到同一个node上去进行reduce，所以这里是V数组），其实就是map的VALUEOUT数组

     *      Context                 整个MapReduce的执行环境

     */

    @Override

    protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, LongWritable>.Context context) throws IOException, InterruptedException {

        long count = 0;

        for(IntWritable v : values) {

            count += v.get();

        }

        context.write(key, new LongWritable(count));

    }

}

编写启动类：

本地运行（本地数据源，本地计算）：

package xiaol;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.util.Properties;

/**

 *

 */

public class Test {

    public static void main(String[] args) throws Exception {

        //本地运行直接new一个Configuration，远程运行需要配集群相关的配置

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        //设定mapper和reducer的class

        job.setMapperClass(WordMapper.class);

        job.setReducerClass(WordReducer.class);

        //设定mapper和outputKey和outputValue的class

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(IntWritable.class);

        //设定reducer和outputKey和outputValue的class

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(LongWritable.class);

        FileInputFormat.setInputPaths(job, "d:/test/test.txt");

        FileOutputFormat.setOutputPath(job, new Path("d:/test/out/"));

        //等待结束，true代表打印中间日志

        job.waitForCompletion(true);

    }

}

拉取远程数据到本地运行

package xiaol;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.util.Properties;

/**

 *

 */

public class Test {

    public static void main(String[] args) throws Exception {

        //本地运行直接new一个Configuration，远程运行需要配集群相关的配置

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        //设定mapper和reducer的class

        job.setMapperClass(WordMapper.class);

        job.setReducerClass(WordReducer.class);

        //设定mapper和outputKey和outputValue的class

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(IntWritable.class);

        //设定reducer和outputKey和outputValue的class

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(LongWritable.class);

        FileInputFormat.setInputPaths(job, "hdfs://192.168.0.104:9000/input/input.txt");

        FileOutputFormat.setOutputPath(job, new Path("d:/test/out/"));

        //等待结束，true代表打印中间日志

        job.waitForCompletion(true);

    }

}

在远程运行：

准备工作：把本地的工程打成一个jar包（程序里要用）

程序里需要告诉hadoop通过这个jar去做计算，不用手动传到yarn框架里，只要告诉程序就好了

我这个例子里，直接放在项目根目录下

package xiaol;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.util.Properties;

/**

 *

 */

public class Test {

    public static void main(String[] args) throws Exception {

        Properties properties = System.getProperties();

        properties.setProperty("HADOOP_USER_NAME", "root");

        Configuration conf = new Configuration();

        //配置hdfs地址

        conf.set("fs.defaultFS", "hdfs://192.168.0.104:9000/");

        //配置运行的是那个jar

        conf.set("mapreduce.job.jar", "xiaolhadoop.jar");

        //配置计算框架

        conf.set("mapreduce.framework.name", "yarn");

        //配置yarn的ResourceManage地址

        conf.set("yarn.resourcemanager.hostname", "192.168.0.104");

        //告诉hadoop这是从window上提交的任务（好像这步也并没有做什么）

        conf.set("mapreduce.app-submission.cross-platform", "true");

        Job job = Job.getInstance(conf);

        //设定mapper和reducer的class

        job.setMapperClass(WordMapper.class);

        job.setReducerClass(WordReducer.class);

        //设定mapper和outputKey和outputValue的class

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(IntWritable.class);

        //设定reducer和outputKey和outputValue的class

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(LongWritable.class);

        FileInputFormat.setInputPaths(job, "/input/input.txt");

        FileOutputFormat.setOutputPath(job, new Path("/out/"));

        //等待结束，true代表打印中间日志

        job.waitForCompletion(true);

    }

}

hadoop开发MapReduce程序的更多相关文章

本地idea开发mapreduce程序提交到远程hadoop集群执行
https://www.codetd.com/article/664330 https://blog.csdn.net/dream_an/article/details/84342770 通过idea ...
windows环境下Eclipse开发MapReduce程序遇到的四个问题及解决办法
按此文章<Hadoop集群(第7期)_Eclipse开发环境设置>进行MapReduce开发环境搭建的过程中遇到一些问题,饶了一些弯路,解决办法记录在此: 文档目的: 记录windows环 ...
Hadoop之MapReduce程序应用三
摘要:MapReduce程序进行数据去重. 关键词:MapReduce 数据去重数据源:人工构造日志数据集log-file1.txt和log-file2.txt. log-file1.txt内容 ...
[MapReduce_add_1] Windows 下开发 MapReduce 程序部署到集群
0. 说明 Windows 下开发 MapReduce 程序部署到集群 1. 前提在本地开发的时候保证 resource 中包含以下配置文件,从集群的配置文件中拷贝在 resource 中新建 ...
在Eclipse中开发MapReduce程序
一.Eclipse的安装与设置 1.在Eclipse官网上下载eclipse-jee-oxygen-3a-linux-gtk-x86_64.tar.gz文件并将其拷贝到/home/jun/Resour ...
用PHP编写Hadoop的MapReduce程序
用PHP编写Hadoop的MapReduce程序 Hadoop流虽然Hadoop是用Java写的,但是Hadoop提供了Hadoop流,Hadoop流提供一个API, 允许用户使用任何语言编 ...
如何在Windows下面运行hadoop的MapReduce程序
在Windows下面运行hadoop的MapReduce程序的方法: 1.下载hadoop的安装包,这里使用的是"hadoop-2.6.4.tar.gz": 2.将安装包直接解压到 ...
Windows平台开发Mapreduce程序远程调用运行在Hadoop集群—Yarn调度引擎异常
共享原因:虽然用一篇博文写问题感觉有点奢侈,但是搜索百度,相关文章太少了,苦苦探寻日志才找到解决方案. 遇到问题:在windows平台上开发的mapreduce程序,运行迟迟没有结果. Mapredu ...
HADOOP之MAPREDUCE程序应用二
摘要:MapReduce程序进行单词计数. 关键词:MapReduce程序单词计数数据源:人工构造英文文档file1.txt,file2.txt. file1.txt 内容 Hello Ha ...

随机推荐

strncmp----c++库函数
某天,蒜头君和花椰妹在公园里散步,走着走着,我的天!他们各自都捡到了一串漂亮的字符串,然而蒜头君好奇心比较重,他想知道自己的字符串在花椰妹的字符串中出现了多少次,例如花椰妹的字符串为abababa,蒜 ...
phpcms 初次建站心得
最近要给客户建个网站,考虑到效率问题,直接找了个开源的phpcms,(现在被收购了,以前的时候我还知道是个开源的).由于对这个东西不熟悉,原来就是了解一些,php的建站系统,php的MVC框架.故此, ...
oracle 手动备份恢复
手工备份, 我只考虑全备, 即 control file, redo log file, datafile, password file, spfile(pfile), listener.ora, t ...
Python 数据库连接池
python编程中可以使用pymysql进行数据库连接及增删改查操作,但每次连接mysql请求时,都是独立的去请求访问,比较浪费资源,而且访问数量达到一定数量时,对mysql的性能会产生较大的影响.因 ...
提高php编程效率的小结
1.如果将类的方法定义为:static,它的执行效率将提升为近4倍 2.php中数组的元素调用,使用关联数组优于索引数组 3.使用each快于print. 4.尽量使用foreach()替代for() ...
进度条在.net导入Excel时的应用实例
这篇文章主要介绍了进度条在.net导入Excel时的应用,以实例形式讲述了.net导入Excel时根据页面情况显示进度条的实现方法,非常具有实用价值,需要的朋友可以参考下本文实例讲述了进度条在.ne ...
VC++ Debug格式化数值显示
When you watch variables in the Watch or Quick Watch window, the values are displayed using the defa ...
Bellman-Ford算法（有向图）
#include <iostream> #include <cstring> #include <cstdio> #define MAX 100 #define I ...
JDBC批量操作性能提升
JDBC 当使用INSERT INTO....VALUES()语句批量插入的时候,应该使用JDBC的PreparedStatement的批量操作方法,而不是採用一条一条运行的方法. 比如(来源:htt ...
UIWebview打开.txt文件中文乱码解决
用UIWebview打开txt文件有时候会出现乱码的情况,这种情况应该是txt的编码问题,解决方案如下: txt分带编码和不带编码两种,带编码的如UTF-8格式txt,不带编码的如ANSI格式txt. ...

hadoop开发MapReduce程序

hadoop开发MapReduce程序的更多相关文章

随机推荐

热门专题