在windows远程提交任务给Hadoop集群（Hadoop 2.6）

我使用3台Centos虚拟机搭建了一个Hadoop2.6的集群。希望在windows7上面使用IDEA开发mapreduce程序，然后提交的远程的Hadoop集群上执行。经过不懈的google终于搞定

开始我使用hadoop的eclipse插件来执行job，竟然成功了，后来发现mapreduce是在本地执行的，根本没有提交到集群上。我把hadoop的4个配置文件加上后就开始出现了问题。

1：org.apache.hadoop.util.Shell$ExitCodeException: /bin/bash: line 0: fg: no job control

网上说要修改源码，在Hadoop2.6已经合并了那个补丁。这个错误怎么解决的也忘记了

2：Stack trace: ExitCodeException exitCode=1:

3：Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster

4：Error: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class WordCount$Map not found

按照我的步骤走，这些问题都能解决，我使用的IDE是IDEA

1：复制Hadoop的4个配置文件放到src目录下面：core-site.xml,hdfs-site.xml,log4j.properties,mapred-site.xml,yarn-site.xml

2:配置mapred-site.xml

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

    <property>

        <name>mapred.remote.os</name>

        <value>Linux</value>

    </property>

    <property>

        <name>mapreduce.app-submission.cross-platform</name>

        <value>true</value>

    </property>

    <property>

    <name>mapreduce.application.classpath</name>

    <value>

        /opt/hadoop-2.6.0/etc/hadoop,

        /opt/hadoop-2.6.0/share/hadoop/common/*,

        /opt/hadoop-2.6.0/share/hadoop/common/lib/*,

        /opt/hadoop-2.6.0/share/hadoop/hdfs/*,

        /opt/hadoop-2.6.0/share/hadoop/hdfs/lib/*,

        /opt/hadoop-2.6.0/share/hadoop/mapreduce/*,

        /opt/hadoop-2.6.0/share/hadoop/mapreduce/lib/*,

        /opt/hadoop-2.6.0/share/hadoop/yarn/*,

        /opt/hadoop-2.6.0/share/hadoop/yarn/lib/*

    </value>

</property>

    <property>

        <name>mapreduce.jobhistory.address</name>

        <value>master:10020</value>

    </property>

       <property>

                <name>mapreduce.jobhistory.webapp.address</name>

                <value>master:19888</value>

        </property>

</configuration>

注意mapreduce.application.classpath一定是绝对路径，不要搞什么$HADOOP_HOME,我这里反正是报错的

3：修改yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->

  <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

    <property>

        <name>yarn.resourcemanager.address</name>

        <value>master:8032</value>

    </property>

<property>

    <name>yarn.application.classpath</name>

    <value>

        /opt/hadoop-2.6.0/etc/hadoop,

        /opt/hadoop-2.6.0/share/hadoop/common/*,

        /opt/hadoop-2.6.0/share/hadoop/common/lib/*,

        /opt/hadoop-2.6.0/share/hadoop/hdfs/*,

        /opt/hadoop-2.6.0/share/hadoop/hdfs/lib/*,

        /opt/hadoop-2.6.0/share/hadoop/mapreduce/*,

        /opt/hadoop-2.6.0/share/hadoop/mapreduce/lib/*,

        /opt/hadoop-2.6.0/share/hadoop/yarn/*,

        /opt/hadoop-2.6.0/share/hadoop/yarn/lib/*

    </value>

  </property>

</configuration>

注意yarn.application.classpath一定是绝对路径，不要搞什么$HADOOP_HOME

4:看下我的代码

package com.gaoxing.hadoop;

import java.io.IOException;

import java.security.PrivilegedExceptionAction;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.security.UserGroupInformation;

import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {

    //继承mapper接口，设置map的输入类型为<Object,Text>

    //输出类型为<Text,IntWritable>

    public static class Map extends Mapper<Object,Text,Text,IntWritable>{

        //one表示单词出现一次

        private static IntWritable one = new IntWritable(1);

        //word存储切下的单词

        private Text word = new Text();

        public void map(Object key,Text value,Context context) throws IOException,InterruptedException{

            //对输入的行切词

            StringTokenizer st = new StringTokenizer(value.toString());

            while(st.hasMoreTokens()){

                word.set(st.nextToken());//切下的单词存入word

                context.write(word, one);

            }

        }

    }

    //继承reducer接口，设置reduce的输入类型<Text,IntWritable>

    //输出类型为<Text,IntWritable>

    public static class Reduce extends Reducer<Text,IntWritable,Text,IntWritable>{

        //result记录单词的频数

        private static IntWritable result = new IntWritable();

        public void reduce(Text key,Iterable<IntWritable> values,Context context) throws IOException,InterruptedException{

            int sum = 0;

            //对获取的<key,value-list>计算value的和

            for(IntWritable val:values){

                sum += val.get();

            }

            //将频数设置到result

            result.set(sum);

            //收集结果

            context.write(key, result);

        }

    }

    /**

     * @param args

     */

    public static void main(String[] args) throws Exception{

        Configuration conf = new Configuration();

       // conf.set("mapred.remote.os","Linux");

       // conf.set("yarn.resourcemanager.address","master:8032");

       // conf.set("mapreduce.framework.name","yarn");

        conf.set("mapred.jar","D:\\IdeaProjects\\hadooplearn\\out\\artifacts\\hadoo.jar");

        //conf.set("mapreduce.app-submission.cross-platform","true");

        Job job = Job.getInstance(conf);

        job.setJobName("test");

        //配置作业各个类

        job.setJarByClass(WordCount.class);

        job.setMapperClass(Map.class);

        job.setCombinerClass(Reduce.class);

        job.setReducerClass(Reduce.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job, new Path("hdfs://master:9000/tmp/hbase-env.sh"));

        FileOutputFormat.setOutputPath(job, new Path("hdfs://master:9000/tmp/out11"));

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

}

conf.set("mapred.jar","D:\\IdeaProjects\\hadooplearn\\out\\artifacts\\hadoo.jar");这是最重要的一句，不然会报上面第4个问题

IDEA中有个功能就是编译的时候打包：

下班了。

来自为知笔记(Wiz)

在windows远程提交任务给Hadoop集群（Hadoop 2.6）的更多相关文章

docker搭建Hadoop集群
一个分布式系统基础架构,由Apache基金会所开发. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储. 首先搭建Docker环境,Docker版本大于1.3. ...
深入理解Hadoop集群和网络
导读:云计算和Hadoop中网络是讨论得相对比较少的领域.本文原文由Dell企业技术专家Brad Hedlund撰写,他曾在思科工作多年,专长是数据中心.云网络等.文章素材基于作者自己的研究.实验和C ...
深入理解Hadoop集群和网络【转】
http://os.51cto.com/art/201211/364374.htm 本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系.最开始我们先学习一下Hado ...
Linux上搭建Hadoop集群
本文将为初学者的搭建简单的伪分布式集群,将搭建一台虚拟机,用于学习Hadoop 工具:vm虚拟机,centOS7,jdk-8,Hadoop2.7,xftp,xshell 用户:在虚拟机中创建一个had ...
hadoop集群的安装
Hadoop集群安装 1.配置JDK环境和设置主机名,本地解析 JDK环境教程: http://www.cnblogs.com/wangweiwen/p/6104189.html 本地解析: vim ...
Eclipse远程提交hadoop集群任务
文章概览: 1.前言 2.Eclipse查看远程hadoop集群文件 3.Eclipse提交远程hadoop集群任务 4.小结 1 前言 Hadoop高可用品台搭建完备后,参见<Hadoop ...
本地idea开发mapreduce程序提交到远程hadoop集群执行
https://www.codetd.com/article/664330 https://blog.csdn.net/dream_an/article/details/84342770 通过idea ...
windows下eclipse远程连接hadoop集群开发mapreduce
转载请注明出处,谢谢 2017-10-22 17:14:09 之前都是用python开发maprduce程序的,今天试了在windows下通过eclipse java开发,在开发前先搭建开发环境.在 ...
Windows平台开发Mapreduce程序远程调用运行在Hadoop集群—Yarn调度引擎异常
共享原因:虽然用一篇博文写问题感觉有点奢侈,但是搜索百度,相关文章太少了,苦苦探寻日志才找到解决方案. 遇到问题:在windows平台上开发的mapreduce程序,运行迟迟没有结果. Mapredu ...

随机推荐

PKUSC2018 Slay The Spire
有攻击牌和强化牌各 $n$ 张,强化牌可以让之后所有攻击牌攻击力乘一个大于 $1$ 的系数,攻击牌可以造成伤害求所有“抽出 $m$ 张然后打 $k$ 张”能造成的伤害之和 $k,m,2n \leq ...
eShopOnWeb
eShopOnWeb https://www.cnblogs.com/sheng-jie/p/9616675.html 构建现代Web应用 1.引言 eShopOnWeb是基于ASP.NET Core ...
docker容器与宿主机之间内容拷贝
来自:http://blog.csdn.net/yangzhenping/article/details/43667785 常用的方式有3种: 从容器内拷贝文件到主机上 docker cp <c ...
keepalived之 Keepalived 原理（定义、VRRP 协议、VRRP 工作机制）
1.Keepalived 定义 Keepalived 是一个基于VRRP协议来实现的LVS服务高可用方案,可以利用其来避免单点故障.一个LVS服务会有2台服务器运行Keepalived,一台为主服务器 ...
hl7 V2中Message Control ID的含义及应用
HL7 v2中的MSH,MSA段都有Message Control ID. 有几点需要注意: 1.所有的MessageControlID必须唯一 2.对于MSH中的MessageControlID, ...
机器学习：集成学习（OOB 和关于 Bagging 的更多讨论）
一.oob(Out - of - Bag) 定义:放回取样导致一部分样本很有可能没有取到,这部分样本平均大约有 37% ,把这部分没有取到的样本称为 oob 数据集: 根据这种情况,不对数据集进行 t ...
IIS：配置参数
ylbtech-IIS:配置参数 1.返回顶部 2.返回顶部 3.返回顶部 4.返回顶部 5.返回顶部 6.返回顶部 7.返回顶部 8.返回顶部 9.返回顶部 ...
[Python Study Notes]pd.read_csv()函数读取csv文件绘图
''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''' ...
CentOS 6.3安装jdk（笔记整理）
1. 下载bin文件,切忌oracle上现在下载到的旧版本的jdk的bin都是网页(执行会报错,见本文最后的截图),他们需要登录oracle后才能下载,所以我这里的url是从googlecode里觅来 ...
MySQL存储引擎 -- MyISAM 与 InnoDB 实现
一.MyISAM索引实现MyISAM引擎使用B树作为索引结构,叶节点的data域存放的是数据记录的地址. MyISAM主键索引这里设表一共有三列,假设我们以Col1为主键,Col2为辅助索引.则下图是 ...

在windows远程提交任务给Hadoop集群（Hadoop 2.6）

在windows远程提交任务给Hadoop集群（Hadoop 2.6）的更多相关文章

随机推荐

热门专题