Hadoop Windows IDEA

java jdk1.8都可以了

注意jdk的路径要拷贝到一个没有空格的路径改掉JAVA_HOME系统环境变量

在etc/hadoop/hadoop_env.cmd里有设置%JAVA_HOME%了不用管，但是不支持带空格的路径，hadoop路径也不能有空格

首先：

配置输入和输出结果文件夹

添加和src目录同级的input文件夹到项目中

在input文件夹中放置一个或多个输入文件源

新建一个test.segmented文件

内容如下:

dfdfadgdgag

aadads

fudflcl

cckcer

fadf

dfdfadgdgag

fudflcl

fuck

fuck

fuckfuck

haha

aaa

配置运行参数

在Intellij菜单栏中选择Run->Edit Configurations，在弹出来的对话框中点击+，新建一个Application配置。配置Main class为WordCount（可以点击右边的...选择），

Program arguments为input/ output/，即输入路径为刚才创建的input文件夹，输出为output

另外我建议改下IDEA maven的镜像不然会很慢

修改方法：在~/.m2目录下的settings.xml文件中，（如果该文件不存在，则需要从maven/conf目录下拷贝一份），找到标签，添加如下子标签：

然后去对照一下IDEA里的maven目录与settings.xml文件目录

<mirror>

    <id>alimaven</id>

    <name>aliyun maven</name>

    <url>http://maven.aliyun.com/nexus/content/groups/public/</url>

    <mirrorOf>central</mirrorOf>

</mirror>

pom.xml：

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0"

         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <modelVersion>4.0.0</modelVersion>

    <groupId>dsf</groupId>

    <artifactId>dsff</artifactId>

    <version>1.0-SNAPSHOT</version>

    <repositories>

        <repository>

            <id>apache</id>

            <url>http://maven.apache.org</url>

        </repository>

    </repositories>

    <dependencies>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-mapreduce-client-core</artifactId>

            <version>2.7.3</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-common</artifactId>

            <version>2.7.3</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-yarn-common</artifactId>

            <version>2.7.3</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-mapreduce-client-common</artifactId>

            <version>2.7.3</version>

        </dependency>

    </dependencies>

    <build>

        <plugins>

            <plugin>

                <artifactId>maven-dependency-plugin</artifactId>

                <configuration>

                    <excludeTransitive>false</excludeTransitive>

                    <stripVersion>true</stripVersion>

                    <outputDirectory>./lib</outputDirectory>

                </configuration>

            </plugin>

        </plugins>

    </build>

</project>

新建一个WordCount.java文件

内容如下：

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

    public static class TokenizerMapper

            extends Mapper<Object, Text, Text, IntWritable> {

        private final static IntWritable one = new IntWritable(1);

        private Text word = new Text();

        public void map(Object key, Text value, Context context

        ) throws IOException, InterruptedException {

            StringTokenizer itr = new StringTokenizer(value.toString());

            while (itr.hasMoreTokens()) {

                word.set(itr.nextToken());

                context.write(word, one);

            }

        }

    }

    public static class IntSumReducer

            extends Reducer<Text, IntWritable, Text, IntWritable> {

        private IntWritable result = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values,

                           Context context

        ) throws IOException, InterruptedException {

            int sum = 0;

            for (IntWritable val : values) {

                sum += val.get();

            }

            result.set(sum);

            context.write(key, result);

        }

    }

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf, "word count");

        job.setJarByClass(WordCount.class);

        job.setMapperClass(TokenizerMapper.class);

        job.setCombinerClass(IntSumReducer.class);

        job.setReducerClass(IntSumReducer.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

}

然后要用windows可以看下教程：

这一定是可以的也是最方便的了

https://www.cs.helsinki.fi/u/jilu/paper/hadoop_on_win.pdf

首先下载hadoop二进制程序

2.7.3 source：

http://hadoop.apache.org/releases.html

替换掉hadoop-2.7.3里的bin文件

替换程序：

https://github.com/srccodes/hadoop-common-2.2.0-bin/archive/master.zip

设置环境：

这里注意下最好是在IDEA里设置HADOOP_HOME环境变量,如果设置的是系统环境变量那么你就还需要修改，我都设置了。。。

hadoop-2.7.3-src\hadoop-common-project\hadoop-common\src\main\java\org\apache\hadoop\util\Shell.java

源码：

2.7.3 source：

http://hadoop.apache.org/releases.html

private static String checkHadoopHome() {

    // first check the Dflag hadoop.home.dir with JVM scope

		//System.setProperty("hadoop.home.dir", "...");

    String home = System.getProperty("hadoop.home.dir");

    // fall back to the system/user-global env variable

    if (home == null) {

      home = System.getenv("HADOOP_HOME");

    }

    try {

       // couldn't find either setting for hadoop's home directory

       if (home == null) {

         throw new IOException("HADOOP_HOME or hadoop.home.dir are not set.");

       }

       if (home.startsWith("\"") && home.endsWith("\"")) {

         home = home.substring(1, home.length()-1);

       }

       // check that the home setting is actually a directory that exists

       File homedir = new File(home);

       if (!homedir.isAbsolute() || !homedir.exists() || !homedir.isDirectory()) {

         throw new IOException("Hadoop home directory " + homedir

           + " does not exist, is not a directory, or is not an absolute path.");

       }

       home = homedir.getCanonicalPath();

    } catch (IOException ioe) {

      if (LOG.isDebugEnabled()) {

        LOG.debug("Failed to detect a valid hadoop home directory", ioe);

      }

      home = null;

    }

    //固定本机的hadoop地址

    home="D:\\hadoop-2.7.3";

    return home;

  }

home = System.getenv("HADOOP_HOME");

如果是设置系统环境变量，这里获取的HADOOP_HOME的home目录的字符串会在字符串开始加入一个'\u202A'字符，(好像是)代表c/c++/java源码(神奇)

然后把文件拷贝到你的工程下，idea会优先查找工程目录下的(可以先拷过来再改)

如果是设置IDEA里的环境变量就不用改Shell.java了

之后按照文档里的改下NativeIO.java文件

hadoop-2.7.3-src\hadoop-common-project\hadoop-common\src\main\java\org\apache\hadoop\io\nativeio\NativeIO.java

修改行609左右

    return access0(path, desiredAccess.accessRight());

改成

    return true;

也拷到工程下来就行了

另外建议以管理员模式打开IDEA

由于Hadoop的设定，下次运行时务必删除output文件夹！

好了,运行程序,结果如下:

aaa 1

aadads 1

cckcer 1

dfdfadgdgag 2

fadf 1

fuck 2

fuckfuck 1

fudflcl 2

haha 1

Hadoop Windows IDEA的更多相关文章

[Hadoop] Windows 下的 Hadoop 2.7.5 环境搭建
原文地址:https://www.cnblogs.com/memento/p/9148721.html 准备说明: jdk:jdk-8u161-windows-x64.exe hadoop:hadoo ...
Hadoop windows 环境配置
下载 winutils 点击这里下载 winutils 包,并解压缩. 此处解压缩后目录位置为 D:\software\hadoop2.6 配置环境变量变量名变量值 HADOOP_USER_NA ...
初学hadoop,windows下安装
先bb一下,woc开始使用Cygwin来模拟linux配置hadoop,然后各种错误,找着找着发现原来2.0+的hadoop可以直接在windows下配置.当时真是1w头神兽飞过. 下载hadoop ...
解决错误系统找不到指定的批标签 make_command_arguments |hadoop windows出错
问题:cmd命令行传参数出错此文章适用于 cmd命令行传参数出错在windows 7下倒腾 Hadoop 时出现 The system cannot find the batch label s ...
Windows上安装运行hadoop
0.自己编译安装步骤在这里,有英文版本连接:<英文传送门>. 自己编译尝试后不成功,换为下面使用别人编译好的版本的方法.参考博客:<初学hadoop,windows下安装> 1 ...
windows 本地配置hadoop客户端
下载解压 hadoop 至D:\hadoop2.6.0 配置环境变量 HADOOP_HOME=D:\hadoop2.6.0 下载hadoop windows插件将dll文件放入C:\Windows ...
Windows 搭建Hadoop 2.7.3开发环境
1.安装配置Java环境 1.1.安装Windows版本的jkd应用程序当前的系统环境是64位Windows 7,因此下载64位JDK,下载地址:http://download.oracle.com ...
ecplise + hadoop 调试环境搭建
1.需要安装包 1.1 hadoop源码包(hadoop-2.5.2-src.tar.gz) 1.2 hadoop 2X插件(hadoop2x-eclipse-plugin-master.zip) 1 ...
spark在windows下的安装
Windows下最简的开发环境搭建这里的spark开发环境, 不是为apache spark开源项目贡献代码, 而是指基于spark的大数据项目开发. Spark提供了2个交互式shell, 一个 ...

随机推荐

BSGS 学习笔记
问题:求$a^x\equiv b\ (mod\ p)$的最小正整数解. 这时候就要用到BSGS(拔山盖世)算法.直接进入正题: 设$x=im-n$, 则原式等于$a^{im-n}\equiv b\ ( ...
iOS alertController自带的输入框
UIAlertController *alertController = [UIAlertController alertControllerWithTitle:nil message:@" ...
LinuX操作系统基础------>软件的安装方式，chmod权限，vi编辑器的使用
RPM包管理 -rpm命令管理 RPM包管理 -yum在线管理文件权限管理 vi编辑器的使用和常用的快捷键 1.RPM包管理: 一种用于互联网下载包的打包及安装工具,RPM包管理分为rpm命令管理和 ...
Java中增强一个类的几种方法
今天有人问我怎么增强一个类的功能.博客刚好没东西,今天就讲讲增强类. 增强的手段有三种类型: 1.继承或者实现接口:特点是被增强对象不能变,增强的内容不能变. 2.装饰着模式:特点是被增强对象可变,但 ...
基于OpenSIPS做注册服务下，场景A打B，一方发起BYE挂断后收到500，另一方无法挂断的问题
基于OpenSIPS做注册服务下,场景A打B,一方发起BYE挂断后收到500,另一方无法挂断的问题最近在工作中遇到一个看似很奇怪的,排除起来很费劲,但最后的解决方式又及其简单的问题,下面我们 ...
java_抽象类、接口、多态的使用
抽象类抽象类:包含抽象方法的类. 抽象方法 : 没有方法体的方法. 使用 abstract关键字修饰方法,该方法就成了抽象方法,抽象方法只包含一个方法名,而没有方法体. 格式为:修饰符 abstra ...
arcgis api for js 之网络分析服务发布
1.引言百度地图上有这样的功能:点击两个点,地图上会显示对两个点的路径规划.这个功能能否利用 arcgis api 实现呢?答案是肯定的.不过在实现之前,我们需要将数据发布为网络分析服务,接下来我将 ...
冷饭新炒：理解Snowflake算法的实现原理
前提 Snowflake(雪花)是Twitter开源的高性能ID生成算法(服务). 上图是Snowflake的Github仓库,master分支中的REAEMDE文件中提示:初始版本于2010年发布, ...
Mysql Column 'xxxxx' in field list is ambiguous"
使用了关联查询,两张表有相同的字段,所以说取值含糊不清: 使用别名.列名解决: 如 a.description
canvas图片编辑操作：缩放、移动、保存（PC端+移动端）
最近在写canvas关于图片的操作,看了网上的代码基本都是不行的,于是就自己写了一个. html代码 <canvas id="myCanvas" width="37 ...

Hadoop Windows IDEA

Hadoop Windows IDEA的更多相关文章

随机推荐

热门专题