在eclipse上跑hadoop的helloworld

关于hadoop的用处什么我就不说了，在这里记录下在eclipse上第一次跑hadoop遇到的问题吧~

hadoop的安装我就不说啦，网上教程一大堆~我直接用的公司的Linux上的hadoop。

eclipse用的是mars，JDK1.8，win7，hadoop是公司的Linux上的hadoop 1.2.1，关联的JDK是1.7.

首先下载hadoop关联eclipse的插件hadoop-eclipse-plugin-1.2.1。最好下载相同版本的，不然容易出问题（我就是典型）。把插件放到eclipse安装目录的plugins下（hadoop-eclipse-plugin-2.2.0放到dropins目录下是可以的，但是1.2.1是不行的），重启eclipse，在eclipse的页面上出现这个东东~

接下来配置hadoop，点击图上的大象，在eclipse下面出现这个。点击右边蓝色小象，进入hadoop的配置页面。

关于配置的详细信息在图上都标注出来了。Linux的命令这在这里就不说了，连Linux推荐用secureCRT。

点击finish，等待完成。完成后，在eclipse的左边，project explorer下面会出现DFS location。成功的话会把hadoop的文件加载出来，相当于hadoop fs -ls这个命令出现的结果。这里如果出现连接失败，检查一下是不是地址或端口写错了，可以在cmd中telnet端口看是不是可以连通，telnet 192.168.0.201 49000。如果出现提示“你的电脑一个软件阻止访问”，那么可能就是hadoop-eclipse的插件版本不对了~

都OK得那么就可以写helloworld了。

package com.qldhlbs.hadoop.helloworld;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

public class WordCount {

	public static class WordCountMap extends

			Mapper<LongWritable, Text, Text, IntWritable> {

		private final IntWritable one = new IntWritable(1);

		private Text word = new Text();

		public void map(LongWritable key, Text value, Context context)

				throws IOException, InterruptedException {

			String line = value.toString();

			StringTokenizer token = new StringTokenizer(line);

			while (token.hasMoreTokens()) {

				word.set(token.nextToken());

				context.write(word, one);

			}

		}

	}

	public static class WordCountReduce extends

			Reducer<Text, IntWritable, Text, IntWritable> {

		public void reduce(Text key, Iterable<IntWritable> values,

				Context context) throws IOException, InterruptedException {

			int sum = 0;

			for (IntWritable val : values) {

				sum += val.get();

			}

			context.write(key, new IntWritable(sum));

		}

	}

	public static void main(String[] args) throws Exception {

		Configuration conf = new Configuration();

		Job job = new Job(conf);

		job.setJarByClass(WordCount.class);

		job.setJobName("wordcount");

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(IntWritable.class);

		job.setMapperClass(WordCountMap.class);

		job.setReducerClass(WordCountReduce.class);

		job.setInputFormatClass(TextInputFormat.class);

		job.setOutputFormatClass(TextOutputFormat.class);

		FileInputFormat.addInputPath(job, new Path(args[0]));

		FileOutputFormat.setOutputPath(job, new Path(args[1]));

		job.waitForCompletion(true);

	}

}

主意要导入的包。其中hadoop包和Jackson包在下载的hadoop文件里面都有，几个commons包也要导入，不然会报错，其中commons-cli-1.3.1.jar是一个处理命令的工具。比如main方法输入的string[]需要解析。你可以预先定义好参数的规则，然后就可以调用CLI来解析。上面的代码不到这个包会报错。

接下来在hadoop中创建文件。命令hadoop fs -mkdir /user/qldhlbs/input创建文件夹。这些hadoop命令和Linux的差不多~后面的/user/qldhlbs/input是创建的文件夹目录。在eclipse上右键DFS location刷新或者重连，就会看到在user目录下出现qldhlbs/input目录。把要count的文件放到input中去，可以用简单的方法，就是右键创建的input，选择upload file to DFS。不出意外的话会提醒没有权限，那么就赋予权限。命令 hadoop fs -chmod 777 /user/qldhlbs/input。其中777是读写执行权限（因为它对应的二进制是4,2,1），/user/qldhlbs/input是给予权限的目录。在eclipse刷新一下就可以上传文件了~上传成功后再input目录下可以看到你上传的文件。

接下来右键run configurations，配置参数。hdfs://192.168.0.201:49000/user/qldhlbs/input hdfs://192.168.0.201:49000/user/qldhlbs/output，它会自动帮你建output目录，如果自己创建会报错，文件已存在。点击apply，run。参数地址不要写错了，原来我写错了找了半天错误没找到~zzZ。这里会提示qldhlbs这个目录没有权限，和前面一样赋予全县就行了。如果用1.2.1这个版本不出意外的话还会提示一个tmp/hadoop-Administrator/xxxx没有权限的错误，改一下hadoop-core-1.2.1.jar文件的源码就行了，反编译一下这个jar,在fs包下的fileUtil类中的checkReturnValue方法，把里面的内容注释掉就行了。

把改了的文件重新打包成jar放到工程中，跑一下就可以了。运行成功会在output下面出现两个文件。

到这儿hadoop的helloworld就完成了~当初做的时候没仔细看，出了一些不该出的小错误，浪费很多时间~

在eclipse上跑hadoop的helloworld的更多相关文章

linux下在eclipse上运行hadoop自带例子wordcount
启动eclipse:打开windows->open perspective->other->map/reduce 可以看到map/reduce开发视图.设置Hadoop locati ...
mac上eclipse上配置hadoop
在mac上安装了eclipse之后,配置hadoop其实跟在linux上配置差不多,只是mac上得eclipse和界面和linux上得有点不同. 一:安装eclipse eclipse得安装比较简单, ...
关于在Eclipse上运行Hadoop程序的日志输出问题
在安装由Eclipse-Hadoop-Plugin的Eclipse中, 可以直接运行Hadoop的MapReduce程序, 但是如果什么都不配置的话你发现Eclipse控制台没有任何日志输出, 这个问 ...
win系统下的eclipse连接和使用linux上的hadoop集群
准备工作先在win系统的hosts文件中加入下面内容 10.61.6.164master //hadoop集群的master节点一.首先在eclipse上安装hadoop插件下载hado ...
在 Windows 上安装 Hadoop 教程（转）
在 Windows 上安装 Hadoop 教程一见 2010.1.6 www.hadoopor.com/hadoopor@foxmail.com 1. 安装 JDK 不建议只安装 JRE,而是建议直 ...
让python在hadoop上跑起来
duang~好久没有更新博客啦,原因很简单,实习啦-好吧,我过来这边上班表示觉得自己简直弱爆了.第一周,配置环境:第二周,将数据可视化,包括学习了excel2013的一些高大上的技能,例如数据透视表和 ...
使用Windows上Eclipse远程调试Linux上的Hadoop
一.设置Eclipse运行用户如果以与Hadoop运行用户名(比如grid)不同的用户运行Eclipse,则无法对Hadoop运行用户所属的文件进行管理,运行Map/Reduce程序也会报& ...
Windows用Eclipse来开发hadoop的WordCount的helloworld
[学习笔记] 2.Win7用Eclipse来开发hadoop的WordCount的helloworld网上下载hadoop-eclipse-plugin-2.7.4.jar,将该jar包拷贝到Ecli ...
Hadoop3 在eclipse中访问hadoop并运行WordCount实例
前言: 毕业两年了,之前的工作一直没有接触过大数据的东西,对hadoop等比较陌生,所以最近开始学习了.对于我这样第一次学的人,过程还是充满了很多疑惑和不解的,不过我采取的策略是还是先让环 ...

随机推荐

windows下读取磁盘扇区数据
在Windows下,磁盘可以看做是一个文件,其文件名为\\\\.\\PhysicalDriveX,其中X表示磁盘的编号,例如\\\\.\\PhysicalDrive0表示的是第0号磁盘,如果需要读取一 ...
vm安装centos 老是出现 grub.conf 配置问题
vm 环境 11 centos 6.5 最开始用的是vm12 发现安装软件一会就出现客户机操作系统已禁用 cpu.请关闭或重置虚拟机以为是新机器的cpu或者主板有问题,换vm,换系统依然会出现这 ...
使用 Composer 为 ThinkPHP（3.2.3）框架添加和管理组件
环境:Windows 64位 PHP 版本: 框架:ThinkPHP Tips: 组件:打包的代码,可以是一系列相关的类(class).接口(interface).特性(trait),用于解决某个具体 ...
C#中文件多选批量下载
public class MyNameTransfom : ICSharpCode.SharpZipLib.Core.INameTransform { #region INameTransform 成 ...
阿里云服务器Linux CentOS安装配置（三）yum安装mysql
阿里云服务器Linux CentOS安装配置(三)yum安装mysql 1.执行yum安装mysql命令:yum -y install mysql-server mysql-devel 2.启动mys ...
C#发送邮件时提示：“不允许使用邮箱名称。服务器响应为：”的错误解决办法
由于项目需要,要为客户提供一个定期发送邮件的程序.本来原来自己还写过,但新写的程序一晚上也没通过测试,总是提示"不允许使用邮箱名称.服务器响应为..." 经过在网上搜索查找解决办法 ...
【转载】查看freebsd 服务器硬件信息
http://3918479.blog.51cto.com/3908479/857900 查看服务器的cpu配置 Fb-bj138# dmesg | grep CPU CPU: Intel(R) Co ...
ElasticSearch 自定义排序处理
使用function_score进行分组处理,利用分组函数script_score进行自定义分值处理, 注意:使用script功能需要在配置中打开脚本功能: script.inline: on s ...
SQL声明变量并赋值
declare @studentid int //声明一个int型变量 );//设置变量值,tclass 为任意表,classid 为表中任一字段 if(@studentid is not null) ...
Json与常见的类型之间的转换
常用的json list转json List list=new ArrayList(); list.add("1"); list.add("2"); JsonA ...

在eclipse上跑hadoop的helloworld

在eclipse上跑hadoop的helloworld的更多相关文章

随机推荐

热门专题