Win7中使用Eclipse连接虚拟机中的Ubuntu中的Hadoop2.4<3>

经过前几天的学习，基本上能够小试牛刀编写一些小程序玩一玩了，在此之前做几项准备工作

明白我要用hadoop干什么
大体学习一下mapreduce
ubuntu重新启动后，再启动hadoop会报连接异常的问题

答：

数据提炼、探索数据、挖掘数据
map=切碎，reduce=合并
重新启动后会清空tmp目录，默认namenode会存在这里，须要在core-site.xml文件里添加（别忘了创建目录，没权限的话，须要用root创建并把权限改成777）：
```
<property>

     <name>hadoop.tmp.dir</name>

     <value>/usr/local/hadoop/tmp</value>

</property>
```

大数据，我的第一反应是现有关系型数据库中的数据怎么跟hadoop结合使用，网上搜了一些资料，使用的是DBInputFormat，那就简单编写一个从数据库读取数据，然后经过处理后，生成文件的小样例吧
数据库弄的简单一点吧，id是数值整型、test是字符串型，需求非常easy，统计TEST字段出现的数量

数据读取类：

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import java.sql.PreparedStatement;

import java.sql.ResultSet;

import java.sql.SQLException;

import org.apache.hadoop.io.Writable;

import org.apache.hadoop.mapreduce.lib.db.DBWritable;

public class DBRecoder implements Writable, DBWritable{

	String test;

	int id;

	@Override

	public void write(DataOutput out) throws IOException {

		out.writeUTF(test);

		out.writeInt(id);

	}

	@Override

	public void readFields(DataInput in) throws IOException {

		test = in.readUTF();

		id = in.readInt();

	}

	@Override

	public void readFields(ResultSet arg0) throws SQLException {

		test = arg0.getString("test");

		id = arg0.getInt("id");

	}

	@Override

	public void write(PreparedStatement arg0) throws SQLException {

		arg0.setString(1, test);

		arg0.setInt(2, id);

	}

}

mapreduce操作类

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.db.DBConfiguration;

import org.apache.hadoop.mapreduce.lib.db.DBInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class DataCountTest {

	public static class TokenizerMapper extends Mapper<LongWritable, DBRecoder, Text, IntWritable> {

		public void map(LongWritable key, DBRecoder value, Context context) throws IOException, InterruptedException {

			context.write(new Text(value.test), new IntWritable(1));

		}

	}

	public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

		private IntWritable result = new IntWritable();

		public void reduce(Text key, Iterable<IntWritable> values,

				Context context) throws IOException, InterruptedException {

			int sum = 0;

			for (IntWritable val : values) {

				sum += val.get();

			}

			result.set(sum);

			context.write(key, result);

		}

	}

	public static void main(String[] args) throws Exception {

		args = new String[1];

		args[0] = "hdfs://192.168.203.137:9000/user/chenph/output1111221";

		Configuration conf = new Configuration();

        DBConfiguration.configureDB(conf, "oracle.jdbc.driver.OracleDriver",

                "jdbc:oracle:thin:@192.168.101.179:1521:orcl", "chenph", "chenph");  

		String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

		Job job = new Job(conf, "DB count");

		job.setJarByClass(DataCountTest.class);

		job.setMapperClass(TokenizerMapper.class);

		job.setReducerClass(IntSumReducer.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(IntWritable.class);

		job.setMapOutputKeyClass(Text.class);

		job.setMapOutputValueClass(IntWritable.class);

        String[] fields1 = { "id", "test"};

        DBInputFormat.setInput(job, DBRecoder.class, "t1", null, "id",  fields1);  

		FileOutputFormat.setOutputPath(job, new Path(otherArgs[0]));

		System.exit(job.waitForCompletion(true) ? 0 : 1);

	}

}

--------------------------------------------------------------------------------------------------

开发过程中遇到的问题：

Job被标记为已作废，那应该用什么我还没有查到
乱码问题，hadoop默认是utf8格式的，假设读取的是gbk的须要进行处理
这类样例网上挺少的，有也是老版的，新版的资料没有，我全然是拼凑出来的，非常多地方还不甚了解，须要进一步学习官方资料
搜索资料时，有资料说不建议採用这样的方式处理实际的大数据问题，原因就是并发过高，会瞬间秒杀掉数据库，一般都会採用导成文本文件的形式

Win7中使用Eclipse连接虚拟机中的Ubuntu中的Hadoop2.4<3>的更多相关文章

通过win下的eclipse连接虚拟机中伪分布的hadoop进行调试
VMware虚拟机配置Ubuntu桥接方式(Bridged)使虚拟机和宿主机能互相ping通, 通过win下的eclipse连接虚拟机中伪分布的hadoop进行调试 1.设置Bridged上网方式 V ...
win7中配置eclipse连接Ubuntu内的hadoop
Hadoop java 分布式云计算数据库目录[-] 1.设置Ubuntu静态IP: 1)配置网卡参数到interfaces文件: 2)重启网卡: 2.配置Ubuntu的hosts: 3.配置V ...
win10 eclipse连接虚拟机ubuntu中的hdfs
1.eclipse安装连接hadoop的插件hadoop-eclipse-plugin-2.6.0(注意自己hadoop的版本) 将该插件放在eclipse安装路径的plugins文件夹中. ps:我 ...
windows中eclipse连接虚拟机hdfs
1.修改配置文件core-site.xml,将其中localhost改为虚拟机的ip地址: 在Ubuntu中,打开控制台,使用命令ifconfig查看虚拟机ip,如图: 修改[hadoop安装路径]/ ...
如何在Windows中使用Eclipse访问虚拟机Linux系统中的hadoop（伪分布式）
因为计算机配置过低,在虚拟机里几乎无法使用Eclipse,效率极低! 所以现在尝试使用Windows下Eclipse操作虚拟机中Hadoop,步骤如下: 开发环境:Hadoop2.7.1,Ubuntu ...
Win7环境下Eclipse连接Hadoop2.2.0
准备: 确保hadoop2.2.0集群正常运行 1.eclipse中建立java工程,导入hadoop2.2.0相关jar包 2.在src根目录下拷入log4j.properties,通过log4j查 ...
[开发]Win7环境下Eclipse连接Hadoop2.2.0
准备: 确保hadoop2.2.0集群正常运行 1.eclipse中建立mven工程,并编辑pom文件如下 <dependencies> <dependency> <gr ...
Window10中利用Windbg与虚拟机（window7）中调试驱动建立方法
想起自己的windbg配置就转载:eqera的windows内核调试配置,真的是获益良多希望他不会介意我转载他的博客,帮了我很多,记录下来给我也给大家, 其中我主要看的是VMWare的pipe建立,而 ...
无法将 Ethernet0 连接到虚拟网络”VMnet0″ 详细信息可以在 vmware.log 文件中找到未能连接虚拟机Ethernet0
在 vmware“编辑->虚拟网络设置”里面,点“恢复默认”可解决.

随机推荐

Undefined symbols for architecture armv7
xcode编译过程中出现如下问题Undefined symbols for architecture armv7:... ld: symbol(s) not found for architectur ...
linux下动态库编译的依赖问题
这里主要是想试验一下,对一个具有多层嵌套的动态库进行编译时,是否要把最底层的库也包含进来的问题,结论是:只要直接依赖的库名称,不需要最底层库名称. 一,目录结构ZZZ├── add│ ├── ad ...
HDU 5127 Dogs' Candies
Dogs' Candies Time Limit: 30000/30000 MS (Java/Others) Memory Limit: 512000/512000 K (Java/Others) T ...
利用DescriptionAttribute定义枚举值的描述信息 z
System.ComponentModel命名空间下有个名为DescriptionAttribute的类用于指定属性或事件的说明,我所调用的枚举值描述信息就是DescriptionAttribute类 ...
Delphi VclSkin使用教程
1. TSkinData TSkinData 主要用于美化你的程序, 只要把TSkinData控件放下去,它就能自动美化所有窗体. 属性 Active: 使用或取消对程序的美化. DisableT ...
记录一次cefsharp1输入法在win7下异常解决定位
最近几天都被基于cefSharp封装的浏览器控件搞疯了!对于cefSharp基本满足当前所做项目的需求,但是有一个问题一直困扰我,那就是系统中偶尔会出现输入法不能转换到中文.而且这个问题似乎没有什么规 ...
js代码大全
超级实用且不花哨的js代码大全事件源对象event.srcElement.tagNameevent.srcElement.type 捕获释放event.srcElement.setCapture() ...
motan源码解读：注册中心zookeeper(2)
上文大概讲解了利用zookeeper如何实现注册中心的.本文主要是从源码角度说明下.代码都在模块motan-registry-zookeeper中,其实在在这个模块中就3个类. ZkNodeType: ...
初识MFC,WinForm,WPF，Q't
MFC和QT是C++中常见的GUI框架,而WinForm和WPF是C#中常用的框架,不过我们一般很少叫WinForm框架,可能直接叫图形控件类库更多点.反正只是个称呼罢了,爱咋叫就咋叫.另外WinFo ...
JavaScript操作DOM的那些坑
js在操作DOM中存在着许多跨浏览器方面的坑,本文花了我将近一周的时间整理,我将根据实例整理那些大大小小的“坑”. DOM的工作模式是:先加载文档的静态内容.再以动态方式对它们进行刷新,动态刷新不影响 ...

Win7中使用Eclipse连接虚拟机中的Ubuntu中的Hadoop2.4&lt;3&gt;

Win7中使用Eclipse连接虚拟机中的Ubuntu中的Hadoop2.4&lt;3&gt;的更多相关文章

随机推荐

热门专题

Win7中使用Eclipse连接虚拟机中的Ubuntu中的Hadoop2.4<3>

Win7中使用Eclipse连接虚拟机中的Ubuntu中的Hadoop2.4<3>的更多相关文章