Hadoop入门实例——WordCount统计单词

首先要说明的是运行Hadoop需要jdk1.6或以上版本，如果你还没有搭建好Hadoop集群，请参考我的另一篇文章：

Linux环境搭建Hadoop伪分布模式

马上进入正题。

1.启动Hadoop集群，使用jps查看所有结点是否启动成功；

2.进入hadoop的bin目录，查看hadoop中的例程

运行./hadoop jar /opt/hadoop/hadoop-examples-*-.jar,红框中的jar包根据你的hadoop版本而定；

3.试图运行wordcount，./hadoop jar /opt/hadoop/hadoop-examples-1.0.4.jar wordcount

显示出参数列表为：wordcount <in> <out>，所以我们要指定分布式文件的输入、输出目录；

4.创建输入目录

在bin目录下运行：./hadoop dfs -mkdir /home/hadoop/input （本地的mkdir可能不可用）

5.下载几篇英文文章(txt最好)，放入刚刚创建的输入目录

我使用的是window下的虚拟机，可以用xftp将本地文件上传到Linux服务器，很方便。。

./hadoop dfs -put input/* /home/hadoop/input

(注：第一个目录是你存放文章的本地目录，*通配符，表示该目录下的所有文档，

第二个目录是你的分布式文件系统的输入目录)

查看测试文件：./hadoop dfs -ls /home/hadoop/input

6.运行，每次运行前请先删除输出目录，因为他是自动生成的；

或者每次都创建一个新的目录，否则会运行失败。

./hadoop jar ../hadoop-examples-1.0.4.jar wordcount /home/hadoop/input /home/hadoop/output

7.查看单词统计结果，默认生成的文件part-r-00000

./hadoop dfs -cat /home/hadoop/output/part-r-00000

我选择的是一篇经济学论文，这个就是部分结果了。

开心！！！

Hadoop入门实例——WordCount统计单词的更多相关文章

Hadoop Mapreduce 案例 wordcount+统计手机流量使用情况
mapreduce设计思想概念:它是一个分布式并行计算的应用框架它提供相应简单的api模型,我们只需按照这些模型规则编写程序,即可实现"分布式并行计算"的功能. 案例一:word ...
大数据学习day32-----spark12-----1. sparkstreaming（1.1简介，1.2 sparkstreaming入门程序（统计单词个数，updateStageByKey的用法，1.3 SparkStreaming整合Kafka，1.4 SparkStreaming获取KafkaRDD的偏移量，并将偏移量写入kafka中）
1. Spark Streaming 1.1 简介(来源:spark官网介绍) Spark Streaming是Spark Core API的扩展,其是支持可伸缩.高吞吐量.容错的实时数据流处理.Sp ...
Hadoop实战5:MapReduce编程-WordCount统计单词个数-eclipse-java-windows环境
Hadoop研发在java环境的拓展一背景由于一直使用hadoop streaming形式编写mapreduce程序,所以目前的hadoop程序局限于python语言.下面为了拓展java语言研 ...
Hadoop实战3:MapReduce编程-WordCount统计单词个数-eclipse-java-ubuntu环境
之前习惯用hadoop streaming环境编写python程序,下面总结编辑java的eclipse环境配置总结,及一个WordCount例子运行. 一下载eclipse安装包及hadoop插件 ...
hadoop 入门实例【转】
原文链接:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html 1.数据去重 "数据去重"主要是为了掌握 ...
Hadoop入门程序WordCount的执行过程
首先编写WordCount.java源文件,分别通过map和reduce方法统计文本中每个单词出现的次数,然后按照字母的顺序排列输出, Map过程首先是多个map并行提取多个句子里面的单词然后分别列出 ...
Hadoop入门经典:WordCount
转:http://blog.csdn.net/jediael_lu/article/details/38705371 以下程序在hadoop1.2.1上测试成功. 本例先将源代码呈现,然后详细说明执行 ...
Hadoop入门经典:WordCount 分类： A1_HADOOP 2014-08-20 14:43 2514人阅读评论(0) 收藏
以下程序在hadoop1.2.1上测试成功. 本例先将源代码呈现,然后详细说明执行步骤,最后对源代码及执行过程进行分析. 一.源代码 package org.jediael.hadoopdemo.wo ...
Hadoop MapReduce编程 API入门系列之统计学生成绩版本2（十八）
不多说,直接上代码. 统计出每个年龄段的男.女学生的最高分这里,为了空格符的差错,直接,我们有时候,像如下这样的来排数据. 代码 package zhouls.bigdata.myMapRedu ...

随机推荐

mysql基础之存储引擎
原文:mysql基础之存储引擎数据库对同样的数据,有着不同的存储方式和管理方式,在mysql中,称为存储引擎常用的表的引擎 Myisam ,批量插入速度快, 不支持事务,锁表 Innodb, 批量 ...
【转】【Android工具】被忽略的UI检视利器：Hierarchy Viewer
原文:http://blog.csdn.net/ddna/article/details/5527072 Hierarchy Viewer是随AndroidSDK发布的工具,位置在tools文件夹下, ...
开源框架之TAB控件
我的开源框架之TAB控件需求 (1)支持iframe.html.json格式的tab内容远程请求 (2)支持动态添加tab (3)支持远程加载完成监听,支持tab激活事件监听 (4)支持relo ...
Linux内核策略介绍
Linux内核策略介绍学习笔记主要内容硬件策略 CPU 进程调度.系统调用.中断内存内存管理外存文件IO 网络协议栈其他时间管理进程调度内核的运行时间系统启动.中断发 ...
点击表格的单元格时实现变颜色,通过for循环为每个单元格添加一个onclick事件
<title>无标题文档</title> <script type="text/javascript" language="javascri ...
Scala + Play + Sbt + Protractor
Scala + Play + Sbt + Protractor = One Build 欢迎关注我的新博客地址:http://cuipengfei.me/ 我所在的项目的技术栈选用的是Play fra ...
ThoughtWorks 面试
ThoughtWorks 面试备忘录 ThoughtWorks 面试备忘录前言前段时间 ThoughtWorks 在网上和拉勾网合作搞了一次网络招聘,名为抛弃简历!让代码说话!可谓赚足了眼球, ...
python int异常 python isdigit
python int是python把任何类型转换成int类型的方法,但是你如果运用不好的话,会引发异常,但是python的str字符串转换方法运用起来倒是比较安全,它把任何对象转换成字符串类型都不会报 ...
统计学习方法（三）——K近邻法
/*先把标题给写了.这样就能经常提醒自己*/ 1. k近邻算法 k临近算法的过程,即对一个新的样本,找到特征空间中与其最近的k个样本,这k个样本多数属于某个类,就把这个新的样本也归为这个类. 算法 ...
【又长见识了】C#异常处理，try、catch、finally、throw
异常处理:程序在运行过程中,发生错误会导致程序退出,这种错误,就叫做异常.处理这种错误,就叫做异常处理. 1.轻描淡写Try.Catch.Finally.throw用法在异常处理中,首先需要对可能发 ...

Hadoop入门实例——WordCount统计单词

Hadoop入门实例——WordCount统计单词的更多相关文章

随机推荐

热门专题