Hadoop运行单词统计

1.创建input文件夹

hadoop fs -mkdir input

2.上传文件到hadoop

hadoop fs -put /root/data/output.txt input

3.运行wordcount（运行前删除旧的output文件夹，可以使用eclipse删除）

hadoop jar ./hadoop-examples-1.2..jar wordcount input output

4.下载文件到本地

hadoop fs -get output /root/data/

运行结果：

[root@VM_238_215_centos hadoop-1.2.]# hadoop jar ./hadoop-examples-1.2..jar wordcount input output

Warning: $HADOOP_HOME is deprecated.

// :: INFO input.FileInputFormat: Total input paths to process :

// :: INFO util.NativeCodeLoader: Loaded the native-hadoop library

// :: WARN snappy.LoadSnappy: Snappy native library not loaded

// :: INFO mapred.JobClient: Running job: job_201705080035_0003

// :: INFO mapred.JobClient:  map % reduce %

// :: INFO mapred.JobClient:  map % reduce %

// :: INFO mapred.JobClient:  map % reduce %

// :: INFO mapred.JobClient:  map % reduce %

// :: INFO mapred.JobClient: Job complete: job_201705080035_0003

// :: INFO mapred.JobClient: Counters:

// :: INFO mapred.JobClient:   Map-Reduce Framework

// :: INFO mapred.JobClient:     Spilled Records=

// :: INFO mapred.JobClient:     Map output materialized bytes=

// :: INFO mapred.JobClient:     Reduce input records=

// :: INFO mapred.JobClient:     Virtual memory (bytes) snapshot=

// :: INFO mapred.JobClient:     Map input records=

// :: INFO mapred.JobClient:     SPLIT_RAW_BYTES=

// :: INFO mapred.JobClient:     Map output bytes=

// :: INFO mapred.JobClient:     Reduce shuffle bytes=

// :: INFO mapred.JobClient:     Physical memory (bytes) snapshot=

// :: INFO mapred.JobClient:     Reduce input groups=

// :: INFO mapred.JobClient:     Combine output records=

// :: INFO mapred.JobClient:     Reduce output records=

// :: INFO mapred.JobClient:     Map output records=

// :: INFO mapred.JobClient:     Combine input records=

// :: INFO mapred.JobClient:     CPU time spent (ms)=

// :: INFO mapred.JobClient:     Total committed heap usage (bytes)=

// :: INFO mapred.JobClient:   File Input Format Counters

// :: INFO mapred.JobClient:     Bytes Read=

// :: INFO mapred.JobClient:   FileSystemCounters

// :: INFO mapred.JobClient:     HDFS_BYTES_READ=

// :: INFO mapred.JobClient:     FILE_BYTES_WRITTEN=

// :: INFO mapred.JobClient:     FILE_BYTES_READ=

// :: INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=

// :: INFO mapred.JobClient:   Job Counters

// :: INFO mapred.JobClient:     Launched map tasks=

// :: INFO mapred.JobClient:     Launched reduce tasks=

// :: INFO mapred.JobClient:     SLOTS_MILLIS_REDUCES=

// :: INFO mapred.JobClient:     Total time spent by all reduces waiting after reserving slots (ms)=

// :: INFO mapred.JobClient:     SLOTS_MILLIS_MAPS=

// :: INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=

// :: INFO mapred.JobClient:     Data-local map tasks=

// :: INFO mapred.JobClient:   File Output Format Counters

// :: INFO mapred.JobClient:     Bytes Written=

Hadoop运行单词统计的更多相关文章

MapReduce 单词统计案例编程
MapReduce 单词统计案例编程一.在Linux环境安装Eclipse软件 1. 解压tar包下载安装包eclipse-jee-kepler-SR1-linux-gtk-x86_64.ta ...
Mac下hadoop运行word count的坑
Mac下hadoop运行word count的坑 Word count体现了Map Reduce的经典思想,是分布式计算中中的hello world.然而博主很幸运地遇到了Mac下特有的问题Mkdir ...
Hadoop之词频统计小实验
声明: 1)本文由我原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Ubuntu操作系统,hadoop1-2-1,jdk1.8.0. 3)统计词频工作在单节点的伪分布上,至于真正实 ...
大数据学习——mapreduce程序单词统计
项目结构 pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns=&q ...
第一个Hadoop程序-单词计数
上一篇配置了Hadoop,本文将测试一个Hadoop的小案例 hadoop的Wordcount程序是hadoop自带的一个小的案例,是一个简单的单词统计程序,可以在hadoop的解压包里找到,如下: ...
Spark入门（三）--Spark经典的单词统计
spark经典之单词统计准备数据既然要统计单词我们就需要一个包含一定数量的文本,我们这里选择了英文原著<GoneWithTheWind>(<飘>)的文本来做一个数据统计,看 ...
2、 Spark Streaming方式从socket中获取数据进行简单单词统计
Spark 1.5.2 Spark Streaming 学习笔记和编程练习 Overview 概述 Spark Streaming is an extension of the core Spark ...
scala基本语法和单词统计
scala 基本语法 1.声明变量 (1)val i = 1 使用val声明的变量值是不可变的,相当于java里final修饰的变量,推荐使用. (2)var i = "hello" ...
Storm基础概念与单词统计示例
Storm基本概念 Storm是一个分布式的.可靠地.容错的数据流处理系统.Storm分布式计算结构称为Topology(拓扑)结构,顾名思义,与拓扑图十分类似.该拓扑图主要由数据流Stream.数据 ...

随机推荐

ORA-01917: user or role 'PDB_DBA' does not exist
在使用seed PDB创建新的PDB的时候,报了以下错误提示: SQL> create pluggable database pdb2 admin user admin1 identified ...
使用JDBC改变Oracle的session參数 NLS_DATE_FORMAT
近期项目除了一个问题,场景大概是这种,项目在国外开发.在项目开发过程中使用了大量的Oracle函数TO_DATE,可是开发者没有写第二个參数. 所以项目在国外的server上能够正常执行.但是在国内的 ...
还没被玩坏的robobrowser(8)——robobrowser的实现原理
背景学习使用工具实际上不难,不过我们应该通过阅读工具源码来提升自己的水平. 多读代码,读好代码.很不错,robobrowser的代码简单易懂,值得学习. 预备知识源码地址一起其实是从browse ...
zTree变异篇：如何让同级树节点平铺而非垂直显示
昨天有一个zTree的使用者在实际的项目中有着这样一个特殊的需求,要求同级树节点能够水平显示,根据设定的宽度自动换行,效果图如下所示: 通过在浏览器调试模式下观察其同级节点的css为: 这个dis ...
django form 对象is_bound属性
问题: 如果判断一个form实例中有没有数据? bug方法: 通过form实例的is_valid()方法来验证 1.Form类的定义 class YourName(Form): your_name = ...
Atitit js es5 es6新特性 attilax总结
Atitit js es5 es6新特性 attilax总结 1.1. JavaScript发展时间轴:1 1.2. 以下是ES6排名前十的最佳特性列表(排名不分先后):1 1.3. Es6 支持情况 ...
[nginx]location语法
location语法 location语法格式 location [=|~|~*|^~] uri { .... } location [=|~|~*|^~] uri {....} 指令匹配标识匹配 ...
[na]完全理解icmp协议
1.ICMP出现的原因在IP通信中,经常有数据包到达不了对方的情况.原因是,在通信途中的某处的一个路由器由于不能处理所有的数据包,就将数据包一个一个丢弃了.或者,虽然到达了对方,但是由于搞错了端口号 ...
Filberder教程
http://www.cnblogs.com/TankXiao/archive/2012/02/06/2337728.html
C++哪些运算符重载能够重载？
运算符重载是C++极为重要的语言特性之中的一个.本文将用代码实例回答--C++哪些运算符能够重载?怎样重载?实现运算符重载时须要注意哪些? 哪些运算符能够重载,哪些不可重载? C++98,C++0x, ...

Hadoop运行单词统计

Hadoop运行单词统计的更多相关文章

随机推荐

热门专题