hadoop学习笔记：运行wordcount对文件字符串进行统计案例

文/朱季谦

我最近使用四台Centos虚拟机搭建了一套分布式hadoop环境，简单模拟了线上上的hadoop真实分布式集群，主要用于业余学习大数据相关体系。

其中，一台服务器作为NameNode，一台作为Secondary NameNode，剩下两台当做DataNodes节点服务器，类似下面这样一个架构——

	NameNode	Secondary NameNode	DataNodes
master1(192.168.200.111)	√
master2(192.168.200.112)		√
slave1(192.168.200.117)			√
slave2(192.168.200.115)			√

接下来,就是开始通过hadoop自带的wordcount来统计一下文件当中的字符数量。

启动hadoop集群后，在集群可用情况下，按照以下步骤：

一、进入到hadoop安装目录，创建一个测试文件example.txt

我的安装目录是：/opt/hadoop/app/hadoop/hadoop-2.7.5

[root@192 hadoop-2.7.5]# pwd

/opt/hadoop/app/hadoop/hadoop-2.7.5

新建一个example.txt，并随机写入一些字符：

aaa

bbb

cccc

dedef

dedf

dedf

ytrytrgtrcdscdscdsc

dedaxa

cdsvfbgf

uyiuyi

ss

xaxaxaxa

接着，在hdfs文件系统上新建一个input文件夹，用来存放example.txt文件——

[root@192 hadoop-2.7.5]# hdfs dfs -mkdir /input

然后，将example.txt复制到hdfs系统上的input目录下——

[root@192 hadoop-2.7.5]# hdfs dfs -put example.txt /input

检查一下，可以看到，example.txt文件已经在input目录底下了——

[root@192 hadoop-2.7.5]# hdfs dfs -ls /input

Found 1 items

-rw-r--r--   3 root supergroup         84 2021-10-20 12:43 /input/example.txt

这些准备工作做好后，就可以开始使用hadoop自带的jar包来统计文件example.txt当中各字符的数量了。

二、运行wordcount对文件字符进行统计

直接在NameNode节点对应的服务器上执行——

[root@192 hadoop-2.7.5]# hadoop jar /opt/hadoop/app/hadoop/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar  wordcount /input /output

这行指令的大概意思是，分布式计算统计input目录底下的文件中的字符数量，将统计结果reduce到output当中，故而，最后若执行没问题，可以在output目录下获取到统计结果记录。

我第一次执行时，发生了一个异常，即执行完后，日志运行到INFO mapreduce.Job: Running job: job_1631618032849_0002这一行时，就直接卡在了这里，没有任何动静了——

[hadoop@192 bin]$ hadoop jar /opt/hadoop/app/hadoop/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar wordcount /input /output

21/10/20 10:43:29 INFO client.RMProxy: Connecting to ResourceManager at master1/192.168.200.111:8032

21/10/20 10:43:30 INFO input.FileInputFormat: Total input paths to process : 1

21/10/20 10:43:30 INFO mapreduce.JobSubmitter: number of splits:1

21/10/20 10:43:31 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1631618032849_0002

21/10/20 10:43:31 INFO impl.YarnClientImpl: Submitted application application_1631618032849_0002

21/10/20 10:43:31 INFO mapreduce.Job: The url to track the job: http://master1:8088/proxy/application_1631618032849_0002/

21/10/20 10:43:31 INFO mapreduce.Job: Running job: job_1631618032849_0002

百度了一番后，根据一些思路，最后将mapred-site.xml最开始的配置由

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

    <property>

       <name>mapreduce.framework.name</name>

       <value>yarn</value>

    </property>

</configuration>

改成这里——

<configuration>

    <property>

       <name>mapreduce.job.tracker</name>

       <value>hdfs://master1:8001</value>

       <final>true</final>

    </property>

</configuration>

接着，重启了hadoop集群，就正常了，日志信息就没有卡顿，而是一步执行完成，打印以下的日志记录——

过程如果没有出现问题，就可以到最后一步，查看统计完的结果。

三、获取统计结果

以上步骤执行完后，直接输入指令查看output目录下的信息，可以看到，里面生成了两个文件——

[root@192 hadoop-2.7.5]# hdfs dfs -ls /output

Found 2 items

-rw-r--r--   3 root supergroup          0 2021-10-20 12:47 /output/_SUCCESS

-rw-r--r--   3 root supergroup        101 2021-10-20 12:47 /output/part-r-00000

part-r-00000文件是存放统计结果的，我们查看一下——

[root@192 hadoop-2.7.5]# hdfs dfs -cat /output/part-r-00000

aaa	1

bbb	1

cccc	1

cdsvfbgf	1

dedaxa	1

dedef	1

dedf	2

ss	1

uyiuyi	1

xaxaxaxa	1

ytrytrgtrcdscdscdsc	1

对比前面的example.txt文件，可以看到，当中dedf字符串是有两个，其他都是1个，hadoop统计结果也确实如此。

以上，便是初步认识hadoop的一个小案例，接下来，我会在学习过程当中把值得分享的经验都总结下来。

hadoop学习笔记：运行wordcount对文件字符串进行统计案例的更多相关文章

hadoop学习笔记（四）：HDFS文件权限，安全模式，以及整体注意点总结
本文原创,转载注明作者和原文链接! 一:总结注意点: 到现在为止学习到的角色:三个NameNode.SecondaryNameNode.DataNode 1.存储的是每一个文件分割存储之后的元数据信息 ...
Hadoop学习笔记(7) ——高级编程
Hadoop学习笔记(7) ——高级编程从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成 ...
Hadoop学习笔记(6) ——重新认识Hadoop
Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功 ...
Hadoop学习笔记(2)
Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello ...
Hadoop学习笔记(5) ——编写HelloWorld(2)
Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了.但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce.没错,上一节我 ...
Hadoop学习笔记(2) ——解读Hello World
Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello ...
Hadoop学习笔记(1) ——菜鸟入门
Hadoop学习笔记(1) ——菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分布式系统基础架构,由Apache基金会所开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序. ...
Hadoop学习笔记(1)（转）
Hadoop学习笔记(1) ——菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分布式系统基础架构,由Apache基金会所开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序. ...
Hadoop学习笔记(4) ——搭建开发环境及编写Hello World
Hadoop学习笔记(4) ——搭建开发环境及编写Hello World 整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用JAVA.在linux下开发JAVA还数eclip ...

随机推荐

Kubernetes-kubectl介绍
前言本篇是Kubernetes第三篇,大家一定要把环境搭建起来,看是解决不了问题的,必须实战.本篇重要介绍kubectl的使用. Kubernetes系列文章: Kubernetes介绍 Kuber ...
IO和零拷贝
I/O介绍 I/O主要为:网络IO(本质是socket文件读取).磁盘IO 每次IO,都要经由两个阶段: 第一步:将数据从文件先加载至内核内存空间(缓冲区),等待数据准备完成,时间较长第二步:将数据 ...
C语言实现任务调度与定时器
代码实现是在xl2tpd的源码中get到的,感觉很有意思的一段代码.基本功能就是实现定时器,时间到后从定时队列中取出,然后完成指定的任务. 1. schedule.c代码(自己添加了main函数,用来 ...
数据导出生成Excel附件使用POI的HSSFWorkbook对象
比较常用的实现Java导入.导出Excel的技术有两种Jakarta POI和Java Excel.Jakarta POI 是一套用于访问微软格式文档的Java API.Jakarta POI有很多组 ...
Redis核心原理与实践--列表实现原理之ziplist
列表类型可以存储一组按插入顺序排序的字符串,它非常灵活,支持在两端插入.弹出数据,可以充当栈和队列的角色. > LPUSH fruit apple (integer) 1 > RPUSH ...
C# 获取应用程序内存
double usedMemory = 0; Process p = Process.GetProcesses().Where(x => x.ProcessName.Co ...
Python程序调用摄像头实现人脸识别
使用简单代码实现摄像头进行在线人脸识别 import cv2 import sys import logging as log import datetime as dt from time impo ...
ESP8266- AP模式的使用
打算通过该模式,利用手机APP完成配网 • AP,也就是无线接入点,是一个无线网络的创建者,是网络的中心节点.一般家庭或办公室使用的无线路由器就是一个AP. • STA站点,每一个连接到无线网络中的终 ...
Shell系列（1）- Shell概述
Shell是什么 Shell是一个命令行解释器,它为用户提供了一个向Linux内核发送请求以便运行程序的界面系统级程序,用户可以用Shell来启动.挂起.停止甚至时编写一些程序 Shell还是一个功能 ...
华为云计算IE面试笔记-FusionCompute虚拟机热迁移定义，应用场景，迁移要求，迁移过程
*热迁移传送了什么数据?保存在哪? 虚拟机的内存.虚拟机描述信息(配置和设备信息).虚拟机的状态虚拟机的配置和设备信息:操作系统(类别.版本号).引导方式(VM通过硬盘.光盘.U盘.网络启动)和引导 ...

hadoop学习笔记：运行wordcount对文件字符串进行统计案例

hadoop学习笔记：运行wordcount对文件字符串进行统计案例的更多相关文章

随机推荐

热门专题