Hadoop 系列文章(二) Hadoop配置部署启动HDFS及本地模式运行MapReduce

　　接着上一篇文章，继续我们 hadoop 的入门案例.

　　1. 修改 core-site.xml 文件

[bamboo@hadoop-senior hadoop-2.5.0]$ vim etc/hadoop/core-site.xml

添加如下的配置:

<configuration>

　　<property>

　　<name>fs.defaultFS</name>

　　<value>hdfs://hadoop-senior.bamboo.com:8020</value>

</property>

## 修改默认目录

<property>

　　<name>hadoop.tmp.dir</name>

　　<value>/opt/modules/hadoop-2.5.0/data/tmp</value>

　　</property>

</configuration>

　　在 hadoop 根目录下创建 data/tmp 目录，然后指向 hadoop.tmp.dir 属性

　　>>说明

　　hadoop-senior.bamboo.com 是 hostname 的值

　　可以通过在 terminal 中输入 hostname 来查看.

　　修改的话，需要修改 /etc/sysconfig/network 文件的属性即可

　　2. 修改 hdfs-site.xml

<configuration>

　<property>

        <name>dfs.replication</name>

        <value>1</value>

    </property>

</configuration>

　　3. 启动顺序

　　namenode (主节点)　管理源数据

　　datanode (从节点) 存储数据

[bamboo@hadoop-senior hadoop-2.5.0]$ sbin/hadoop-daemon.sh start namenode

　　starting namenode, logging to /opt/modules/hadoop-2.5.0/logs/hadoop-bamboo-namenode-hadoop-senior.bamboo.com.out

[bamboo@hadoop-senior hadoop-2.5.0]$ sbin/hadoop-daemon.sh start datanode

　　starting datanode, logging to /opt/modules/hadoop-2.5.0/logs/hadoop-bamboo-datanode-hadoop-senior.bamboo.com.out

　　我在启动 datanode 的时候，jps 看了下进程信息，并没有发现 datanode 进程，所以就找错误。

　　<<jps 看到 datanode 并没有启动>>

　　[bamboo@hadoop-senior hadoop-2.5.0]$ jps

　　10408 Jps

　　10131 NameNode

　　原因:

　　datanode的clusterID 和 namenode的clusterID 不匹配。

　　出现该问题的原因：在第一次格式化dfs后，启动并使用了hadoop，后来又重新执行了格式化命令（hdfs namenode -format)，这时namenode的clusterID会重新生成，而datanode的clusterID 保持不变。

　　解决办法:

　　根据日志中的路径，cd /opt/modules/hadoop-2.5.0/data/tmp/dfs

　　能看到 data和name两个文件夹，

　　将name/current下的VERSION中的clusterID复制到data/current下的VERSION中，覆盖掉原来的clusterID

　　让两个保持一致

　　然后重启，启动后执行jps，查看进程

　　[bamboo@hadoop-senior dfs]$ jps

　　10614 Jps

　　10131 NameNode

　　10467 DataNode

　　4. hadoop 官网上的 hdfs 启动步骤如下:

　　The following instructions are to run a MapReduce job locally. If you want to execute a job on YARN, see YARN on Single Node.

　　1.Format the filesystem:

　　$ bin/hdfs namenode -format

　　2.Start NameNode daemon and DataNode daemon:

　　$ sbin/start-dfs.sh

　　The hadoop daemon log output is written to the $HADOOP_LOG_DIR directory (defaults to $HADOOP_HOME/logs).

　　3.Browse the web interface for the NameNode; by default it is available at:

NameNode - http://localhost:50070/

　　4.Make the HDFS directories required to execute MapReduce jobs:

　　create folder $ bin/hdfs dfs -mkdir -p /user/<username>

　　5.Copy the input files into the distributed filesystem:

　　$ bin/hdfs dfs -put etc/hadoop input

　　6.Run some of the examples provided:

　　$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.2.jar grep input output 'dfs[a-z.]+'

　　7.Examine the output files:

　　Copy the output files from the distributed filesystem to the local filesystem and examine them:

　　$ bin/hdfs dfs -get output output $ cat output/*

　　View the output files on the distributed filesystem:

　　$ bin/hdfs dfs -cat output/*

　　8.When you're done, stop the daemons with:

　　$ sbin/stop-dfs.sh

　　5. hdfs 的命令使用

　　5.1 查看文件列表

[bamboo@hadoop-senior hadoop-2.5.0]$ bin/hdfs dfs -ls -R /

17/12/31 18:34:29 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

drwxr-xr-x - bamboo supergroup 0 2017-12-31 05:08 /user

drwxr-xr-x - bamboo supergroup 0 2017-12-31 05:09 /user/bamboo

drwxr-xr-x - bamboo supergroup 0 2017-12-31 05:09 /user/bamboo/input

　　5.2 上传文件并查看

1)、创建上传目录

[bamboo@hadoop-senior hadoop-2.5.0]$ bin/hdfs dfs -mkdir -p /user/bamboo/mapreduce/wordcount/input/

17/12/31 18:38:51 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

2)、上传文件

[bamboo@hadoop-senior hadoop-2.5.0]$ bin/hdfs dfs -put wcinput/wc.txt /user/bamboo/mapreduce/wordcount/input

17/12/31 18:40:47 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

3)、查看文件

[bamboo@hadoop-senior hadoop-2.5.0]$ bin/hdfs dfs -ls /user/bamboo/mapreduce/wordcount/input

17/12/31 18:41:01 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

Found 1 items

-rw-r--r-- 1 bamboo supergroup 81 2017-12-31 18:40 /user/bamboo/mapreduce/wordcount/input/wc.txt

4)、查看文件内容

[bamboo@hadoop-senior hadoop-2.5.0]$ bin/hdfs dfs -cat /user/bamboo/mapreduce/wordcount/input/wc.txt

17/12/31 18:43:43 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

hadoop yarn

hadoop mapreduce

hadoop hdfs

yarn nodemanager

hadoop resourcemanager

6. 用 hdfs 运行任务并存储到 hdfs

[bamboo@hadoop-senior hadoop-2.5.0]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/bamboo/mapreduce/wordcount/input /user/bamboo/mapreduce/wordcount/output

查看运行结果:

[bamboo@hadoop-senior hadoop-2.5.0]$ bin/hdfs dfs -cat /user/bamboo/mapreduce/wordcount/output/*

17/12/31 18:50:28 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

hadoop 4

hdfs 1

mapreduce 1

nodemanager 1

resourcemanager 1

yarn 2

OK, hdfs 大概就到这里了，下一个章节来继续 yarn 方式来启动。

Hadoop 系列文章(二) Hadoop配置部署启动HDFS及本地模式运行MapReduce的更多相关文章

Hadoop 系列文章(一) Hadoop 的安装,以及 Standalone Operation 的启动模式测试
以前都是玩 java,没搞过 hadoop,所以以此系列文章来记录下学习过程安装的文件版本.操作系统说明 centos-6.5-x86_64 [bamboo@hadoop-senior opt]$ ...
Kettle系列文章二(安装配置Kettle+SqlServer+简单的输入输出作业)
一.下载 Kettle下载地址:https://community.hitachivantara.com/docs/DOC-1009855 下拉到DownLoad,点击红框中的链接进行下载.. 二.解 ...
Hadoop 系列（二）安装配置
Hadoop 系列(二)安装配置 Hadoop 官网:http://hadoop.apache.or 一.Hadoop 安装 1.1 Hadoop 依赖的组件 JDK :从 Oracle 官网下载,设 ...
3-3 Hadoop集群完全分布式配置部署
Hadoop集群完全分布式配置部署下面的部署步骤,除非说明是在哪个服务器上操作,否则默认为在所有服务器上都要操作.为了方便,使用root用户. 1.准备工作 1.1 centOS6服务器3台手动指 ...
HBase 系列（二）安装部署
HBase 系列(二)安装部署本节以 Hadoop-2.7.6,HBase-1.4.5 为例安装 HBase 环境.HBase 也有三种模式:本地模式.伪分布模式.分布模式. 一.环境准备 (1) ...
Greeplum 系列（二）安装部署
Greeplum 系列(二) 安装部署本章将介绍如何快速安装部署 Greenplum,以及 Greenplum 的一些常用命令及工具.本章不会涉及硬件选型.操作系统参数讲解.机器性能测试等高级内容, ...
yum 系列（二）离线部署
yum 系列(二) 离线部署一.下载 rpm 依赖包 (1) yum 下载 rpm 包准备一台全新的 CentOS7 mini 虚拟机 ,联网下载所有所需的 rpm 包和其依赖, yum ins ...
Mybatis系列（二）配置
Mybatis系列(二)配置 <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE configu ...
啃掉Hadoop系列笔记(03)-Hadoop运行模式之本地模式
Hadoop的本地模式为Hadoop的默认模式,不需要启用单独进程,直接可以运行,测试和开发时使用. 在<啃掉Hadoop系列笔记(02)-Hadoop运行环境搭建>中若环境搭建成功,则直 ...

随机推荐

【.NET架构】BIM软件架构01：Revit插件产品架构梳理
一.前言 BIM:Building Information Modeling 建筑信息模型,就是将建筑的相关信息附着于模型中,以管理该建筑在设计.算量.施工.运维全生命周期的情况.创建模 ...
Java序列化机制原理
Java序列化就是将一个对象转化为一个二进制表示的字节数组,通过保存或则转移这些二进制数组达到持久化的目的.要实现序列化,需要实现java.io.Serializable接口.反序列化是和序列化相 ...
Optional 的基本用法
参考: https://www.cnblogs.com/xingzc/p/5778090.html http://www.runoob.com/java/java8-optional-class.ht ...
10. 批量插入List<String>
List<String> iscBusOrgIdList = getIscOrgIdList();List<Map<String, Object>> iscBusO ...
oracle数据库名称已被一现有约束条件占用
使用oracle数据库出现名称已被一现有约束条件占用的错误,我的原因是在同一个库中有一个表使用了外键FK_SNO,自己新建的一个表中也使用了外键FK_SNO,导致出现了错误. 这时改变一下外键FK_S ...
阿里巴巴Java开发手册与自己开发对照笔记
一编程规约 (一)命名风格某些时候在命名常量的时候,会觉得太长而减少长度导致命名不清. 抽象类及测试类写得比较少. 这一点值得注意,在开发中,布尔变量我都是使用is开始. 关于包名和类名的单数和复数 ...
spark streaming之三 rdd,job的动态生成以及动态调度
前面一篇讲到了,DAG静态模板的生成.那么spark streaming会在每一个batch时间一到,就会根据DAG所形成的逻辑以及物理依赖链(dependencies)动态生成RDD以及由这些RDD ...
Pandas合并数据集之concat、combine_first方法
轴向连接(concat) Numpy import numpy as np import pandas as pd from pandas import Series arr = np.arange( ...
Linux 子网掩码计算, 二进制十进制互相转换
看下边例子 192.168.0.1/24 192.168.0.1/32 192.168.0.1/28 上边24,32,28对应的掩码都是什么,怎么计算的 24,32,28,对应的就是多少个二进制的1 ...
JDK、JRE、JVM的区别
JDK: JDK(Java Development Kit)顾名思义它是给开发者提供的开发工具箱,是给程序开发者用的.它除了包括完整的JRE(Java Runtime Environment),Jav ...

Hadoop 系列文章(二) Hadoop配置部署启动HDFS及本地模式运行MapReduce

Hadoop 系列文章(二) Hadoop配置部署启动HDFS及本地模式运行MapReduce的更多相关文章

随机推荐

热门专题