安装hadoop1.2.1(参考hadoop实战第二版)

准备：

　　安装jdk和ssh。

1. 官网下载hadoop1.2.1

　　hadoop-1.2.1.tar.gz

　　http://hadoop.apache.org/releases.html

2. 解压到/home/hadoop/目录下

3. 伪分布式hadoop配置

　　可以把伪分布式的hadoop看做只有一个节点的集群，在这个集群中，这个节点既是Master，也是Slave；既是NameNode，也是DataNode；既是JobTracker，也是TaskTracker。伪分布式的配置过程很简单，只需要修改几个文件。进入conf文件夹，修改配置文件。

指定JDK的安装位置：修改hadoop-env.sh如下

#添加jdk路径

export JAVA_HOME=/usr/lib/jvm7/jdk1.7.0_79

修改core-site.xml

<!-- 配置HDFS的地址及端口号-->

<configuration>

    <property>

        <name>fs.default.name</name>

        <value>hdfs://localhost:9000</value>

    </property>

</configuration>

修改hdfs-site.xml

　　该文件用来配置hdfs，配置的默认备份方式是3，单机版的hadoop中需要改为1.

<!-- 设置HDFS备份方式 -->

<configuration>

    <property>

        <name>dfs.replication</name>

        <value>1</value>

    </property>

</configuration>

修改mapred-site.xml

该文件是MapReduce的配置文件，配置JobTracker的地址和端口。

<configuration>

    <property>

        <name>mapred.job.tracker</name>

        <value>localhost:9001</value>

    </property>

</configuration>

4. 在启动hadoop之前，需要格式化hadoop的文件系统hdfs。

　　hadoop namenode -format

5. 启动所有进程

　　bin/start-all.sh

6. 打开浏览器输入网址

　　http://localhost:50030(MapReduce的web页面)

　　http://localhost:50070(HDFS的web页面)

WordCount:

1. 在file文件夹下创建两个文件

echo "hello world" > file0.txt

echo "hello hadoop" > file1.txt

2. 将新创建的两个文件上传到HDFS

hadoop dfs -put file /input

3. 编译WordCount.java

javac -classpath ~/hadoop/hadoop-1.2.1/hadoop-core-1.2.1.jar:~/hadoop/hadoop-1.2.1/lib/commons-cli-1.2.jar ~/hadoop/WordCount/WordCount.java -d ~/hadoop/WordCountJar

4. 打包class文件

jar -cvf wordcount.jar ./*.class

5. 在hadoop中运行wordcount.jar文件

hadoop jar wordcount.jar WordCount input output

6. HDFS常用命令(待编辑)

    hadoop dfs -mkdir /file              在HDFS上新建文件夹

    hadoop dfs -put input1.txt /input  把本地文件input1.txt传到HDFS的/tmp/input目录下

   hadoop dfs -get  input1.txt /tmp/input/input1.txt  把HDFS文件拉到本地

    hadoop dfs -ls /tmp/output                  列出HDFS的某目录

    hadoop dfs -cat /tmp/ouput/output1.txt  查看HDFS上的文件

    hadoop dfs -rmr /home/less/hadoop/tmp/output  删除HDFS上的目录

    hadoop dfsadmin -report 查看HDFS状态，比如有哪些datanode，每个datanode的情况

   hadoop dfsadmin -safemode leave  离开安全模式

    hadoop dfsadmin -safemode enter  进入安全模式

安装hadoop1.2.1(参考hadoop实战第二版)的更多相关文章

Docker技术入门与实战第二版-学习笔记-10-Docker Machine 项目-2-driver
1>使用的driver 1〉generic 使用带有SSH的现有VM/主机创建机器. 如果你使用的是机器不直接支持的provider,或者希望导入现有主机以允许Docker Machine进行管 ...
Docker技术入门与实战第二版-学习笔记-8-网络功能network-3-容器访问控制和自定义网桥
1)容器访问控制容器的访问控制,主要通过 Linux 上的 iptables防火墙来进行管理和实现. iptables是 Linux 上默认的防火墙软件,在大部分发行版中都自带. 容器访问外部网络 ...
centos 6.4-linux环境配置，安装hadoop-1.1.2（hadoop伪分布环境配置）
1 Hadoop环境搭建 hadoop 的6个核心配置文件的作用: core-site.xml:核心配置文件,主要定义了我们文件访问的格式hdfs://. hadoop-env.sh:主要配置我们的j ...
Docker技术入门与实战第二版-学习笔记-10-Docker Machine 项目-1-cli
Docker Machine 是 Docker 官方编排(Orchestration)项目之一,负责在多种平台上快速安装 Docker 环境 Docker Machine是一种工具,它允许你在虚拟主机 ...
Docker技术入门与实战第二版-学习笔记-8-网络功能network-1-单个host上的容器网络
Docker 中的网络功能介绍 Docker 允许通过外部访问容器或容器互联的方式来提供网络服务 1) 外部访问容器容器中可以运行一些网络应用,要让外部也可以访问这些应用,可以通过 -p或 -P参数 ...
Docker技术入门与实战第二版-学习笔记-5-容器-命令及限制内存与cpu资源
1.启动容器启动容器有两种方式: 基于镜像新建一个容器并启动将在终止状态(stopped)的容器重新启动 1)新建并启动——docker run 比如在启动ubuntu:14.04容器,并输出“H ...
python数据分析与挖掘实战第二版pdf-------详细代码与实现
[书名]:PYTHON数据分析与挖掘实战第2版[作者]:张良均,谭立云,刘名军,江建明著[出版社]:北京:机械工业出版社[时间]:2020[页数]:340[isbn]:9787111640028 学 ...
Docker技术入门与实战第二版-学习笔记-10-Docker Machine 项目-3-Command-line completion命令补全
Command-line completion https://docs.docker.com/machine/completion/ Installing Command Completion——实 ...
Docker技术入门与实战第二版-学习笔记-9-Docker Compose 项目-3-Django项目实例
使用 Django 我们现在将使用 Compose 配置并运行一个 Django/PostgreSQL 应用.在此之前,先确保 Compose 已经安装. 1.通过编辑 Dockerfile文件来指定 ...

随机推荐

mfc 类模板
类模板创建类模板添加成员变量添加成员函数定义类模板对象一.创建类模板 template <class T,class T2> template <class T> 二 ...
linux 升级 5.0.2内核
1.下载 wet https://cdn.kernel.org/pub/linux/kernel/v5.x/linux-5.0.2.tar.xz -o /usr/src/ cd /usr/src ta ...
HashMap 源码解析(一)之使用、构造以及计算容量
目录简介集合和映射 HashMap 特点使用构造相关属性构造方法 tableSizeFor 函数一般的算法(效率低, 不值得借鉴) tableSizeFor 函数算法效率比较 tabl ...
C# Language Specification 5.0 （翻译）第二章词法结构
程序 C# 程序(program)由至少一个源文件(source files)组成,其正式称谓为编译单元(compilation units)[1].每个源文件都是有序的 Unicode 字符序列.源 ...
.netCoreMVC添加数据仓储
在上一篇关于CodeFirst从零搭建ASP.NETCore2.0中搭建起了完整.netCoreMVC项目,在这一篇中将实现如何注册service服务和Repository数据仓储到web中实现数据的 ...
centos 7 git的管理和使用
一.linux 安装git (服务端) 1.首先创建用户账号 useradd zlx passwd zlx .... 2.创建目录git仓库 mkdir zlx_git.git 3.赋权限 chown ...
阿里云ESC入网和出网指的什么
什么是入网带宽和出网带宽云服务器 ECS 的入网带宽和出网带宽皆以服务器角度出发.下表给出了入网带宽和出网带宽的具体内容: 带宽类别 (Mbit/s) 描述入网带宽流入云服务器 ECS 的带宽从 ...
c++ Arx二次开发创建椭圆和样条曲线
一.本节课程 c++ Arx二次开发创建椭圆和样条曲线二.本节要讲解的知识点 1.如何应用C++ ARX二次开发创建椭圆(对AcDbEllipse类的构造函数的直接封装和根据外接矩形来创建椭圆) 2 ...
[翻译]：Artificial Intelligence for games 5.3 STATE MACHINES：状态机
目录 Chapter 5 Decision Making 5.3 STATE MACHINES:状态机 Chapter 5 Decision Making 5.3 STATE MACHINES:状态机 ...
ABP中文文档及源码说明
目录 ABP.ModuleZero(ABP自带的一套用户模块) 版本管理(Edition) 特性管理(Feature)

安装hadoop1.2.1(参考hadoop实战第二版)

安装hadoop1.2.1(参考hadoop实战第二版)的更多相关文章

随机推荐

热门专题