Hadoop自学系列集(四) ---- Hadoop集群

　　久等了，近期公司比较忙，学习的时间都没有啊，到今日才有时间呢！！！好了，下面就跟着笔者开始配置Hadoop集群吧。

　　hosts文件和SSH免密码登录配置好了之后，现在进入Hadoop安装目录，修改一些配置文件，修改配置还是相对简单的，一下是需要修改的文件内容(当然这里只是学习时的配置，更加深入的配置笔者也不会了，嘿嘿嘿)，四台机相同配置，以下是一些修改的文件(红色为修改部分)：

　　conf/hadoop-env.sh:

　　export JAVA_HOME=/usr/local/java/jdk1.6.0_45 ##原本是注释的，解开注释，修改一下路径即可

　　conf/core-site.xml:

　　　<?xml version="1.0"?>

　　<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>fs.default.name</name>
　　　　　　<value>hdfs://hadoop.master:9000</value>
　　　　</property>
　　　　<property>
　　　　　　<name>hadoop.tmp.dir</name>
　　　　　　<value>/usr/local/temp</value>
　　　　</property>
　　</configuration>

　　conf/hdfs-site.xml：

　　<?xml version="1.0"?>

　　<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
　　　　<property>
　　　　　　
　　　　　　<name>dfs.replication</name>
　　　　　　<value>3</value>
　　　　</property>
　　</configuration>

　　conf/mapred-site.xml(配置JobTracker):

　　<?xml version="1.0"?>

　　<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

　　<configuration>
　　　　<property>
　　　　　　<name>mapred.job.tracker</name>
　　　　　　<value>hadoop.master:9001</value>
　　　　</property>
　　</configuration>

　　conf/masters(填写主节点主机名即可):

　　hadoop.master

　　conf/slaves(填写从节点主机名，一行一个):

　　hadoop.slave1

　　hadoop.slave2

　　hadoop.slave3

　　至此，配置已经修改完了，接下来是启动。在首次启动之前，先格式化NameNode，之后启动就不需要格式化了，命令如下：

　　hadoop namenode -format

　　接下来，启动Hadoop集群：

　　start-all.sh

　　启动后截图如下：

　　在启动过程中由于配置了SSH免密码登录，是不会询问slaves机器上的密码的。

　　集群测试：

　　接下来我们运行一下hadoop-example.jar中自带的wordCount程序，用户统计单词出现次数，步骤如下：

　　1.新建一个test.txt,内容可自行填写:

　　2.在HDFS系统中创建一个文件夹input，命令如下：

　　　　hadoop fs -mkdir /user/hadoop/input1

　　3.上传刚刚创建的test.txt至HDFS系统中的input文件夹，命令如下：
　　　　hadoop fs -put /usr/local/hadoop/test.txt /user/hadoop/input1/

　　4.查看文件是否已经上传至HDFS中，命令如下:

　　　　hadoop fs -ls /user/hadoop/input1/

　　5.运行hadoop-example.jar，命令如下：

　　　　cd /usr/local/hadoop

　　　　hadoop -jar hadoop-example-1.2.1.jar wordcount /user/hadoop/input1/test.txt /user/hadoop/output1

　　6.过程截图：

　　　7.运行完毕后，可以查看结果了，键入以下命令，结果截图也在下面：

　　　　hadoop fs -text /user/hadoop/output1/part-r-00000

　　　　OK！至此Hadoop集群就安装结束了，而且也测试过了，就先写到这里了。

Hadoop自学系列集(四) ---- Hadoop集群的更多相关文章

golang 自学系列（四）——debug for vscode
golang 自学系列(四)--(调试)VSCode For Debug 这里如何装 vscode 我就不说了这里如何在 vscode 正常写代码我也不说了在能正常用 vscode 写 go 语言 ...
Hadoop自学系列集(三) ---- Hadoop安装
这节就开始讲述Hadoop的安装吧.在这之前先配置下SSH免密码登录,为什么需要配置这个呢?大家都知道Hadoop集群中可能有几十台机器甚至是上千台机器,而每次启动Hadoop都需要输入密码才能够登录 ...
Hadoop概念学习系列之谈hadoop/spark里为什么都有，YARN呢？（四十一）
在Hadoop集群里,有三种模式: 1.本地模式 2.伪分布模式 3.全分布模式在Spark集群里,有四种模式: 1.local单机模式结果xshell可见: ./bin/spark-submit ...
Hadoop自学系列集(二) ---- CentOS下安装JDK
上篇我们讲述了如何使用VMware安装CentOS系统,接下来就看如何安装我们最为熟悉的jdk吧!安装前先看看系统上有没有安装过jdk,输入java -version,如果查询出了其他版本的jdk版本 ...
Hadoop自学系列集(一) ---- 使用VMware安装CentOS
1.概述笔者的学习环境--在VMware虚拟机下安装四个CentOS系统(搭建Hadoop集群用),其中一个为Master,三个为Slave,Master作为Hadoop集群中的NameNode, ...
Hadoop概念学习系列之谈hadoop/spark里分别是如何实现容错性？（四十二）
Hadoop使用数据复制来实现容错性(I/O高) Spark使用RDD数据存储模型来实现容错性. RDD是只读的.分区记录的集合.如果一个RDD的一个分区丢失,RDD含有如何重建这个分区的相关信息. ...
Hadoop概念学习系列之谈hadoop/spark里为什么都有，键值对呢？（四十）
很少有人会这样来自问自己?只知道,以键值对的形式处理数据并输出结果,而没有解释为什么要以键值对的形式进行. 包括hadoop的mapreduce里的键值对,spark里的rdd里的map等. 这是为什 ...
Hadoop笔记系列一用Hadoop进行分布式数据处理(1)
学习资料参考地址: 1.http://blog.csdn.net/zhoudaxia/article/details/8801769 1.先说说什么是Hadoop? 个人理解:一个分布式文件存储系统+ ...
Hadoop概念学习系列之为什么hadoop/spark执行作业时，输出路径必须要不存在？（三十九）
很多人只会,但没深入体会和想为什么要这样? 拿Hadoop来说,当然,spark也一样的道理. 输出路径由Hadoop自己创建,实际的结果文件遵守part-nnnn的约定. 如何指定一个已有目录作为H ...

随机推荐

SpringBoot从入门到精通十一(SpringBoot文件上传的两种方法)
前言在企业级项目开发过程中,上传文件是最常用到的功能.SpringBoot集成了SpringMVC,当然上传文件的方式跟SpringMVC没有什么出入. 本章目标使用SpringBoot项目完成单 ...
Spring源码阅读-IoC容器解析
目录 Spring IoC容器 ApplicationContext设计解析 BeanFactory ListableBeanFactory HierarchicalBeanFactory Messa ...
移动IM开发指南3：如何优化登录模块
<移动IM开发指南>系列文章将会介绍一个IM APP的方方面面,包括技术选型.登陆优化等.此外,本文作者会结合他在网易云信多年iOS IM SDK开发的经验,深度分析实际开发中的各种常见问 ...
纯异步nodejs文件夹(目录)复制
思路: 1.callback 驱动 2.递归所有需要复制文件 3.在一定阀值下并发复制文件 4.运行需要安装 async.js npm install async 代码如下: var asyn ...
Mac sublime text3 安装插件
一.下载Mac版sublime text3 下载地址:http://www.pc6.com/mac/120663.html(参考) 2.安装后打开 1.在界面的最上端找到tools(英文版),选择第一 ...
Rxjs中Notification 介绍
timer(0, 1000) // 计时器,每1000ms发射一个值,初始发射值延迟时间为0s: .pipe( take(5), // 取前5个值 takeWhile(value => valu ...
Linux下无法执行tree命令问题
Linux下不能使用tree命令,是因为没有安装命令, 执行下面代码就行了 yum install tree -y
设计模式-访问者模式（Visitor）
访问者模式是行为模式的一种.访问者模式的基本想法是,软件系统中拥有一个由许多对象构成的.比较稳定的对象结构,这些对象的类都拥有一个accept方法用来接受访问者的访问.访问者是一个接口,它拥有一个vi ...
个人博客小案例（纯Django搭建）
在看这篇文章的时候,必须有django基础,如果没有点击访问一.环境配置新建项目并做配置项目创建,创建APP并注册创建模板并配置相应的路径,点击下载模板,配置方法点击访问创建静态文件并配置,点 ...
100天搞定机器学习|Day11 实现KNN
机器学习100天|Day1数据预处理 100天搞定机器学习|Day2简单线性回归分析 100天搞定机器学习|Day3多元线性回归 100天搞定机器学习|Day4-6 逻辑回归 100天搞定机器学习|D ...

Hadoop自学系列集(四) ---- Hadoop集群

Hadoop自学系列集(四) ---- Hadoop集群的更多相关文章

随机推荐

热门专题