目录

1.了解单机模式与伪分布模式有何区别

2.安装好单机模式的Hadoop

3.修改Hadoop配置文件---五个核心配置文件

(1)hadoop-env.sh

1.到hadoop目录中

2.修改hadoop-env.sh配置文件

(2)core-site.xml

1.修改core-site.xml配置文件

(3)hdfs-site.xml

1.修改hdfs-site.xml配置文件

(4)mapred-site.xml

(5)yarn-site.xml

1.修改yarn-site.xml配置文件

4.启动与关闭分布式Hadoop

(1)格式化DFS(Distributed File System)

(2)启动DFS及Yarn

(3)关闭DFS及Yarn

5.配置SSH免密登入

(1)什么是SSH?

(2)为什么Hadoop集群需要配置SSH免密登录

(3)SSH免密登录原理

(4)配置SSH免密登录

1.建立密钥对

6.示例程序

1.在伪分布模式下使用wordcount示例程序完成单词统计

(1)准备数据

(2)运行wordcount程序完成单词统计

(3)查看结果


1.了解单机模式与伪分布模式有何区别

单机模式与伪分布模式区别
  单机模式 伪分布模式
(1)文件系统不同 直接读写本地操作系统的文件系统 读写HDFS文件系统
(2)启动进程不同 不会启动NameNode,DataNode,ResourceManager,NodeManager等守护进程,Map()和Reduce()任务作为同一个进程的不同部分来执行的 启动NameNode,DataNode,ResourceManager,NodeManager等守护进程,都在同一台机器上运行,是相互独立的java进程。
(3)安装部署不同 解压后即可使用,实际是默认最小配置,运行在本地 需要配置五个文件,使Hadoop运行在单节点集群上

2.安装好单机模式的Hadoop

安装单机模式Hadoop简单教程:搭建单机模式Hadoop环境

克隆一台安装好单机模式Hadoop的虚拟机(伪分布式模式在克隆机上完成后续的操作)

3.修改Hadoop配置文件---五个核心配置文件

五个核心配置文件
hadoop-env.sh core-site.xml
hdfs-site.xml mapred-site.xml
yarn-site.xml 位置:安装目录下的etc/hadoop下/export/server/hadoop-2.7.2/etc/hadoop

(1)hadoop-env.sh

该文件为Hadoop的运行环境配置文件,Hadoop的运行需要依赖JDK,将其中的export JAVA_HOME的值改为我们安装JDK的路径

1.到hadoop目录中

cd /export/srever //到hadoop环境安装目录中
cd hadoop-2.7.2/ //到hadoop安装目录中
cd etc/hadoop/ //到hadoop文件配置目录中

2.修改hadoop-env.sh配置文件

which java  //获取java安装路径
vi hadoop-env.sh //进入配置文件

(2)core-site.xml

该文件用于定义系统级别的参数

1.修改core-site.xml配置文件

vi core-site.xml

//不想自己写的同学可以直接复制此代码到<configuration></configuration>中,但请注意填入自己的主机名
<property>
<name>fs.defaultFS</name>
<value>hdfs://主机名:9000</value>
</property> <property>
<name>hadoop.tmp.dir</name>
<value>/export/server/hadoop-2.7.2/tmp</value>
</property>

(3)hdfs-site.xml

该文件为HDFS核心配置文件,如:文件副本的个数,块大小及是否使用强制权限等

1.修改hdfs-site.xml配置文件

vi hdfs-site.xml

//不想自己写的同学可以直接复制此代码到<configuration></configuration>中,但请注意填入自己的主机名
<property>
<name>dfs.replication</name>
<value>1</value>
</property> <property>
<name>dfs.namenode.secondary.http-address</name>
<value>主机名:50090</value>
</property>

(4)mapred-site.xml

这个文件本不存在,但有一个模板文件mapred-site.xml.template,

我们将模板文件改名为mapred-site.xml,然后进行编辑

mv mapred-site.xml.template mapred-site.xml //将mapred-site.xml.template改名为mapred-site.xml
vi mapred-site.xml

//不想自己写的同学可以直接复制此代码到<configuration></configuration>中
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

(5)yarn-site.xml

该文件为YARN框架配置文件,配置ResourceManager,nodeManager的通信端口,web监控端口等

1.修改yarn-site.xml配置文件

vi yarn-site.xml

//不想自己写的同学可以直接复制此代码到<configuration></configuration>中
<property>
<name>yarn.resourcemanager.hostname</name>
<value>ky002</value>
</property> <property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

4.启动与关闭分布式Hadoop

(1)格式化DFS(Distributed File System)

hdfs namenode -format

如果在格式化的日志中看到succefully format字样,就证明格式化成功。反之,失败。

(2)启动DFS及Yarn

start-dfs.sh
start-yarn.sh

在启动过程中,需要输入几次root账号的密码

(3)关闭DFS及Yarn

stop-dfs.sh
stop-yarn.sh

5.配置SSH免密登入

(1)什么是SSH?

SSH是Secure Shell的缩写,由IETF的网络工作小组所制定。

SSH是建立在应用层和传输基础上的安全协议,专为远程登录会话和其他网络服务提供安全的协议,即

利用SSH协议可以有效防止远程管理过程中的信息泄露问题,目前SSH较可靠。

(2)为什么Hadoop集群需要配置SSH免密登录

1.Hadoop集群之间的交互是不用密码的,如果每次通信都必须输入密码会非常麻烦。

2.Hadoop运行过程中需要管理远程Hadoop守护进程,在Hadoop启动后,

NameNode是通过SSH来无密码登录,启动和停止各个DataNode上的各个守护进程的。

同理,DataNode也能使用SSH无密码登录到NameNode。

3.SSH免密登录是让几台主机(或虚拟机)之间能够相互免密访问,虽然伪分布式模式Hadoop只安装在一台主机上,但

伪分布模拟了多个节点进程运行在这台主机上,所以进程间的访问需要配置SSH免密登录

(3)SSH免密登录原理

(4)配置SSH免密登录

1.建立密钥对

ssh-keygen -t rsa  //获取密钥对
cd /root/.ssh //进入密钥对目录
ll //浏览密钥对文件
ssh-copy-id 主机名 //将本机的公钥复制到远程机器的authorized_keys文件中
more authorized_keys //记录多台机器的公钥,让机器之间使用ssh不需要用户名和密码

6.示例程序

以上已完成Hadoop伪分布式安装部署,后面是示例程序验证是否安装成功

1.在伪分布模式下使用wordcount示例程序完成单词统计

(1)准备数据

使用hdfs shell命令将本地文件系统中的数据上传到HDFS

cd export/server/hadoop-2.7.2/wcinput  //进入存放若干单词的文本文件的目录中,此目录可以自己创建
hadoop fs -put word.txt / //将存放若干单词的文本文件上传到HDFS中
hadoop fs -ls / //查看是否上传成功
hadoop fs -cat /word.txt //查看文本内容

(2)运行wordcount程序完成单词统计

使用hadoop jar 命令运行自带示例程序完成单词统计

cd ../share/hadoop/mapreduce/
hadoop jar hadoop-mapreduce-examples-2.7.2.jar wordcount /word.txt /out

(3)查看结果

1.在命令行

hadoop fs -ls /out
hadoop fs -cat /out/part-r-00000

2.在web界面

在浏览器中输入虚拟机ip地址:50070或主机名:50070(需要到windows中映射主机名与IP地址文件位置:C:Windows\System32\drivers\etc\hosts)

初学者值得拥有【Hadoop伪分布式模式安装部署】的更多相关文章

  1. Hadoop完全分布式模式安装部署

    在Linux上搭建Hadoop系列:1.Hadoop环境搭建流程图2.搭建Hadoop单机模式3.搭建Hadoop伪分布式模式4.搭建Hadoop完全分布式模式 注:此教程皆是以范例讲述的,当然你可以 ...

  2. Hadoop伪分布式模式安装

    一.Hadoop介绍 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上:而且 ...

  3. VMware workstation 下Hadoop伪分布式模式安装

    详细过程: 1.VMware安装: 2.centos 6 安装 3.jdk下载安装配置 4.Hadoop 安装配置 1.VMware Workstation 安装: https://www.vmwar ...

  4. Hadoop伪分布式模式部署

    Hadoop的安装有三种执行模式: 单机模式(Local (Standalone) Mode):Hadoop的默认模式,0配置.Hadoop执行在一个Java进程中.使用本地文件系统.不使用HDFS, ...

  5. HBase入门基础教程之单机模式与伪分布式模式安装(转)

    原文链接:HBase入门基础教程 在本篇文章中,我们将介绍Hbase的单机模式安装与伪分布式的安装方式,以及通过浏览器查看Hbase的用户界面.搭建HBase伪分布式环境的前提是我们已经搭建好了Had ...

  6. Hadoop伪分布式模式搭建

    title: Hadoop伪分布式模式搭建 Quitters never win and winners never quit. 运行环境: Ubuntu18.10-server版镜像:ubuntu- ...

  7. Hadoop Single Node Setup(hadoop本地模式和伪分布式模式安装-官方文档翻译 2.7.3)

    Purpose(目标) This document describes how to set up and configure a single-node Hadoop installation so ...

  8. HBase入门基础教程 HBase之单机模式与伪分布式模式安装

    在本篇文章中,我们将介绍Hbase的单机模式安装与伪分布式的安装方式,以及通过浏览器查看Hbase的用户界面.搭建HBase伪分布式环境的前提是我们已经搭建好了Hadoop完全分布式环境,搭建Hado ...

  9. 【HBase基础教程】1、HBase之单机模式与伪分布式模式安装(转)

    在这篇blog中,我们将介绍Hbase的单机模式安装与伪分布式的安装方式,以及通过浏览器查看Hbase的用户界面.搭建hbase伪分布式环境的前提是我们已经搭建好了hadoop完全分布式环境,搭建ha ...

随机推荐

  1. Java反射复习笔记

    目录 反射 获取反射的三种方式: Class对象的功能 获取 成员变量/成员变量们 获取 成员方法/成员方法们 获取构造方法们 获取全类名 Field:成员变量 Method:成员方法 Constru ...

  2. leetcode146 longest-substring-without-repeating-character

    题目描述 给定一个字符串,找出最长的不具有重复字符的子串的长度.例如,"abcabcbb"不具有重复字符的最长子串是"abc",长度为3.对于"bbb ...

  3. ERP中HR模块的操作与设计--开源软件诞生26

    赤龙ERP的EHR功能讲解--第26篇 用日志记录"开源软件"的诞生 [进入地址 点亮星星]----祈盼着一个鼓励 博主开源地址: 码云:https://gitee.com/red ...

  4. 阅源-jdk8-FunctionalInterface注解

    package java.lang; import java.lang.annotation.*; /** * An informative annotation type used to indic ...

  5. Javascript全世界最短的IE判定

    以前最短的IE判定借助于IE不支持垂直制表符的特性搞出来的. var ie=!+'\v'   但这纪录今年1月8日被一个俄国人打破了,现在只要6 bytes!它利用了IE与标准浏览器在处理数组的toS ...

  6. Effective Modern C++ ——条款5 优先选择auto,而非显式型别声明

    条款5 对于auto ,他的好处不仅仅是少打一些字这么简单. 首先在声明的时候, 使用auto会让我们养成初始化的习惯: auto x;//编译不通过必须初始化. 再次对于auto而言,它可以让我们定 ...

  7. 实现一个简易vue

    vue主要的功能实现主要分为3部分: 数据劫持/数据代理:数据改变时通知相关函数进行更新操作 数据依赖收集:建立保存dom节点与数据的关联关系 模板与数据之间的绑定:接受到新数据时对dom节点进行更新 ...

  8. 关于mybatisPlus一些坑,当条件为null时

    1.TStaffDepart 属性有值是才匹配条件,会报错,相当于mybatis if 判断 eg:TStaffDepart staffDepart = new TStaffDepart();staf ...

  9. [原题复现+审计][0CTF 2016] WEB piapiapia(反序列化、数组绕过)[改变序列化长度,导致反序列化漏洞]

    简介  原题复现:  考察知识点:反序列化.数组绕过  线上平台:https://buuoj.cn(北京联合大学公开的CTF平台) 榆林学院内可使用信安协会内部的CTF训练平台找到此题 漏洞学习 数组 ...

  10. BT下载器Folx标签功能怎么实现自动的资源分类

    很多经典的电影作品,比如魔戒三部曲.蜘蛛侠系列.漫威动画系列等,在一个系列中都会包含多个作品.如果使用Folx bt种子下载器自带的电影标签的话,会将这些系列电影都归为"电影"标签 ...