1.安装Hadoop
单机模式安装Hadoop
安装JAVA环境
设置环境变量,启动运行
 
1.1 环境准备
 
1)配置主机名为nn01,ip为192.168.1.21,配置yum源(系统源)
备注:由于在之前的案例中这些都已经做过,这里不再重复.
 
2)安装java环境
nn01 ~]# yum -y install java-1.8.0-openjdk-devel
nn01 ~]# java -version
openjdk version "1.8.0_131"
OpenJDK Runtime Environment (build 1.8.0_131-b12)
OpenJDK 64-Bit Server VM (build 25.131-b12, mixed mode)
[root@nn01 ~]# jps
1322 Jps
 
3)安装hadoop
nn01 ~]# tar -xf hadoop-2.7.6.tar.gz
nn01 ~]# mv hadoop-2.7.6 /usr/local/hadoop
nn01 ~]# cd /usr/local/hadoop/
hadoop]# ls
bin  include  libexec       NOTICE.txt  sbin
etc  lib      LICENSE.txt  README.txt  share
 
hadoop]# ./bin/hadoop   //报错,JAVA_HOME没有找到
 
4)解决报错问题
hadoop]# rpm -ql java-1.8.0-openjdk
hadoop]# cd ./etc/hadoop/
hadoop]# vim hadoop-env.sh
25 export \ 
JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.131-11.b12.el7.x86_64/jre"
33 export HADOOP_CONF_DIR="/usr/local/hadoop/etc/hadoop"
 
nn01 ~]# cd /usr/local/hadoop/
hadoop]# ./bin/hadoop
Usage:...
hadoop]# mkdir /usr/local/hadoop/aa
hadoop]# cp *.txt /usr/local/hadoop/aa
hadoop]# ./bin/hadoop jar  \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount aa bb
//wordcount为参数 统计aa这个文件夹,存到bb这个文件里面(这个文件不能存在,要是存在会报错,是为了防止数据覆盖)
hadoop]# cat bb/part-r-00000   //查看
 
2. 安装配置Hadoop
 
另备三台虚拟机,安装Hadoop
使所有节点能够ping通,配置SSH信任关系
节点验证
node1 192.168.1.22
node2 192.168.1.23
node3 192.168.1.24
 
2.1 环境准备
 
1)三台机器配置主机名为node1、node2、node3,配置ip地址
2)编辑/etc/hosts(四台主机同样操作,以nn01为例)
[root@nn01 ~]# vim /etc/hosts
192.168.1.21  nn01
192.168.1.22  node1
192.168.1.23  node2
192.168.1.24  node3
 
3)安装java环境,在node1,node2,node3上面操作(以node1为例)
node1 ~]# yum -y install java-1.8.0-openjdk-devel
 
4)布置SSH信任关系
//第一次登陆不需要输入yes
nn01 ~]# vim /etc/ssh/ssh_config
Host *
        GSSAPIAuthentication yes
        StrictHostKeyChecking no
nn01 ~]# ssh-keygen(一路回车)
nn01 ~]# for i in 21 22 23 24 ; do ssh-copy-id 192.168.1.$i; done 
//部署公钥给nn01,node1,node2,node3
 
5)测试信任关系
nn01 ~]# ssh node1
node1 ~]# exit
 
2.2 配置hadoop
 
1)修改slaves文件
[root@nn01 ~]# cd /usr/local/hadoop/etc/hadoop
hadoop]# vim slaves
node1
node2
node3
 
2)hadoop的核心配置文件core-site
hadoop]# vim core-site.xml
<configuration>
<property>
        <name>fs.defaultFS</name>
        <value>hdfs://nn01:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/var/hadoop</value>
    </property>
</configuration>
 
hadoop]# mkdir /var/hadoop        //hadoop的数据根目录
hadoop]# ssh node1 mkdir /var/hadoop
hadoop]# ssh node2 mkdir /var/hadoop
hadoop]# ssh node3 mkdir /var/hadoop
 
3)配置hdfs-site文件
hadoop]# vim hdfs-site.xml
<configuration>
 <property>
        <name>dfs.namenode.http-address</name>
        <value>nn01:50070</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>nn01:50090</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value> //存两份,总数
    </property>
</configuration>
 
4)同步配置到node1,node2,node3
//同步的主机都要安装rsync
hadoop]# ssh node1 yum –y install rsync 
hadoop]# ssh node2 yum –y install rsync 
hadoop]# ssh node3 yum –y install rsync
hadoop]# for i in 22 23 24 ; do rsync -aSH --delete /usr/local/hadoop/ root@192.168.1.$i:/usr/local/hadoop/ -e 'ssh' & done
[1] 23260
[2] 23261
[3] 23262
 
5)查看是否同步成功
hadoop]# ssh node1 ls /usr/local/hadoop/
bin
etc
include
lib
libexec
LICENSE.txt
NOTICE.txt
bb
README.txt
sbin
share
aa
...
 
2.3 格式化
 
hadoop]# cd /usr/local/hadoop/
hadoop]# ./bin/hdfs namenode -format  //格式化 namenode
hadoop]# ./sbin/start-dfs.sh        //启动
hadoop]# jps        //验证角色
11009 Jps
10707 NameNode
10894 SecondaryNameNode
 
hadoop]# ./bin/hdfs dfsadmin -report    //查看集群是否组建成功
Live datanodes (3):  //有三个角色成功
 
#########################
知识点整理:

01:大数据运维:运维+大数据管理软件的技能
指无法在一定时间内用常规软件工具进行捕捉、管理和处理数据集合,需要新处理模式才具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
是指从各种各样类型的数据中,快速获得有价值的信息。

大数据的作用:
调整相关经营策略
预测相关发展趋势
大规模数据处理

大数据相关特性:
大体量:volume
多样性:variety
时效性:velocity
准确性:veracity
大价值:value

02:Hadoop
是一种分析和处理海量数据的软件平台,Java开发,提供分布式基础架构。
高可靠性、高扩展性、高校性、高容错性、低成本。

常用组件:
HDFS:分布式文件系统(核心组件,存储)
MapReduce0(分布式计算框架)(核心组件)
Yarn:集群资源管理系统(核心组件,集群资源管理系统)
Zookeeper:分布式写作服务
Hbase:分布式列存储数据库
Hive:基于Hadoop数据仓库
Sqoop:数据同步工具
Pig:基于Hadoop的数据流系统
Mahout:数据挖掘算法库
Flume:日志收集工具

03:HDFS(分布式文件系统)
Client:切分文件,访问HDFS,与NameNode交互,获取文件位置信息;与DataNode交互,读取和写入数据。

角色:
Namenode:Master主节点,管理HDFS的名称空间和数据块映射信息,配置副本策略,处理所有客户端请求。

Secondarynode:主节点小秘,定期合并fsimage(数据块命名空间、存储信息)和fsedits(修改后的数据块:源数据+新数据,类似前端盘),推送给NameNode;紧急情况下,可辅助恢复NameNode。

Datanode:数据存储节点,存储世界的数据;汇报存储信息给NameNode。

Block:128MB,每块可以多个副本。

HDFS结构:(NameNode一般一台)
存数据:Client(数据切块)-> ..数据存哪..->NameNode-> ..DateNode..Client->DataNode(存储数据)
取数据:Client(数据切块)-> ..数据在哪..->NameNode-> ..DateNode..Client->DataNode(获取数据)

04:MapReduce结构 分布式计算框架
把一个复杂的问题,分解成若干个简单的问题,多台机器共同计算,最终合并汇总。
角色:
JobTracker:切分任务段,数据总监控、错误处理等(管理节点,一台)
TaskTracker:分单任务(多台,干活)
Map Task:解析每条数据记录,传递给用户编写的map()并执行,将输出结果写入本地磁盘。(如果map-only)作业,直接写入HDFS)
Reducer Task:从Map Task的执行结果中,远程读取输入数据,对数据进行排序,将数据按照分组传递给用户编写的reduce函数执行。

05:Yarn结构:Hadoop的一个通用资源管理系统
角色:
ResourceManager:Master,皇上,处理客户端请求,启动、监控ApplicationMaster,监控NodeManager,资源分配与调度。

NodeManager:钦差大臣,皇上安排的助手,每个结点上资源管理,处理ResourceManager的命令,处理来自ApplicationMaster的命令。(每个ApplicationMaster有多个Container在NodeMaster上运行)

ApplicationMaster:数据切分,为应用程序申请资源,并分配给内部任务,任务监控与容错(表示每个应用)。

Container:对任务运行环境的抽象,封装了CPU、内存等;多维资源以及环境变量、启动命令等任务运行相关的信息资源分配与调度。

06:Hadoop三种模式
单机模式:一台机器部署
伪分布式:所有的角色都安装在一台机器上,学习和测试(类似数据库的多实例)
完全分布式:多台机器部署

##########################

五十九.大数据、Hadoop 、 Hadoop安装与配置 、 HDFS的更多相关文章

  1. CentOS6安装各种大数据软件 第九章:Hue大数据可视化工具安装和配置

    相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础 ...

  2. ubuntu在虚拟机下的安装 ~~~ Hadoop的安装及配置 ~~~ Hdfs中eclipse的安装

     前言 Hadoop是基于Java语言开发的,具有很好跨平台的特性.Hadoop的所要求系统环境适用于Windows,Linux,Mac系统,我们推荐选择使用Linux或Mac系统.而Linux系统则 ...

  3. 大数据和Hadoop生态圈

    大数据和Hadoop生态圈 一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop ...

  4. 大数据:Hadoop入门

    大数据:Hadoop入门 一:什么是大数据 什么是大数据: (1.)大数据是指在一定时间内无法用常规软件对其内容进行抓取,管理和处理的数据集合,简而言之就是数据量非常大,大到无法用常规工具进行处理,如 ...

  5. Hadoop专业解决方案-第1章 大数据和Hadoop生态圈

    一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此 ...

  6. 分享知识-快乐自己:大数据(hadoop)环境搭建

    大数据 hadoop 环境搭建: 一):大数据(hadoop)初始化环境搭建 二):大数据(hadoop)环境搭建 三):运行wordcount案例 四):揭秘HDFS 五):揭秘MapReduce ...

  7. 大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍

    Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...

  8. 大数据测试之hadoop集群配置和测试

    大数据测试之hadoop集群配置和测试   一.准备(所有节点都需要做):系统:Ubuntu12.04java版本:JDK1.7SSH(ubuntu自带)三台在同一ip段的机器,设置为静态IP机器分配 ...

  9. 大数据与Hadoop

    figure:first-child { margin-top: -20px; } #write ol, #write ul { position: relative; } img { max-wid ...

随机推荐

  1. LIUNX随堂学习-2 用户和组,增、删、改、查

    1.less的使用 less  /etc/group            #查看组的信息 less /etc/gshadow        #查看组密码 例如:less /tmp/aa        ...

  2. C 循环统计输入的单词个数和字符长度

    C 循环统计输入的单词个数和字符长度 #include <stdio.h> #include <Windows.h> int main(void) { ]; ; ; print ...

  3. spring cloud微服务实践七

    在spring cloud 2.x以后,由于zuul一直停滞在1.x版本,所以spring官方就自己开发了一个项目 Spring Cloud Gateway.作为spring cloud微服务的网关组 ...

  4. 写文章 通俗易懂 悲观锁、乐观锁、可重入锁、自旋锁、偏向锁、轻量/重量级锁、读写锁、各种锁及其Java实现!

    网上关于Java中锁的话题可以说资料相当丰富,但相关内容总感觉是一大串术语的罗列,让人云里雾里,读完就忘.本文希望能为Java新人做一篇通俗易懂的整合,旨在消除对各种各样锁的术语的恐惧感,对每种锁的底 ...

  5. Myatis之bind标签

    myBatis的bind的标签,一般的用法都是 <if test="name!= null and name!= '' "> <bind name="u ...

  6. 定时任务FluentScheduler

    1.Nuget 安装包 2.创建3个不同的任务 public class MyJob : IJob { void IJob.Execute() { Trace.WriteLine("现在时间 ...

  7. win7 bios引导启动Ubuntu

    用easyBCD修改系统启动项更改 1.安装easyBCD后打开,点击“Add New Entry”>选择Linux/BSD:具体设置如图,Type选择GRUB2,Name自己随便写,笔者写的是 ...

  8. 在nuxt中引入Font Awesome字体图标库

    介绍 在element-ui框架中提供了一些图标样式,但是种类比较少,所以在这里提供一套更完善的字体图标库Font Awesome(官方文档),下面就开始介绍如何在一个nuxt项目中使用这套字体库. ...

  9. YII2 实现dropDownList 联动事件

    一.视图中 <div class="main-form"> <?php $form = ActiveForm::begin(); ?> <?= $fo ...

  10. h5 安卓/IOS长按图片、文字禁止选中或弹出系统菜单 的解决方法

    最近在做IM的语音功能,发现当长按录音的时候手机会弹出来系统菜单, IOS下bug形式:1)长按的标签设置为css background的形式:不会弹出菜单: 2)但是当设置为img时,系统默认识别为 ...