1.准备阶段 1.1.新建三台虚拟机 Hadoop完全分市式集群是典型的主从架构(master-slave),一般需要使用多台服务器来组建.我们准备3台服务器(关闭防火墙.静态IP.主机名称).如果没有这样的环境,可以在一台电脑上安装VMWare Workstation.在VM上安装三台Linux,分别是1个主节点,2个从节点,如下图所示. 节点类型 IP地址 主机名 NameNode 192.168.86.150 master DataNode 192.168.86.160 slave1 Da…
1:Vmware虚拟软件里面安装好Ubuntu操作系统之后使用ifconfig命令查看一下ip; 2:使用Xsheel软件远程链接自己的虚拟机,方便操作.输入自己ubuntu操作系统的账号密码之后就链接成功了: 3:修改主机的名称vi /etc/hostname和域名和主机映射对应的关系 vi /etc/hosts,改过之后即生效,自己可以ping一下,我这里ip对应master,比如ping master之后发现可以ping通即可: 4:修改过主机名称和主机名与ip对应的关系之后:开始上传jd…
Hadoop的运行模式 Hadoop一般有三种运行模式,分别是: 单机模式(Standalone Mode),默认情况下,Hadoop即处于该模式,使用本地文件系统,而不是分布式文件系统.,用于开发和调试. 伪分布式模式(Pseudo Distrubuted Mode),使用的是分布式文件系统,守护进程运行在本机机器,模拟一个小规模的集群,在一台主机模拟多主机,适合模拟集群学习. 完全分布式集群模式(Full Distributed Mode),Hadoop的守护进程运行在由多台主机搭建的集群上…
一.前置安装 1)JDK 2)Hadoop伪分布式集群 二.Scala安装 1)解压Scala安装包 2)环境变量 SCALA_HOME = C:\ProgramData\scala-2.10.6 Path = %SCALA_HOME%\bin 3)测试 三.Spark安装 1)解压Spark安装包 2)环境变量 SPARK_HOME = C:\ProgramData\spark--bin-hadoop2. Path = %SPARK_HOME%\bin 3)测试 http://localhos…
hadoop百度百科:https://baike.baidu.com/item/Hadoop/3526507?fr=aladdin hadoop官网:http://hadoop.apache.org/ 本文结构如下: 安装hadoop前的准备工作 1.1 创建新用户 1.2 更新APT 1.3 安装SSH 1.4 安装Java环境 2.安装和配置hadoop 2.1 hadoop下载 2.2 hadoop为分布式模式配置   3.问题总结 1.安装hadoop前的准备工作 1.1创建hadoop…
声明:作者原创,转载注明出处. 作者:帅气陈吃苹果 1.下载Hadoop压缩包 wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz 2.解压Hadoop压缩包 mkdir /bigdata tar -zxvf hadoop-2.6.5.tar.gz -C /bigdata 3.配置Hadoop(伪分布式) cd /bigdata/hadoop-2.6.5/etc/hadoop…
1.在伪分布式基础上搭建,伪分布式搭建参见VM上Hadoop3.1伪分布式模式搭建 2.虚拟机准备,本次集群采用2.8.3版本与3.X版本差别不大,端口号所有差别 192.168.44.10 vmhome10.com 192.168.44.11 vmhome11.com 192.168.44.12 vmhome12.com 3.关闭防火墙,因为需要打开的端口太多,测试的环境,为了避免干扰先关闭防火墙 systemctl stop firewalld 4.三台虚机之间打开ssh免密登录,账户had…
一.介绍 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序.HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据.Hadoop的框架最核心的设计就是:H…
概述 hadoop2中NameNode可以有多个(目前只支持2个).每一个都有相同的职能.一个是active状态的,一个是standby状态的.当集群运行时,只有active状态的NameNode是正常工作的,standby状态的NameNode是处于待命状态的,时刻同步active状态NameNode的数据.一旦active状态的NameNode不能工作,standby状态的NameNode就可以转变为active状态的,就可以继续工作了. 2个NameNode的数据其实是实时共享的.新HDF…
Hadoop集群部署,就是以Cluster mode方式进行部署.本文是基于JDK1.7.0_79,hadoop2.7.5.  1.Hadoop的节点构成如下: HDFS daemon:  NameNode, SecondaryNameNode, DataNode YARN damones: ResourceManager, NodeManager, WebAppProxy MapReduce Job History Server 本次测试的分布式环境为:Master 1台 (test166),…