Hadoop 伪分布式安装、运行测试例子

1. 配置linux系统环境

centos 6.4 下载地址：http://pan.baidu.com/s/1geoSWuv【VMWare专用CentOS.rar】（安装打包好的VM压缩包）
并配置虚拟机网络连接为“仅主机模式”（使主机和虚拟机可以互通）

3. 设置虚拟机固定ip，设置好重启网络：service network restart

2. 关闭防火墙

1

2

3

4

5

6

su root

service iptables stop #关闭防火墙

service iptables status #验证是否关闭

chkconfig iptables off #关闭防火墙的开机自动运行

chkconfig –list | grep iptables #验证防火墙的开机自动运行

vim /etc/sysconfig/selinux # 禁用selinux，将SELINUX=disabled

3. 修改主机名（必须要修改为hadoop）

1

2

3

hostname #查看当前主机名

hostname hadoop #设置主机名,本次生效

vim /etc/sysconfig/network #修改HOSTNAME=hadoop，永久生效

4. 把hostname和ip绑定（设置DNS解析）

1

2

vim /etc/hosts #增加 192.168.17.100 hadoop

reboot

~~5. 创建用户（一般生产不直接给root的）~~

~~adduser hadoop01~~
~~passwd hadoop01设置密码：hadoop01~~
~~却换root用户给hadoop01设置权限，设置允许root命令的用户~~

~~su root~~

~~chmod 751 /etc/sudoers #设置可读写~~

~~vim /etc/sudoers~~

~~hadoop01 ALL=(ALL) ALL #在Allow root to run any commands anywhere 下添加一行~~

直接使用root

6. SSH免密码登陆

1

2

3

ssh-keygen -t rsa #回车，产生密钥，位于~/.ssh下

cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys2 #（或ssh-copy-id localhost）

ssh localhost #验证，免密码登陆

7. 安装jdk（64bit：http://pan.baidu.com/s/1nua41ol【jdk-7u79-linux-x64.gz】，32bit：http://pan.baidu.com/s/1dDJPDNr【jdk-7u79-linux-i586.gz】）

（Hadoop2.7.x 支持到1.7，所以推荐安装1.7的jdk，http://wiki.apache.org/hadoop/HadoopJavaVersions）

1

2

3

4

5

6

7

8

9

cd /usr/local/src

mkdir java

cd java

mkdir jdk #jdk解压到此处 sudo tar -zxvf xxx

vim /etc/profile #配置环境变量，追加

export JAVA_HOME=/usr/local/src/java/jdk

export PATH=$PATH:$JAVA_HOME/bin

source /etc/profile # 让配置生效

java –version # 查看是否安装成功

8. 安装Hadoop（单节点安装）

参考： http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/SingleCluster.html

下载hadoop，http://apache.fayea.com/hadoop/common/hadoop-2.7.2/ （如果为64bit系统要自己编译源码，具体参考下面参考的视频连接，64bit编译好的下载地址：http://pan.baidu.com/s/1c0TuAgo）

1. 配置hdfs

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

cd /usr/local/src

mkdir hadoop # 解压hadoop压缩包到此处

cd hadoop

mkdir data

cd data

mkdir tmp  #存放临时目录运行时产生数据

vim etc/hadoop/hadoop-env.sh # JAVA_HOME修改为实际路径JAVA_HOME=/usr/local/src/java/jdk

vim etc/hadoop/core-site.xml #配置新增：配置hdfs访问的端口 8020（2.x以后支持8020）

        <property>

                <name>fs.defaultFS</name>

                <value>hdfs://hadoop:8020</value>

        </property>

#修改临时目录运行时产生数据的目录：（默认在tmp，在linux系统中可能回被删除）

        <property>

                <name>hadoop.tmp.dir</name>

                <value>/usr/local/src/hadoop/data/tmp</value>

        </property>

vim etc/hadoop/hdfs-site.xml # 配置默认副本的备份个数（一般是3个，这里伪分布式只要1份就可以）

        <property>

                <name>dfs.replication</name>

                <value>1</value>

         </property>

bin/hdfs namenode -format # 格式化文件系统

sbin/start-dfs.sh # 启动 jps查看启动进行情况，启动三个进程，namenode存储元数据，datanode存储数据

sbin/stop-dfs.sh #关闭

查看日志目录logs

查看hdfs的状态：http://192.168.17.100:50070/

2. 安装yarn（资源调度）

1

2

3

4

5

6

7

8

9

10

11

12

13

mv etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

vim etc/hadoop/mapred-site.xml #使mapreduce用yarn来调度

        <property>

                <name>mapreduce.framework.name</name>

                <value>yarn</value>

        </property>

vim etc/hadoop/yarn-site.xml #配置Reduce取数据的方式是shuffle

        <property>

                 <name>yarn.nodemanager.aux-services</name>

                 <value>mapreduce_shuffle</value>

        </property>

sbin/start-yarn.sh # 启动（ jsp可以看到多了两个进程 resourcesManage管理总的资源分配, NodeManage 管理该台节点的资源）

sbin/stop-yarn.sh #关闭

yarn的监控界面 http://192.168.17.100:8088/cluster

关闭所有：stop-all.sh

分别启动各个进程：执行的命令是“hadoop-daemon.sh start [进程名称]”，这种启动方式适合于单独增加

9. 测试hadoop（词频统计）

1

2

3

4

5

6

7

8

9

cd /usr/local/src/hadoop/data

vim words # 输入 hello a,hello b

cd /usr/local/src/hadoop

bin/hadoop fs -put /usr/local/src/hadoop/data/words /words # 把words上传到hdfs，

# 可以在http://192.168.17.100:50070/看到 hdfd默认128M的超过的话回切分多个128M的快来处理

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /words /out #运行demo

#查看运行状态 http://192.168.17.100:8088

bin/hadoop fs -ls /out

bin/hadoop fs -cat /out/part-r-00000

10. 词频统计 MapReduce原理简单分析

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

map阶段：

    输入数据：

        <0,"hello a">

        <8,"hello b">



    输出数据：

        map(key,value,context) {

            String line = value; //hello a

            String[] words  = value.split("\t");

            for(String word : words) {

                //hello

                // a

                // hello

                // b

                context.write(word,1);

            }

        }

    <hello,1>

    <a,1>

    <hello,1>

    <b,1>

reduce阶段（分组排序）：

    输入数据：

        <a,1>

        <b,1>

        <hello,{1,1}>





    输出数据：

        reduce(key,value,context) {

            int sum = 0;

            String word = key;

            for(int i : value) {

                sum += i;

            }

            context.write(word,sum);

        }

10. 其他问题

1. NameNode进程没有启动成功

1. 没有格式化

2. 配置文件只copy不修改

3. hostname没有和ip绑定

4. ssh的免密码登陆没有配置成功

2. 多次格式化hadoop也是错误的？

1. 删除/usr/local/src/hadoop/data/tmp文件夹，从新格式化

参考：

1. http://www.jikexueyuan.com/course/2475_3.html?ss=1【hadoop入门】，资料链接：http://pan.baidu.com/s/1hrh0mhA 密码：w779【press-2949-package-v1.zip】

2. http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/SingleCluster.html

Hadoop 伪分布式安装、运行测试例子的更多相关文章

hadoop伪分布式安装之Linux环境准备
Hadoop伪分布式安装之Linux环境准备一.软件版本 VMare Workstation Pro 14 CentOS 7 32/64位二.实现Linux服务器联网功能网络适配器双击选择VMn ...
apache hadoop 伪分布式安装
1. 准备工作 1.1. 软件准备 1.安装VMWare 2.在VMWare上安装CentOS6.5 3.安装XShell5,用来远程登录系统 4.通过rpm -qa | grep ssh 检查cen ...
【Hadoop学习之二】Hadoop伪分布式安装
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 伪分布式就 ...
hadoop 伪分布式安装
0. 关闭防火墙重启后失效 service iptables start ;#立即开启防火墙,但是重启后失效. service iptables stop ;#立即关闭防火墙,但是重启后失效. 重启 ...
基于centos6.5 hadoop 伪分布式安装
步骤1:修改IP 地址和主机名: vi /etc/sysconfig/network-scripts/ifcfg-eth0 如果该文件打开为空白文件代表你计算机上的网卡文件不是这个名称“ifcfg-e ...
Hadoop伪分布式安装步骤（hadoop0.20.2版本）
最近在学习hadoop,自己下了个视频教程,他的教学版本是hadoop0.20.2版本,现在的最新版本都到了3.0了,版本虽然有点老,但是还是学了一下,觉得有借鉴的价值. 不废话了,开始介绍: 先说一 ...
[大数据] hadoop伪分布式安装
注意:节点主机的hostname不要带"_"等字符,否则会报错. 一.安装jdk rpm -i jdk-7u80-linux-x64.rpm 配置java环境变量: vi + /e ...
hadoop伪分布式安装
hadoop的伪分布安装:一台实体机或虚拟机的安装. 环境:Windows7.VMWare.CentOS 1.1 设置ip地址说明:在CentOS中的网络的类型: 仅主机模式:虚拟机在Windows ...
macbook 下hadoop伪分布式安装
1 准备原材料 1.1 jdk 1.8.0_171(事先安装并配置环境变量HAVA_HOME,PATH) 1.2 Hadoop 2.8.3 2 免密登陆配置(否则安装过程需要不断输入密码) 2.1 ...

随机推荐

高并发下，log4j日志打印行数导致的内存溢出问题
log4j日志打印时,如果将行数打印出来,在调用量极大的情况下,会出现内存溢出问题. log4j打印日志,打印行数时,行数是通过一个一个exception抛出,再极高调用量的情况下,内存会因为exce ...
[LeetCode] Add One Row to Tree 二叉树中增加一行
Given the root of a binary tree, then value v and depth d, you need to add a row of nodes with value ...
[LeetCode] Lonely Pixel II 孤独的像素之二
Given a picture consisting of black and white pixels, and a positive integer N, find the number of b ...
实验吧_who are you?(盲注)
who are you? 翻翻源码,抓抓包,乱试一通都没有什么结果题目中提示有ip,立马应该联想到X-Forwarded-For 虽然知道是这个方面的题,但完全不知道从何入手,悄咪咪去翻一下wp 才 ...
vba打开输入文件
Sub fileCreate2() Dim folderPath, fileName, s As String Dim fs, fo, fc, f As Object folderPath = &qu ...
[HNOI2008]遥远的行星
题目描述直线上N颗行星,X=i处有行星i,行星J受到行星I的作用力,当且仅当i<=AJ.此时J受到作用力的大小为 Fi->j=Mi*Mj/(j-i) 其中A为很小的常量,故直观上说每颗行 ...
【数据结构】【平衡树】无旋转treap
最近在研究平衡树,看起来这种东西又丧水又很深,感觉很难搞清楚.在Ditoly学长的建议下,我先学习了正常的treap,个人感觉这应该是平衡树当中比较好懂的而且比较好写的一种. 然而,发现带旋treap ...
hdu2795 线段树贴广告
Billboard Time Limit: 20000/8000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total ...
【Python3.6+Django2.0+Xadmin2.0系列教程之三（入门篇-下）】学生信息管理系统
上一篇我们已经初步的构建起了一个学生管理系统的模型,现在接着来继续完善它吧. 1.上传图片/文件等资源有时候需要添加一些附件,例如,新生刚入学,大家相互之间还不熟悉,希望能通过照片来加深印象,并且方 ...
python实现tab键自动补全
一.查询python安装路径,一般默认是/usr/lib64/ [root@host2 ~]# python Python (r266:, Jul , ::) [GCC (Red Hat -)] on ...

Hadoop 伪分布式安装、运行测试例子

Hadoop 伪分布式安装、运行测试例子的更多相关文章

随机推荐

热门专题