CentOS上安装Hadoop2.7,添加数据节点,运行wordcount
安装hadoop的步骤比较繁琐,但是并不难。
在CentOS上安装Hadoop2.7
1. 安装 CentOS,注:图形界面并无必要
2. 在CentOS里设置静态IP,手工编辑如下4个文件
- /etc/hosts
- /etc/sysconfig/netwok
- /etc/hostname
- /etc/sysconfig/network-scripts/ifcfg-eno1677773
3. 关闭防火墙
- Close firewalld
- systemctl stop firewalld.service #停止firewall
- systemctl disable firewalld.service #禁止firewall开机启动
4. 设置ssh无密登录
l 去掉/etc/ssh/sshd_config其中2行的注释
#RSAAuthentication yes
#PubkeyAuthentication yes
l
输入命令,ssh-keygen -t rsa,生成key,都不输入密码,一直回车,/root就会生成.ssh文件夹,每台服务器都要设置
l
合并公钥到authorized_keys文件,在Master服务器,进入/root/.ssh目录,通过SSH命令合并,
cat id_rsa.pub>> authorized_keys
l
把Master服务器的authorized_keys、known_hosts复制到Slave服务器的/root/.ssh目录
5. 为提高软件下载速度,可以把软件安装库转向阿里云
6. Install net-tools, yum, wget,
vim
7. Install Java
- Yum list java*
- [root@beta-new1 www]# yum -y install java-1.8.0-openjdk.x86_64
8. Configure Java
- [root@localhost ~]# which java
/usr/bin/java
[root@localhost ~]# ls -lrt /usr/bin/java
lrwxrwxrwx. 1 root root 22 Aug 17 15:12
/usr/bin/java -> /etc/alternatives/java
[root@localhost ~]# ls -lrt
/etc/alternatives/java
lrwxrwxrwx. 1 root root 46 Aug 17 15:12
/etc/alternatives/java -> /usr/lib/jvm/jre-1.7.0-openjdk.x86_64/bin/java
9. 从官网下载Hadoop “hadoop-2.7.0.tar.gz”放到/home/hadoop目录下
10. 输入命令解压
- tar -xzvf hadoop-2.7.0.tar.gz
11. 在/home/hadoop目录下创建数据存放的文件夹,tmp、hdfs、hdfs/data、hdfs/name
12. 修改Hadoop设置
- /Hadoop2.7.3/etc/Hadoop/hadoop-env.sh
export
JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.131-3.b12.e17_3.x86_64
- /Hadoop2.7.3/etc/Hadoop/slaves
- /Hadoop2.7.3/etc/Hadoop/mapred-site.xml
- /Hadoop2.7.3/etc/Hadoop/hdfs-site.xml
- /Hadoop2.7.3/etc/Hadoop/core-site.xml
13. 在Master服务器启动hadoop
- 初始化
bin/hdfs namenode –format
l 全部启动sbin/start-all.sh,也可以分开sbin/start-dfs.sh、sbin/start-yarn.sh
l 停止Hadoop服务
l sbin/stop-all.sh
l 输入命令jps,可以看到节点相关信息
14. 访问Hadoop
- 浏览器打开http://192.168.0.182:8088/
- 浏览器打开http://192.168.0.182:50070/
添加新数据节点步骤
- 安装CentOS,设置静态IP(4个配置文件)
- 加入SSH免密码登录
- SCP把Hadoop文件复制到新机器
- 修改/Hadoop2.7.3/etc/Hadoop/slaves
- 重新初始化
- 重新启动hadoop服务
运行WordCount程序
1、在HDFS中创建目录input
hadoop fs -mkdir
/input
2、将本地的 PESXXX.txt上传到input中
hadoop fs -put PESXXX.txt /input
查看input目录下的文件
hadoop fs -ls
/input
查看PESXXX.txt文件内容
hadoop fs -cat
/input/ PESXXX.txt
3、运行程序
hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /input
/output/
4、查看结果
查看输出目录hadoop
fs -ls /output
查看输出结果hadoop
fs -cat /output/part-r-0000
5、可在浏览器查看任务
CentOS上安装Hadoop2.7,添加数据节点,运行wordcount的更多相关文章
- 在Centos上安装RabbitMQ流程(转)
在Centos上安装RabbitMQ流程------------------------ 1. 需求 由于项目中要用到消息队列,经过ActiveMQ与RabbitMQ的比较,最终选择了RabbbitM ...
- 在 CentOS 上安装和配置 OpenNebula
转自:http://www.aikaiyuan.com/4889.html 我们提到的云计算一般有三种类型:软件即服务(Software as a Service, SaaS),平台即服务(Platf ...
- 在Ubuntu|CentOS上安装Shutter截图工具及快捷键设置
简介 Shutter前身叫GScrot,它是一款相当棒的截图软件. 通过Shutter,你可以截取包括选定区域.全屏幕.窗口.窗口内的控件甚至网页的图像.通过内置的强大插件机制,你可以在截图后,对图像 ...
- 如何在centos上安装epel源
一.EPEL是什么? EPEL (Extra Packages for Enterprise Linux,企业版Linux的额外软件包) 是Fedora小组维护的一个软件仓库项目,为RHEL/Cent ...
- Linux系统入门学习:在CentOS上安装phpMyAdmin
问题:我正在CentOS上运行一个MySQL/MariaDB服务,并且我想要通过网络接口来用phpMyAdmin来管理数据库.在CentOS上安装phpMyAdmin的最佳方法是什么? phpMyAd ...
- CentOS下安装Nginx并添加nginx_upload_module
安装前,最好能保证依赖的系统软件已经升级. yum update CentOS上安装Nginx,如果只是简单安装,不附加其他第三方模块,一句话可以搞定: yum install nginx ...
- CentOS上安装GitBlit服务
简单介绍 在上一篇文章中,已经简单的介绍了如何在CentOS的服务器上搭建git服务器.但是这种方式实现的服务器功能比较弱,操作起来也比较繁琐.在网上搜索了一圈,感觉Gitblit比较符合我的需求.接 ...
- 简单介绍一下在CentOS上安装Docker。
简单介绍一下在CentOS上安装Docker. 前置条件: 64-bit 系统 kernel 3.10+ 1.检查内核版本,返回的值大于3.10即可. $ uname -r 2.使用 sudo 或 r ...
- 什么是EPEL 及 Centos上安装EPEL
RHEL以及他的衍生发行版如CentOS为了稳定,官方的rpm repository提供的rpm包为了服务器安全稳定更新往往是很滞后的,很多时候需要自己编译那太辛苦了,而EPEL恰恰可以解决这两方面的 ...
随机推荐
- Neo4j 第二篇:图形数据库
在深入学习图形数据库之前,首先理解属性图的基本概念.一个属性图是由顶点(Vertex),边(Edge),标签(Lable),关系类型和属性(Property)组成的有向图.顶点也称作节点(Node), ...
- 文本主题模型之LDA(三) LDA求解之变分推断EM算法
文本主题模型之LDA(一) LDA基础 文本主题模型之LDA(二) LDA求解之Gibbs采样算法 文本主题模型之LDA(三) LDA求解之变分推断EM算法 本文是LDA主题模型的第三篇,读这一篇之前 ...
- struts2.1.6教程四、OGNL与ValueStack(VS)
1.值栈入门 下面我们建立struts2ognl项目来练习ognl的使用. 步骤一.搭建strust2的开发环境 步骤二.建立LoginAction,主要代码如下: package com.asm; ...
- Ehcache 整合Spring 使用页面、对象缓存(1)
转自:http://www.cnblogs.com/hoojo/archive/2012/07/12/2587556.html Ehcache在很多项目中都出现过,用法也比较简单.一般的加些配置就可以 ...
- Http学习之使用HttpURLConnection发送post和get请求(1)
最常用的Http请求无非是get和post,get请求可以获取静态页面,也可以把参数放在URL字串后面,传递给servlet,post与get的不同之处在于post的参数不是放在URL字串里面,而是放 ...
- C#操作CAD-初始化、引用dll
操作cad等方式有很多,比如C,C++,vb.lisp(效率最高,但是语言结构性太差)和C#,因为我等个人习惯和方便等原因,在此讲解一下用C#操作流程,后续会更新操作图层.扩展数据.绘图等操作步骤.当 ...
- java模拟报文
为了以后节约时间,记录下模拟报文的实现 模拟报文思路:就是后台把接口数据先写在文档里面写死,接口地址不变,在每个接口里面控制是访问的模拟报文还是数据库里面的数据, 对于前端来说所有都是不变的,就是说我 ...
- 堆结构的优秀实现类----PriorityQueue优先队列
之前的文章中,我们有介绍过动态数组ArrayList,双向队列LinkedList,键值对集合HashMap,树集TreeMap.他们都各自有各自的优点,ArrayList动态扩容,数组实现查询非常快 ...
- JavaScript设计模式_01_单例模式
最近项目不太忙,难得有时间看看书,平时挺喜欢js这门语言.也看过很多高级教程,觉得自己还是比较热衷于js的设计模式.这一次重温一下<JavaScript设计模式与开发实践>,开篇为单例模式 ...
- 【PHP】最详细PHP从入门到精通(三)——PHP中的数组
PHP从入门到精通 之PHP中的数组 各位开发者朋友大家好,链接上次更新,我们PHP的学习也更深了一层,本次博主给大家带来PHP数组的数组实例详解的相关资料.数组分为数组数值数值,关联数组,多维数组 ...