Hadoop环境搭建测试

1 安装软件

1.1 规划目录 /opt

  1. [root@host2 ~]# cd /opt
  2. [root@host2 opt]# mkdir java
  3. [root@host2 opt]# mkdir cdh
  4. [root@host2 opt]# ls
  5. cdh java

1.2 安装RZ工具

RZ工具:可以直接从win平台拖动下载好的软件到Linux平台

  1. sudo yum -y install lrzsz

1.3 上传软件

将windows准备好的软件上传

1.4 解压

  1. [root@host2 java]# tar -zxf jdk-7u67-linux-x64.tar.gz #解压
  2. [root@host2 java]# rm -rf jdk-7u67-linux-x64.tar.gz #删除压缩包
  3. [root@host2 java]# ls
  4. jdk1.7.0_67
  5. [root@host2 java]# cd /opt/cdh/
  6. [root@host2 cdh]# tar -zxf hadoop-2.5.0-cdh5.3.6.tar.gz #解压
  7. [root@host2 cdh]# ls
  8. hadoop-2.5.0-cdh5.3.6 hadoop-2.5.0-cdh5.3.6.tar.gz
  9. [root@host2 cdh]# rm -rf hadoop-2.5.0-cdh5.3.6.tar.gz #删除压缩包
  10. [root@host2 cdh]# ls
  11. hadoop-2.5.0-cdh5.3.6

1.5删除hadoop说明文档,系统瘦身

  1. [root@host2 opt]# rm -rf /opt/cdh/hadoop-2.5.0-cdh5.3.6/share/doc

2 配置JAVA、Hadoop环境变量

2.1 位置:/etc/profile

  1. #JAVA_HOME
  2. export JAVA_HOME=/opt/java/jdk1.7.0_67
  3. export PATH=$JAVA_HOME/bin:$PATH
  4. #HADOOP_HOME
  5. export HADOOP_HOME=/opt/cdh/hadoop-2.5.0-cdh5.3.6
  6. export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
  7. export HADOOP_PREFIX=$HADOOP_HOME
  8. export HADOOP_COMMON_HOME=$HADOOP_HOME
  9. export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
  10. export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
  11. export HADOOP_HDFS_HOME=$HADOOP_HOME
  12. export HADOOP_MAPPER_HOME=$HADOOP_HOME
  13. export HADOOP_YARN_HOME=$HADOOP_HOME
  14. export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/lib

2.2 刷新

  1. [root@host2 opt]# source /etc/profile #刷新
  2. [root@host2 opt]# java -version #查看版本
  3. java version "1.7.0_67"
  4. Java(TM) SE Runtime Environment (build 1.7.0_67-b01)
  5. Java HotSpot(TM) 64-Bit Server VM (build 24.65-b04, mixed mode)

3 配置Hadoop环境

当前目录:/opt/cdh/hadoop-2.5.0-cdh5.3.6

3.1 配置JAVA环境变量

3.1.1 etc/hadoop/hadoop-env.sh
3.1.2 etc/hadoop/mapred-env.sh
3.1.3 etc/hadoop/yarn-env.sh
  1. export JAVA_HOME=/opt/java/jdk1.7.0_67

3.2 配置文件

3.2.1 etc/hadoop/core-site.xml

说明:主节点NameNode位置及交互端口

  1. <configuration>
  2. <property>
  3. <name>fs.defaultFS</name>
  4. <value>hdfs://host2:8020</value>
  5. </property>
  6. <property>
  7. <name>hadoop.tmp.dir</name>
  8. <value>/opt/cdh/hadoop-2.5.0-cdh5.3.6/hdfs/tmp</value>
  9. </property>
  10. <property>
  11. <name>hadoop.proxyuser.root.hosts</name>
  12. <value>*</value>
  13. </property>
  14. <property>
  15. <name>hadoop.proxyuser.root.groups</name>
  16. <value>*</value>
  17. </property>
  18. </configuration>

3.2.2 etc/hadoop/hdfs-site.xml

说明:系统中文件块的数据副本个数,是所有datanode总和,每个datanode上只能存放1个副本

  1. <configuration>
  2. <property>
  3. <name>dfs.replication</name>
  4. <value>1</value>
  5. </property>
  6. </configuration>

3.2.3 etc/hadoop/yarn-site.xml:
  1. <configuration>
  2. <!-- reduce获取数据的方式 -->
  3. <property>
  4. <name>yarn.nodemanager.aux-services</name>
  5. <value>mapreduce_shuffle</value>
  6. </property>
  7. <!-- 指定ResourceManager的位置 -->
  8. <property>
  9. <name>yarn.resourcemanager.hostname</name>
  10. <value>host2</value>
  11. </property>
  12. </configuration>
3.2.4 etc/hadoop/mapred-site.xml
  1. [root@host2 hadoop-2.5.0-cdh5.3.6]# cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
  1. <configuration>
  2. <!-- 指定MapReduce运行在yarn上 -->
  3. <property>
  4. <name>mapreduce.framework.name</name>
  5. <value>yarn</value>
  6. </property>
  7. <!-- 配置历史服务器端口 -->
  8. <property>
  9. <name>mapreduce.jobhistory.address</name>
  10. <value>hadoop-senior02.ibeifeng.com:10020</value>
  11. </property>
  12. <!-- 开历史服务器的WEB UI界面 -->
  13. <property>
  14. <name>mapreduce.jobhistory.webapp.address</name>
  15. <value>hadoop-senior02.ibeifeng.com:19888</value>
  16. </property>
  17. </configuration>
3.2.5 etc/hadoop/salves

说明:配置在从节点DataNode的位置,直接添加主机名

4 启动HDFS文件系统测试读写文件

4.1 格式化HDFS文件系统

  1. [root@host2 ~]# cd /opt/cdh/
  2. [root@host2 cdh]# ls
  3. hadoop-2.5.0-cdh5.3.6
  4. [root@host2 cdh]# cd hadoop-2.5.0-cdh5.3.6/
  5. [root@host2 hadoop-2.5.0-cdh5.3.6]# ls
  6. bin bin-mapreduce1 cloudera etc examples examples-mapreduce1 include lib libexec sbin share src
  7. [root@host2 hadoop-2.5.0-cdh5.3.6]# bin/hdfs namenode -format
  8. 18/06/03 10:57:06 INFO namenode.NameNode: STARTUP_MSG:



格式化成功

4.2 启动namenode和datanote

  1. [root@host2 hadoop-2.5.0-cdh5.3.6]# sbin/hadoop-daemon.sh start namenode
  2. starting namenode, logging to /opt/cdh/hadoop-2.5.0-cdh5.3.6/logs/hadoop-root-namenode-host2.out
  3. [root@host2 hadoop-2.5.0-cdh5.3.6]# sbin/hadoop-daemon.sh start datanode
  4. starting datanode, logging to /opt/cdh/hadoop-2.5.0-cdh5.3.6/logs/hadoop-root-datanode-host2.out
  5. [root@host2 hadoop-2.5.0-cdh5.3.6]# jps
  6. 1255 Jps
  7. 1184 DataNode
  8. 1109 NameNode

4.3 登陆HDFS的WEB界面

端口号:50070

登陆WEBhttp://host2:50070/explorer.html#/

5 文件操作

5.1 创建目录

  1. [root@host2 hadoop-2.5.0-cdh5.3.6]# bin/hdfs dfs -mkdir -p /test/day0603

5.2 上传文件

  1. [root@host2 hadoop-2.5.0-cdh5.3.6]# bin/hdfs dfs -put hdfs/060318-TheWolfAndTheDog.txt /test/day0603



5.3 读取文件

  1. [root@host2 hadoop-2.5.0-cdh5.3.6]# bin/hdfs dfs -cat /test/day0603/060318-TheWolfAndTheDog.txt

5.4 启动yarn并开启历史服务器

  1. [root@host2 hadoop-2.5.0-cdh5.3.6]# sbin/yarn-daemon.sh start nodemanager
  2. [root@host2 hadoop-2.5.0-cdh5.3.6]# sbin/yarn-daemon.sh start resourcemanager
  3. [root@host2 hadoop-2.5.0-cdh5.3.6]# sbin/mr-jobhistory-daemon.sh start historyserver #启动历史服务器

yarn管理界面

http://host2:8088/cluster

6 运行MapReduce WordCount程序

6.1 找到hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar

6.2 使用jar

  1. [root@host2 hadoop-2.5.0-cdh5.3.6]# bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar wordcount /test/day0603/060318-TheWolfAndTheDog.txt /test/output0603-1

6.3 查看结果

  1. [root@host2 hadoop-2.5.0-cdh5.3.6]# bin/hdfs dfs -text /test/output0603-1/part*
  2. 18/06/03 14:10:14 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
  3. After 1
  4. Are 1
  5. As 2
  6. Asks 1
  7. Come 1
  8. He 2
  9. I 12
  10. If 1
  11. In 2
  12. Its 1
  13. Im 3
  14. My 1

MapReduce 会针对key进行排序

Hadoop2.X伪分布式搭建并且测试完成

大数据基础-2-Hadoop-1环境搭建测试的更多相关文章

  1. 学习大数据基础框架hadoop需要什么基础

    什么是大数据?进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1 ...

  2. 【原创】大数据基础之Hadoop(2)hdfs和yarn最简绿色部署

    环境:3结点集群 192.168.0.1192.168.0.2192.168.0.3 1 配置root用户服务期间免密登录 参考:https://www.cnblogs.com/barneywill/ ...

  3. 【原创】大数据基础之Hadoop(1)HA实现原理

    有些工作只能在一台server上进行,比如master,这时HA(High Availability)首先要求部署多个server,其次要求多个server自动选举出一个active状态server, ...

  4. 【原创】大数据基础之Hadoop(3)yarn数据收集与监控

    yarn常用rest api 1 metrics # curl http://localhost:8088/ws/v1/cluster/metrics The cluster metrics reso ...

  5. 大数据学习——java操作hdfs环境搭建以及环境测试

    1 新建一个maven项目 打印根目录下的文件的名字 添加pom依赖 pom.xml <?xml version="1.0" encoding="UTF-8&quo ...

  6. 大数据测试之初识Hadoop

    大数据测试之初识Hadoop POPTEST老李认为测试开发工程师是面向测试的开发,也就是说,写代码就是为完成测试任务服务的,写自动化测试(性能自动化,功能自动化,安全自动化,接口自动化等等)的cas ...

  7. 【HADOOP】| 环境搭建:从零开始搭建hadoop大数据平台(单机/伪分布式)-下

    因篇幅过长,故分为两节,上节主要说明hadoop运行环境和必须的基础软件,包括VMware虚拟机软件的说明安装.Xmanager5管理软件以及CentOS操作系统的安装和基本网络配置.具体请参看: [ ...

  8. 分享知识-快乐自己:大数据(hadoop)环境搭建

    大数据 hadoop 环境搭建: 一):大数据(hadoop)初始化环境搭建 二):大数据(hadoop)环境搭建 三):运行wordcount案例 四):揭秘HDFS 五):揭秘MapReduce ...

  9. 大数据技术之Hadoop入门

      第1章 大数据概论 1.1 大数据概念 大数据概念如图2-1 所示. 图2-1 大数据概念 1.2 大数据特点(4V) 大数据特点如图2-2,2-3,2-4,2-5所示 图2-2 大数据特点之大量 ...

随机推荐

  1. mysql中group by和order by混用 结果不是理想结果(转)

    文章转自 https://www.cnblogs.com/myphper/p/3767572.html 在使用mysql排序的时候会想到按照降序分组来获得一组数据,而使用order by往往得到的不是 ...

  2. leetcode 263. Ugly Number 、264. Ugly Number II 、313. Super Ugly Number 、204. Count Primes

    263. Ugly Number 注意:1.小于等于0都不属于丑数 2.while循环的判断不是num >= 0, 而是能被2 .3.5整除,即能被整除才去除这些数 class Solution ...

  3. js如何调用php文件内显示的数值到html?

    index.html <script type="text/javascript" src="https://cdn.bootcss.com/jquery/1.9. ...

  4. go笔记-值传递、引用传递

    eg: func sliceModify(slice []int) { // slice[0] = 88 slice = append(slice, ) } func main() { slice : ...

  5. 一款DMA性能优化记录:异步传输和指定实时信号做async IO

    关键词:DMA.sync.async.SIGIO.F_SETSIG. DMA本身用于减轻CPU负担,进行CPU off-load搬运工作. 在DMA驱动内部实现有同步和异步模式,异步模式使用dma_a ...

  6. jeecg字典表—普通表

    创建普通表 同步数据库(创建对应的表) 验证功能效果 添加用户表,并添加对应的级别属性 同步用户表 字典功能测试 然后生成最新代码,添加到菜单即可

  7. css3 box-shadow阴影(外阴影与外发光)讲解

    基础说明:     外阴影:box-shadow: X轴  Y轴  Rpx  color;     属性说明(顺序依次对应): 阴影的X轴(可以使用负值)    阴影的Y轴(可以使用负值)    阴影 ...

  8. python之常用模块二(hashlib logging configparser)

    摘要:hashlib ***** logging ***** configparser * 一.hashlib模块 Python的hashlib提供了常见的摘要算法,如MD5,SHA1等等. 摘要算法 ...

  9. Js元素拖拽功能实现

    Js元素拖拽功能实现 需要解决的问题 最近项目遇到了一个问题,就是用户某个操作需要弹出一个自定义的内容输入框,但是有个缺点,当浏览太大的时候没办法点击确认和取消按钮,应为这个弹出框是采用绝对定位的,取 ...

  10. ☆ [洛谷P2633] Count on a tree 「树上主席树」

    题目类型:主席树+\(LCA\) 传送门:>Here< 题意:给出一棵树.每个节点有点权.问某一条路径上排名第\(K\)小的点权是多少 解题思路 类似区间第\(K\)小,但放在了树上. 考 ...