Download hadoop-2.7.7.tar.gz

下载稳定版本的hadoop-2.7.7.tar.gz(我用的2.6.0,但是官网只能下载2.7.7的了)

Required Software

Linux所需的软件包括:

必须安装Java。HadoopJavaVersions描述了推荐的Java版本。

必须安装ssh并且必须运行sshd才能使用管理远程Hadoop守护进程的Hadoop脚本。

安装jdk、ssh免密登录请看

linux安装java 1.8

ssh免密登录

Prepare to Start the Hadoop Cluster

准备启动Hadoop集群

解压缩下载的Hadoop发行版。在分布式中,编辑文件etc / hadoop / hadoop-env.sh以定义一些参数,如下所示:

#设置为Java安装的根目录

  export JAVA_HOME = / usr / java / java1.8.0_25

#假设您的安装目录是/ usr / local / hadoop

export HADOOP_PREFIX = / usr / local / hadoop

请尝试以下命令:

  $ bin / hadoop
  • Local (Standalone) Mode------本地(独立)模式
  • Pseudo-Distributed Mode------伪分布式模式
  • Fully-Distributed Mode----------全分布式模式

Standalone Operation 本地(独立)操作

默认情况下,Hadoop配置为以非分布式模式运行,作为单个Java进程。这对调试很有用。

以下示例复制解压缩的conf目录以用作输入,然后查找并显示给定正则表达式的每个匹配项。输出将写入给定的输出目录。

  $ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'
$ cat output/*

Pseudo-Distributed Operation 伪分布式操作

Hadoop也可以在伪分布式模式下在单节点上运行,其中每个Hadoop守护程序在单独的Java进程中运行。

Configuration

Use the following:

先在解压的hadoop-2.6.0目录下创建data/tmp文件夹

etc/hadoop/core-site.xml:

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/programs/hadoop-2.6.0/data/tmp</value>
</property>
</configuration>

etc/hadoop/hdfs-site.xml:

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

Execution

以下说明是在本地运行MapReduce作业。如果要在YARN上执行作业,请参阅单节点上的YARN 。

1.格式化文件系统

  $ bin / hdfs namenode -format

2.启动NameNode守护程序和DataNode守护程序

  $ sbin / start-dfs.sh

hadoop守护程序日志输出将写入$ HADOOP_LOG_DIR目录(默认为$ HADOOP_HOME / logs)。

3.浏览NameNode的Web界面; 默认情况下,它可用于:

NameNode - http:// localhost:50070 /

4.创建执行MapReduce作业所需的HDFS目录

  $ bin / hdfs dfs -mkdir / user
$ bin / hdfs dfs -mkdir / user / username

5.将输入文件复制到分布式文件系统中

 $ bin/hdfs dfs -put etc/hadoop input

6.运行一些提供的示例

  $ bin / hadoop jar share / hadoop / mapreduce / hadoop-mapreduce-examples-2.6.0.jar grep input output'dfs [az。] +'

7.检查输出文件

将输出文件从分布式文件系统复制到本地文件系统并检查它们:

 $ bin/hdfs dfs -get output output
$ cat output/*

要么

查看分布式文件系统上的输出文件:

   $ bin/hdfs dfs -cat output/*

8.完成后,停止守护进程

  $ sbin / stop-dfs.sh

单节点上的YARN

您可以通过设置一些参数并运行ResourceManager守护程序和NodeManager守护程序,以伪分布式模式在YARN上运行MapReduce作业。

以下说明假设已执行上述指令的 1.~4步骤。

1.配置参数如下

etc/ hadoop/ mapred-site.xml中:

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

etc/hadoop/yarn-site.xml中:

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

2.启动ResourceManager守护程序和NodeManager守护程序

 $ sbin / start-yarn.sh

3.浏览ResourceManager的Web界面; 默认情况下,它可用于

ResourceManager - http:// localhost:8088 /

运行MapReduce作业。

4.完成后,停止守护进程

  $ sbin / stop-yarn.sh

Fully-Distributed Operation

请看下篇>>>全分布式模式配置

【Hadoop】Hadoop的安装,本地模式、伪分布模式的配置的更多相关文章

  1. Ubuntu上搭建Hadoop环境(单机模式+伪分布模式) (转载)

    Hadoop在处理海量数据分析方面具有独天优势.今天花了在自己的Linux上搭建了伪分布模式,期间经历很多曲折,现在将经验总结如下. 首先,了解Hadoop的三种安装模式: 1. 单机模式. 单机模式 ...

  2. Hadoop生态圈-Kafka的本地模式部署

    Hadoop生态圈-Kafka的本地模式部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Kafka简介 1>.什么是JMS 答:在Java中有一个角消息系统的东西,我 ...

  3. Hadoop 安装(本地、伪分布、分布式模式)

    本地模式 环境介绍 一共三台测试机 master   192.168.4.91 slave1   192.168.4.45 slave2   192.168.4.96 操作系统配置 1.Centos7 ...

  4. Ubuntu上搭建Hadoop环境(单机模式+伪分布模式)

    首先要了解一下Hadoop的运行模式: 单机模式(standalone)        单机模式是Hadoop的默认模式.当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选 ...

  5. Ubuntu上搭建Hadoop环境(单机模式+伪分布模式)【转】

    [转自:]http://blog.csdn.net/hitwengqi/article/details/8008203 最近一直在自学Hadoop,今天花点时间搭建一个开发环境,并整理成文. 首先要了 ...

  6. 2.hadoop基本配置,本地模式,伪分布式搭建

    2. Hadoop三种集群方式 1. 三种集群方式 本地模式 hdfs dfs -ls / 不需要启动任何进程 伪分布式 所有进程跑在一个机器上 完全分布式 每个机器运行不同的进程 2. 服务器基本配 ...

  7. hadoop伪分布模式的配置和一些常用命令

    大数据的发展历史 3V:volume.velocity.variety(结构化和非结构化数据).value(价值密度低) 大数据带来的技术挑战 存储容量不断增加 获取有价值的信息的难度:搜索.广告.推 ...

  8. 大数据:Hadoop(JDK安装、HDFS伪分布式环境搭建、HDFS 的shell操作)

    所有的内容都来源与 Hadoop 官方文档 一.Hadoop 伪分布式安装步骤 1)JDK安装 解压:tar -zxvf jdk-7u79-linux-x64.tar.gz -C ~/app 添加到系 ...

  9. hadoop 伪分布模式的配置

    转自 http://blog.csdn.net/zhaogezhuoyuezhao/article/details/7328313 centos系统自带ssh,版本为openssh4.3 免密码ssh ...

随机推荐

  1. 一步一步教你PowerBI数据分析:制作客户RFM数据分析

    客户分析就是根据客户信息数据来分析客户特征,评估客户价值,从而为客户制订相应的营销策略与资源配置.通过合理.系统的客户分析,企业可以知道不同的客户有着什么样的需求,分析客户消费特征与商务效益的关系,使 ...

  2. [hdu5375 Gray code]DP

    题意:给一个二进制码,其中有一些位上为'?',对每个问号确定是'0'还是'1',最后以它对应的格雷码来取数,第i位为1则取第i个数,求取得的数的和的最大值. 思路:二进制码B转换成格雷码G的方法是,G ...

  3. LeetCode链表专题

    链表 套路总结 1.多个指针 移动 2.虚假链表头:凡是有可能删除头节点的都创建一个虚拟头节点,代码可以少一些判断(需要用到首部前一个元素的时候就加虚拟头指针) 3.快慢指针 如leetcode160 ...

  4. 【数据结构】平衡树splay和fhq—treap

    1.BST二叉搜索树 顾名思义,它是一棵二叉树. 它满足一个性质:每一个节点的权值大于它的左儿子,小于它的右儿子. 当然不只上面那两种树的结构. 那么根据性质,可以得到该节点左子树里的所有值都比它小, ...

  5. php基本语法学习

    1.基本的 PHP 语法 PHP 脚本可以放在文档中的任何位置. PHP 脚本以 <?php 开始,以 ?> 结束: <?php// PHP 代码?>   2.简单的脚本-输出 ...

  6. OpenCV开发笔记(五十六):红胖子8分钟带你深入了解多种图形拟合逼近轮廓(图文并茂+浅显易懂+程序源码)

    若该文为原创文章,未经允许不得转载原博主博客地址:https://blog.csdn.net/qq21497936原博主博客导航:https://blog.csdn.net/qq21497936/ar ...

  7. 网鼎杯2020青龙组writeup-web

    本文首发于Leon的Blog,如需转载请注明原创地址并联系作者 AreUSerialz 开题即送源码: <?php include("flag.php"); highligh ...

  8. vue-cli项目上传到github预览问题

    上传前先npm run build 后git push origin master 问题:chunk无法加载? 原因:在github.io请求chunk时,chunk的url使用的是publicPat ...

  9. SSH三大框架知识点

    Hibernate ****************************************************************************************** ...

  10. layui菜单点击刷新,自适应

    最近在项目上用layui框架后台iframe版,遇到的一些问题分享: 1.项目的左侧菜单点击对应的子菜单能自动刷新问题. 2.除了在左侧有菜单,还需要在右侧需要一个菜单(跳转到新页面),并且能够伸缩自 ...