“兵马未动,粮草先行”,要想深入的了解hadoop,我觉得启动或停止hadoop的脚本是必须要先了解的。说到底,hadoop就是一个分布式存储和计算框架,但是这个分布式环境是如何启动,管理的呢,我就带着大家先从脚本入手吧。说实话,hadoop的启动脚本写的真好,里面考虑的地方非常周全(比如说路径中有空格,软连接等)。

1、hadoop脚本简单介绍

hadoop的脚本分布在$HADOOP_HOME下面的bin目录下和conf文件夹下,主要介绍如下:

bin目录下
        hadoop                 hadoop底层核心脚本,所有分布式程序最终都是通过这个脚本启动的。
hadoop-config.sh       基本别的脚本都会内嵌调用这个脚本,这个脚本作用就是解析命令行可选参数(--config :hadoop conf文件夹路径 和--hosts)
hadoop-daemon.sh       启动或停止本机command参数所指定的分布式程序,通过调用hadoop脚本实现。
hadoop-daemons.sh      启动所有机器上的hadoop分布式程序,通过调用slaves.sh实现。
slaves.sh              在所有的机器上运行一组指定的命令(通过ssh无密码登陆),供上层使用。
start-dfs.sh
         
在本机启动namenode,在slaves机器上启动datanode,在master机器上启动secondarynamenode,通过调用
hadoop-daemon.sh和hadoop-daemons.sh实现。
start-mapred.sh        在本机启动jobtracker,在slaves机器上启动tasktracker,通过调用hadoop-daemon.sh和hadoop-daemons.sh实现。
start-all.sh           启动所有分布式hadoop程序,通过调用start-dfs.sh和start-mapred.sh实现。
start-balancer.sh      启动hadoop分布式环境复杂均衡调度程序,平衡各节点存储和处理能力。
还有几个stop 脚本,就不用详细说了。

conf目录下
hadoop-env.sh          配置hadoop运行时所需要的一些参数变量,比如JAVA_HOME,HADOOP_LOG_DIR,HADOOP_PID_DIR等。

2、脚本的魅力(详细解释)

hadoop的脚本写的真好,不服不行,从中学习到了好多知识。
 

2.1、hadoop-config.sh

 这个脚本比较简单,而且基本其他脚本都内嵌通过“. $bin/hadoop-config.sh”的形式调用此脚本,所以这个脚本就不用在第一行声明解释权,因为这种调用方式类似于把此脚本内容复制到父脚本里在同一个解释器里面运行。
     这个脚本主要做三部分内容:
 
1、软连接解析和绝对路径解析
  1. #软连接解析
  2. this="$0"
  3. while [ -h "$this" ]; do
  4. ls=`ls -ld "$this"`
  5. link=`expr "$ls" : '.*-> \(.*\)$'`
  6. if expr "$link" : '.*/.*' > /dev/null; then
  7. this="$link"
  8. else
  9. this=`dirname "$this"`/"$link"
  10. fi
  11. done
  12. #绝对路径解析
  13. # convert relative path to absolute path
  14. bin=`dirname "$this"`
  15. script=`basename "$this"`
  16. bin=`cd "$bin"; pwd`
  17. this="$bin/$script"
  18. # the root of the Hadoop installation
  19. export HADOOP_HOME=`dirname "$this"`/..

2、命令行可选参数--config解析并赋值

  1. #check to see if the conf dir is given as an optional argument
  2. if [ $# -gt 1 ]
  3. then
  4. if [ "--config" = "$1" ]
  5. then
  6. shift
  7. confdir=$1
  8. shift
  9. HADOOP_CONF_DIR=$confdir
  10. fi
  11. fi

3、命令行可选参数--config解析并赋值

  1. #check to see it is specified whether to use the slaves or the
  2. # masters file
  3. if [ $# -gt 1 ]
  4. then
  5. if [ "--hosts" = "$1" ]
  6. then
  7. shift
  8. slavesfile=$1
  9. shift
  10. export HADOOP_SLAVES="${HADOOP_CONF_DIR}/$slavesfile"
  11. fi
  12. fi
 

2.2、hadoop

 
    此脚本是hadoop脚本的核心,变量的设置,程序的启动都是通过这个脚本做的。
 
1、声明使用方法

  1. # if no args specified, show usage
  2. if [ $# = 0 ]; then
  3. echo "Usage: hadoop [--config confdir] COMMAND"
  4. echo "where COMMAND is one of:"
  5. echo "  namenode -format     format the DFS filesystem"
  6. echo "  secondarynamenode    run the DFS secondary namenode"
  7. echo "  namenode             run the DFS namenode"
  8. echo "  datanode             run a DFS datanode"
  9. echo "  dfsadmin             run a DFS admin client"
  10. echo "  mradmin              run a Map-Reduce admin client"
  11. echo "  fsck                 run a DFS filesystem checking utility"
  12. echo "  fs                   run a generic filesystem user client"
  13. echo "  balancer             run a cluster balancing utility"
  14. echo "  jobtracker           run the MapReduce job Tracker node"
  15. echo "  pipes                run a Pipes job"
  16. echo "  tasktracker          run a MapReduce task Tracker node"
  17. echo "  job                  manipulate MapReduce jobs"
  18. echo "  queue                get information regarding JobQueues"
  19. echo "  version              print the version"
  20. echo "  jar <jar>            run a jar file"
  21. echo "  distcp <srcurl> <desturl> copy file or directories recursively"
  22. echo "  archive -archiveName NAME <src>* <dest> create a hadoop archive"
  23. echo "  daemonlog            get/set the log level for each daemon"
  24. echo " or"
  25. echo "  CLASSNAME            run the class named CLASSNAME"
  26. echo "Most commands print help when invoked w/o parameters."
  27. exit 1
  28. fi

2、设置java运行环境


        代码简单,就不写出来了,包括JAVA_HOME,JAVA_HEAP_MAX,CLASSPATH,HADOOP_LOG_DIR,HADOOP_POLICYFILE。其中用到了设置IFS-储界定符号的环境变量,默认值是空白字符(换行,制表符或者空格)。

3、根据cmd设置运行时class

  1. # figure out which class to run
  2. if [ "$COMMAND" = "namenode" ] ; then
  3. CLASS='org.apache.hadoop.hdfs.server.namenode.NameNode'
  4. HADOOP_OPTS="$HADOOP_OPTS $HADOOP_NAMENODE_OPTS"
  5. elif [ "$COMMAND" = "secondarynamenode" ] ; then
  6. CLASS='org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode'
  7. HADOOP_OPTS="$HADOOP_OPTS $HADOOP_SECONDARYNAMENODE_OPTS"
  8. elif [ "$COMMAND" = "datanode" ] ; then
  9. CLASS='org.apache.hadoop.hdfs.server.datanode.DataNode'
  10. HADOOP_OPTS="$HADOOP_OPTS $HADOOP_DATANODE_OPTS"
  11. elif [ "$COMMAND" = "fs" ] ; then
  12. CLASS=org.apache.hadoop.fs.FsShell
  13. HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
  14. elif [ "$COMMAND" = "dfs" ] ; then
  15. CLASS=org.apache.hadoop.fs.FsShell
  16. HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
  17. elif [ "$COMMAND" = "dfsadmin" ] ; then
  18. CLASS=org.apache.hadoop.hdfs.tools.DFSAdmin
  19. HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
  20. elif [ "$COMMAND" = "mradmin" ] ; then
  21. CLASS=org.apache.hadoop.mapred.tools.MRAdmin
  22. HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
  23. elif [ "$COMMAND" = "fsck" ] ; then
  24. CLASS=org.apache.hadoop.hdfs.tools.DFSck
  25. HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
  26. elif [ "$COMMAND" = "balancer" ] ; then
  27. CLASS=org.apache.hadoop.hdfs.server.balancer.Balancer
  28. HADOOP_OPTS="$HADOOP_OPTS $HADOOP_BALANCER_OPTS"
  29. elif [ "$COMMAND" = "jobtracker" ] ; then
  30. CLASS=org.apache.hadoop.mapred.JobTracker
  31. HADOOP_OPTS="$HADOOP_OPTS $HADOOP_JOBTRACKER_OPTS"
  32. elif [ "$COMMAND" = "tasktracker" ] ; then
  33. CLASS=org.apache.hadoop.mapred.TaskTracker
  34. HADOOP_OPTS="$HADOOP_OPTS $HADOOP_TASKTRACKER_OPTS"
  35. elif [ "$COMMAND" = "job" ] ; then
  36. CLASS=org.apache.hadoop.mapred.JobClient
  37. elif [ "$COMMAND" = "queue" ] ; then
  38. CLASS=org.apache.hadoop.mapred.JobQueueClient
  39. elif [ "$COMMAND" = "pipes" ] ; then
  40. CLASS=org.apache.hadoop.mapred.pipes.Submitter
  41. HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
  42. elif [ "$COMMAND" = "version" ] ; then
  43. CLASS=org.apache.hadoop.util.VersionInfo
  44. HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
  45. elif [ "$COMMAND" = "jar" ] ; then
  46. CLASS=org.apache.hadoop.util.RunJar
  47. elif [ "$COMMAND" = "distcp" ] ; then
  48. CLASS=org.apache.hadoop.tools.DistCp
  49. CLASSPATH=${CLASSPATH}:${TOOL_PATH}
  50. HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
  51. elif [ "$COMMAND" = "daemonlog" ] ; then
  52. CLASS=org.apache.hadoop.log.LogLevel
  53. HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
  54. elif [ "$COMMAND" = "archive" ] ; then
  55. CLASS=org.apache.hadoop.tools.HadoopArchives
  56. CLASSPATH=${CLASSPATH}:${TOOL_PATH}
  57. HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
  58. elif [ "$COMMAND" = "sampler" ] ; then
  59. CLASS=org.apache.hadoop.mapred.lib.InputSampler
  60. HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
  61. else
  62. CLASS=$COMMAND
  63. fi

4、设置本地库

  1. # setup 'java.library.path' for native-hadoop code if necessary
  2. JAVA_LIBRARY_PATH=''
  3. if [ -d "${HADOOP_HOME}/build/native" -o -d "${HADOOP_HOME}/lib/native" ]; then
  4. #通过运行一个java 类来决定当前平台,挺有意思
  5. JAVA_PLATFORM=`CLASSPATH=${CLASSPATH} ${JAVA} -Xmx32m org.apache.hadoop.util.PlatformName | sed -e "s/ /_/g"`
  6. if [ -d "$HADOOP_HOME/build/native" ]; then
  7. JAVA_LIBRARY_PATH=${HADOOP_HOME}/build/native/${JAVA_PLATFORM}/lib
  8. fi
  9. if [ -d "${HADOOP_HOME}/lib/native" ]; then
  10. if [ "x$JAVA_LIBRARY_PATH" != "x" ]; then
  11. JAVA_LIBRARY_PATH=${JAVA_LIBRARY_PATH}:${HADOOP_HOME}/lib/native/${JAVA_PLATFORM}
  12. else
  13. JAVA_LIBRARY_PATH=${HADOOP_HOME}/lib/native/${JAVA_PLATFORM}
  14. fi
  15. fi
  16. fi

5、运行分布式程序

  1. # run it
  2. xec "$JAVA" $JAVA_HEAP_MAX $HADOOP_OPTS -classpath "$CLASSPATH" $CLASS "$@"

2.3、hadoop-daemon.sh

启动或停止本机command参数所指定的分布式程序,通过调用hadoop脚本实现,其实也挺简单的。

1、声明使用方法

  1. usage="Usage: hadoop-daemon.sh [--config <conf-dir>] [--hosts hostlistfile] (start|stop) <hadoop-command> <args...>"
  2. # if no args specified, show usage
  3. if [ $# -le 1 ]; then
  4. echo $usage
  5. exit 1
  6. fi

2、设置环境变量


   
首先内嵌运行hadoop-env.sh脚本,然后设置HADOOP_PID_DIR等环境变量。

3、启动或停止程序

  1. case $startStop in
  2. (start)
  3. mkdir -p "$HADOOP_PID_DIR"
  4. if [ -f $pid ]; then
  5. #如果程序已经启动的话,就停止,并退出。
  6. if kill -0 `cat $pid` > /dev/null 2>&1; then
  7. echo $command running as process `cat $pid`.  Stop it first.
  8. exit 1
  9. fi
  10. fi
  11. if [ "$HADOOP_MASTER" != "" ]; then
  12. echo rsync from $HADOOP_MASTER
  13. rsync -a -e ssh --delete --exclude=.svn --exclude='logs/*' --exclude='contrib/hod/logs/*' $HADOOP_MASTER/ "$HADOOP_HOME"
  14. fi
  15. # rotate 当前已经存在的log
  16. hadoop_rotate_log $log
  17. echo starting $command, logging to $log
  18. cd "$HADOOP_HOME"
  19. #通过nohup 和bin/hadoop脚本启动相关程序
  20. nohup nice -n $HADOOP_NICENESS "$HADOOP_HOME"/bin/hadoop --config $HADOOP_CONF_DIR $command "$@" > "$log" 2>&1 < /dev/null &
  21. #获取新启动的进程pid并写入到pid文件中
  22. echo $! > $pid
  23. sleep 1; head "$log"
  24. ;;
  25. (stop)
  26. if [ -f $pid ]; then
  27. if kill -0 `cat $pid` > /dev/null 2>&1; then
  28. echo stopping $command
  29. kill `cat $pid`
  30. else
  31. echo no $command to stop
  32. fi
  33. else
  34. echo no $command to stop
  35. fi
  36. ;;
  37. (*)
  38. echo $usage
  39. exit 1
  40. ;;
  41. esac

2.4、slaves.sh


     
在所有的机器上运行一组指定的命令(通过ssh无密码登陆),供上层使用。

1、声明使用方法

  1. usage="Usage: slaves.sh [--config confdir] command..."
  2. # if no args specified, show usage
  3. if [ $# -le 0 ]; then
  4. echo $usage
  5. exit 1
  6. fi

2、设置远程主机列表

  1. # If the slaves file is specified in the command line,
  2. # then it takes precedence over the definition in
  3. # hadoop-env.sh. Save it here.
  4. HOSTLIST=$HADOOP_SLAVES
  5. if [ -f "${HADOOP_CONF_DIR}/hadoop-env.sh" ]; then
  6. . "${HADOOP_CONF_DIR}/hadoop-env.sh"
  7. fi
  8. if [ "$HOSTLIST" = "" ]; then
  9. if [ "$HADOOP_SLAVES" = "" ]; then
  10. export HOSTLIST="${HADOOP_CONF_DIR}/slaves"
  11. else
  12. export HOSTLIST="${HADOOP_SLAVES}"
  13. fi
  14. fi

3、分别在远程主机执行相关命令

  1. #挺重要,里面技术含量也挺高,对远程主机文件进行去除特殊字符和删除空行;对命令行进行空格替换,并通过ssh在目标主机执行命令;最后等待命令在所有目标主机执行完后,退出。
  2. for slave in `cat "$HOSTLIST"|sed  "s/#.*$//;/^$/d"`; do
  3. ssh $HADOOP_SSH_OPTS $slave $"${@// /\\ }" \
  4. 2>&1 | sed "s/^/$slave: /" &
  5. if [ "$HADOOP_SLAVE_SLEEP" != "" ]; then
  6. sleep $HADOOP_SLAVE_SLEEP
  7. fi
  8. done
  9. wait

2.5、hadoop-daemons.sh

      启动远程机器上的hadoop分布式程序,通过调用slaves.sh实现。
1、声明使用方法
 
  1. # Run a Hadoop command on all slave hosts.
  2. usage="Usage: hadoop-daemons.sh [--config confdir] [--hosts hostlistfile] [start|stop] command args..."
  3. # if no args specified, show usage
  4. if [ $# -le 1 ]; then
  5. echo $usage
  6. exit 1
  7. fi

2、在远程主机调用命令

  1. #通过salves.sh来实现
  2. exec "$bin/slaves.sh" --config $HADOOP_CONF_DIR cd "$HADOOP_HOME" \; "$bin/hadoop-daemon.sh" --config $HADOOP_CONF_DIR "$@"

2.6、start-dfs.sh 

      本机(调用此脚本的主机)启动namenode,在slaves机器上启动datanode,在master机器上启动secondarynamenode,通过调用hadoop-daemon.sh和hadoop-daemons.sh实现。

1、声明使用方式

  1. # Start hadoop dfs daemons.
  2. # Optinally upgrade or rollback dfs state.
  3. # Run this on master node.
  4. usage="Usage: start-dfs.sh [-upgrade|-rollback]"

2、启动程序

  1. # start dfs daemons
  2. # start namenode after datanodes, to minimize time namenode is up w/o data
  3. # note: datanodes will log connection errors until namenode starts
  4. #在本机(调用此脚本的主机)启动namenode
  5. "$bin"/hadoop-daemon.sh --config $HADOOP_CONF_DIR start namenode $nameStartOpt
  6. #在slaves机器上启动datanode
  7. "$bin"/hadoop-daemons.sh --config $HADOOP_CONF_DIR start datanode $dataStartOpt
  8. #在master机器上启动secondarynamenode
  9. "$bin"/hadoop-daemons.sh --config $HADOOP_CONF_DIR --hosts masters start secondarynamenode

2.7、start-mapred.sh 

     在本机(调用此脚本的主机)启动jobtracker,在slaves机器上启动tasktracker,通过调用hadoop-daemon.sh和hadoop-daemons.sh实现。
  1. # start mapred daemons
  2. # start jobtracker first to minimize connection errors at startup
  3. #在本机(调用此脚本的主机)启动jobtracker
  4. "$bin"/hadoop-daemon.sh --config $HADOOP_CONF_DIR start jobtracker
  5. #在master机器上启动tasktracker
  6. "$bin"/hadoop-daemons.sh --config $HADOOP_CONF_DIR start tasktracker

其他的脚本就都已经非常简单了,不用再详细说明了,只要看下,大致都能看懂。

对了,最后再说下hadoop的脚本里面用的shell解释器的声明吧。

  1. #!/usr/bin/env bash

作用就是适应各种linux操作系统,能够找到 bash shell来解释执行本脚本,也挺有用的。

大数据时代之hadoop(二):hadoop脚本解析的更多相关文章

  1. 大数据时代快速SQL引擎-Impala

    背景 随着大数据时代的到来,Hadoop在过去几年以接近统治性的方式包揽的ETL和数据分析查询的工作,大家也无意间的想往大数据方向靠拢,即使每天数据也就几十.几百M也要放到Hadoop上作分析,只会适 ...

  2. 转:大数据时代快速SQL引擎-Impala

    本文来自:http://blog.csdn.net/yu616568/article/details/52431835 如有侵权 可立即删除 背景 随着大数据时代的到来,Hadoop在过去几年以接近统 ...

  3. 大数据时代之hadoop(五):hadoop 分布式计算框架(MapReduce)

    大数据时代之hadoop(一):hadoop安装 大数据时代之hadoop(二):hadoop脚本解析 大数据时代之hadoop(三):hadoop数据流(生命周期) 大数据时代之hadoop(四): ...

  4. 大数据时代,我们为什么使用hadoop

    大数据时代,我们为什么使用hadoop 我们先来看看大数据时代, 什么叫大数据,“大”,说的并不仅是数据的“多”!不能用数据到了多少TB ,多少PB 来说. 对于大数据,可以用四个词来表示:大量,多样 ...

  5. 【Hadoop】大数据时代,我们为什么使用hadoop

    博客已转移,请借一步说话.http://www.daniubiji.cn/archives/538 我们先来看看大数据时代, 什么叫大数据,“大”,说的并不仅是数据的“多”!不能用数据到了多少TB , ...

  6. 大数据项目实践:基于hadoop+spark+mongodb+mysql+c#开发医院临床知识库系统

    一.前言 从20世纪90年代数字化医院概念提出到至今的20多年时间,数字化医院(Digital Hospital)在国内各大医院飞速的普及推广发展,并取得骄人成绩.不但有数字化医院管理信息系统(HIS ...

  7. 【大数据】Summingbird(Storm + Hadoop)的demo运行

    一.前言 为了运行summingbird demo,笔者走了很多的弯路,并且在国内基本上是查阅不到任何的资料,耗时很久才搞定了demo的运行.真的是一把辛酸泪,有兴趣想要研究summingbird的园 ...

  8. 大数据框架:Spark vs Hadoop vs Storm

    大数据时代,TB级甚至PB级数据已经超过单机尺度的数据处理,分布式处理系统应运而生. 知识预热 「专治不明觉厉」之“大数据”: 大数据生态圈及其技术栈: 关于大数据的四大特征(4V) 海量的数据规模( ...

  9. 大数据系列(5)——Hadoop集群MYSQL的安装

    前言 有一段时间没写文章了,最近事情挺多的,现在咱们回归正题,经过前面四篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,相关的两款软件VSFTP和SecureCRT也已经正常安装了. ...

  10. 大数据系列(4)——Hadoop集群VSFTP和SecureCRT安装配置

    前言 经过前三篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,当然,我相信安装的过程肯定遇到或多或少的问题,这些都需要自己解决,解决的过程就是学习的过程,本篇的来介绍几个Hadoop环 ...

随机推荐

  1. RHEL账号总结一:账号的分类

    账号是一种用来记录单个用户或者多个用户的数据.RHEL中每一个合法的用户都必须拥有账号,才能使用RHEL. 在RHEL上的账号可以分为两类: 用户账号:用来存储单一用户的数据,你也可以使用一个用户账号 ...

  2. ie7,IE8不支持document.getElmentsByClassName的问题

    if (!document.getElementsByClassName) { document.getElementsByClassName = function(className, elemen ...

  3. android ViewStub延时渲染的应用

    android开发当中,我们经常会遇到根据某个条件去控制一个控件的显示/隐藏的情况.虽然setVisibility(int visibility)的确可以达到这样的目的,但是在渲染时,其实隐藏的布局也 ...

  4. owa_outlook暴力破解脚本

    其实msf里面存在这样的模块,search owa 即可,字典这种东西还是找规律密码去破解比较好 然后担心遇到渗透测试没有msf情况下,还是得自己写个脚本,网上找了一下lijiejie,但是运行不了, ...

  5. 【css2、css3】css改变select选择框的样式

    效果: 代码: <!DOCTYPE html> <html lang="en"> <head> <meta charset="U ...

  6. 问题记录1:The VMware Authorization Service is not running.

    问题 VMware Workstation cannot connect to the virtual machine. Make sure you have rights to run the pr ...

  7. Rails 执行 rails server 报错 Could not find a JavaScript runtime

    gem install 'execj' gem install 'therubyrace' Ubuntu install Node.js(ubuntu) sudo apt-get install no ...

  8. Makfile文件编写

    一.make是什么 GNU make是一个工程管理器,专门负责管理.维护较多文件的处理,实现自动化编译.如果一个工程项目中,有成百上千个代码源文件,若其中一个或多个文件进过修改,make就需要能够自动 ...

  9. magento中对获取的数据在前台进行分页显示

    1.数据加载类class Bf170_Bf170Logistics_Block_Inquiry_Index extends Mage_Core_Block_Template {        publ ...

  10. C# 语言规范_版本5.0 (第15章 委托)

    1. 委托 **(注:此章非常重要,特别是对于图形界面相关的区别于MFC和QT等的消息机制,委托是基石.) 委托是用来处理其他语言(如 C++.Pascal 和 Modula)需用函数指针来处理的情况 ...