1.NameNode启动过程

加载FSImage；
回放EditLog；
执行CheckPoint（非必须步骤，结合实际情况和参数确定，后续详述）；
收集所有DataNode的注册和数据块汇报。

采用多线程写入fsimage，能够有效的提升fsimage加载速度，从而缩短NameNode启动速度。如果NameSpace存在大量文件，使得fsimage文件巨大，则这种时间缩短会更加明显。

重启过程尽可能避免出现CheckPoint。触发CheckPoint有两种情况：时间周期或HDFS写操作事务数，分别通过参数dfs.namenode.checkpoint.period和dfs.namenode.checkpoint.txns控制，默认值分别是3600s和1,000,000，即默认情况下一个小时或者写操作的事务数超过1,000,000触发一次CheckPoint。为了避免在重启过程中频繁执行CheckPoint，可以适当调大dfs.namenode.checkpoint.txns，建议值10,000,000 ~ 20,000,000，带来的影响是EditLog文件累计的个数会稍有增加。从实践经验上看，对一个有亿级别元数据量的NameNode，回放一个EditLog文件（默认1,000,000写操作事务）时间在秒级，但是执行一次CheckPoint时间通常在分钟级别，综合权衡减少CheckPoint次数和增加EditLog文件数收益比较明显。

2.Service RPC port

NameNode默认使用8020端口侦听所有的RPC请求（HDP版本），包括客户端数据请求，DataNode心跳和block上报，ZKFC模块监控检查和切换控制。当集群规模越和RPC请求来越大时，RPC请求响应时间也变得越来越长。
NameNode也给DataNode提供了专用的Service RPC port用于上报数据块和心跳状态，这样可以减少和客户端应用程序RPC队列请求的竞争。这个端口默认没有开启，需要手动配置参数。
Service RPC port另外也用于NameNode HA模块的ZKFC健康检查和auto failover 控制。

3.Namenode数据不断积累造成的问题

1、启动时间变长。NameNode的启动过程可以分成FsImage数据加载、editlogs回放、Checkpoint、DataNode的BlockReport几个阶段。数据规模较小时，启动时间可以控制在~10min以内，当元数据规模达到5亿（Namespace中INode数超过2亿，Block数接近3亿），FsImage文件大小将接近到20GB，加载FsImage数据就需要~14min，Checkpoint需要~6min，再加上其它阶段整个重启过程将持续~50min，极端情况甚至超过60min，虽然经过多轮优化重启过程已经能够稳定在~30min，但也非常耗时。如果数据规模继续增加，启动过程将同步增加。

2、性能开始下降。HDFS文件系统的所有元数据相关操作基本上均在NameNode端完成，当数据规模的增加致内存占用变大后，元数据的增删改查性能会出现下降，且这种下降趋势会因规模效应及复杂的处理逻辑被放大，相对复杂的RPC请求（如addblock）性能下降更加明显。

3、NameNode JVM FGC（Full GC）风险较高。主要体现在两个方面：（1）FGC频率增加；（2）FGC时间增加且风险不可控。针对NameNode的应用场景，目前看CMS内存回收算法比较主流，正常情况下，对超过100GB内存进行回收处理时，可以控制到秒级别的停顿时间，但是如果回收失败被降级到串行内存回收时，应用的停顿时间将达到数百秒，这对应用本身是致命的。

4、超大JVM Heap Size调试问题。如果线上集群性能表现变差，不得不通过分析内存才能得到结论时，会成为一件异常困难的事情。且不说Dump本身极其费时费力，Dump超大内存时存在极大概率使NameNode不可服务。

4.目前namenode使用了ha的部署模式，但系统会经常出现ha的自动切换（namenode节点其实正常）。经过调研发现可能的原因如下：

HealthMonitor check本地namenode的rpc端口时超时，导致HealthMonitor认为namenode挂掉。
zk上的session timeout，导致丢掉当前持有的active锁（temp节点），引起自动切换。

下面的优化将针对1）和2）调整相应的超时参数，看是否起效。修改core-site.xml

    <!-- HealthMonitor check namenode 的超时设置，默认50000ms，改为5mins -->

    <property>

        <name>ha.health-monitor.rpc-timeout.ms</name>

        <value>300000</value>

    </property>

   <!-- zk failover的session 超时设置，默认5000ms，改为3mins -->

    <property>

        <name>ha.zookeeper.session-timeout.ms</name>

        <value>180000</value>

    </property>

sbin/hadoop-daemon.sh stop zkfc

sbin/hadoop-daemon.sh start zkfc
top一下

ps aux |grep 19118

jstat -gcutil 19118 1000 1000查看jvm GC

Hadoop记录-NameNode优化的更多相关文章

hadoop记录-如何换namenode机器
namenode机器磁盘IO负载持续承压,造成NAMENODE切换多次及访问异常. 1 初始化新机器1.1 在新器1.1.1.3部署hadoop软件(直接复制standby1.1.1.2节点)1.2 ...
hadoop及NameNode和SecondaryNameNode工作机制
hadoop及NameNode和SecondaryNameNode工作机制 1.hadoop组成 Common MapReduce Yarn HDFS (1)HDFS namenode:存放目录,最重 ...
hadoop出现namenode running as process 18472. Stop it first.
hadoop出现namenode running as process 18472. Stop it first.等等,类别似几个的出现. namenode running as process 32 ...
Hadoop记录-queue使用率
#!/bin/sh ip=xxx port=8088 export HADOOP_HOME=/app/hadoop/bin rmstate1=$($HADOOP_HOME/yarn rmadmin - ...
Hadoop记录-JMX参数
Yarn metrics参数说明获取Yarn jmx信息:curl -i http://xxx:8088/jmx Hadoop:service=ResourceManager,name=FSOpDu ...
hadoop启动namenode日志报这个错，首先说怎么看日志
hadoop启动namenode日志报这个错,首先说怎么看日志, 启动namenode会有这个,ubuntu: starting namenode, logging to /home/xiaoye/h ...
Hadoop记录-Hadoop jmx
https://cwiki.apache.org/confluence/display/EAG/Hadoop+JMX+Monitoring+and+Alerting curl http://10.11 ...
Hadoop生态圈-hive优化手段-作业和查询优化
Hadoop生态圈-hive优化手段-作业和查询优化作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Hadoop 解除 NameNode is in safe mode
运行Hadoop程序时,有时候会报以下错误: org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Na ...

随机推荐

DRF 版本和认证
Django Rest Framework 版本控制组件 DRF的版本版本控制是做什么用的, 我们为什么要用首先我们要知道我们的版本是干嘛用的呢~~大家都知道我们开发项目是有多个版本的~~ 当我们 ...
spring05-Spring事务管理
事务的第一个方面是传播行为(propagation behavior).当事务方法被另一个事务方法调用时,必须指定事务应该如何传播.例如:方法可能继续在现有事务中运行,也可能开启一个新事务,并在自己的 ...
Django+Xadmin打造在线教育系统(八)
首页和全局404,500配置轮播图公开课授课机构新建view ## 首页view class IndexView(View): def get(self,request): # 取出轮播图 a ...
River Problem HDU - 3947（公式建边）
River Problem Time Limit: 6000/2000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Tot ...
Kindle支持文档类型
Kindle支持文档类型 Kindle个人文档服务目前只能转换并发送以下类型的文档:Microsoft Word (.doc, .docx) RTF文件(.rtf) HTML(.htm, .html) ...
linux下的标准输出和错误输出重定向
如果想要将对应信息输出到某个文件中,就用对应的数字加上重定向符号“>”,会将这些信息,重新定向到指定的文件中,即可.简单说明:系统默认的stdin,stdout,stderr,都是送往屏幕,所以 ...
bfs退出条件
找到结果即退出? Possibly Not! 如拓展(x)将导致距离增加0(x)或1(x+1),[这种情况用优先队列] 那么该拓展得到的结果也许并不是最优的,后面还有x. 所以最好的是遍历(不知怎么说 ...
GWAS研究可利用的数据库（持续更新）
1.列表包括数据库名称.表型.是否能下载到基因型(genotype).是否能下载到GWAS结果文件(P值.效应值.SNP位点).目前收集到的有如下: 参考到这些数据库的文献:Genome-wide a ...
斯坦福大学公开课机器学习： machine learning system design | error analysis（误差分析：检验算法是否有高偏差和高方差）
误差分析可以更系统地做出决定.如果你准备研究机器学习的东西或者构造机器学习应用程序,最好的实践方法不是建立一个非常复杂的系统.拥有多么复杂的变量,而是构建一个简单的算法.这样你可以很快地实现它.研究机 ...
/bin/bash^M：损坏的解释器: 没有那个文件或目录
由于在Windows下换行是\n\r,在Linux下打开多了\r,所以需要删除.删除命令 :sed -i 's/\r$//' filename -i插入 s替代模式 \r$表示任何以\r结束的字符整 ...