CM记录-HDFS用户组映射

hdfs可以将linux用户映射为hdfs用户,也就是说,你当前操作hdfs的用户身份就是你当前登录的linux用户 usermod -a -G hive admin ---将admin用户加到hive组下这样admin用户就可以操作/user/hive/warehouse文件夹了 hadoop hdfs的超级管理员用户是hdfs more groups | grep admin groups #将root组加入hdfs超级用户组下…

CM记录-HDFS清理垃圾回收站

HDFS数据块所在存储的目录满了的解决方法 1.增加磁盘空间 2.删除回收站 hadoop dfs -du -h 查看各个HDFS空间占用情况 hadoop dfs -expunge 清空回收站 hadoop dfs -rm -skipTrash /user/path 删除目录跳过回收站 fs.trash.interval 和 fs.trash.checkpoint.interval dfs.replication.interval复制延迟时间为3秒,默认值. 单机Hadoop修改/…

CM记录-Hadoop 分布式文件系统HDFS（登录、配置、监控）

1.登录(浏览器输入ip地址:7180,登录用户名和登录密码即可) 2.CM主界面(各个组件,监控图表,绿色代表运行正常.黄色代表运行不良,需要关注根据实际情况调整,红色代表故障,需要排查问题) 3.点击左边的HDFS进入HDFS管理主页 4.查看HDFS运行实例 5.查看配置-服务范围-高级(根据实际情况进行调整) 6.查看配置-DataNode Default Group-资源管理(可根据实际情况调整) 7.查看配置-NameNode Default Group-资源管理(可根据实际情况进行…

Hadoop记录-hdfs转载

Hadoop 存档每个文件均按块存储,每个块的元数据存储在namenode的内存中,因此hadoop存储小文件会非常低效.因为大量的小文件会耗尽namenode中的大部分内存.但注意,存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多.例如,一个1MB的文件以大小为128MB的块存储,使用的是1MB的磁盘空间,而不是128MB. Hadoop存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少namenode内存使用的同时,允许对文件进行…

CM记录-CDH故障修复处理记录

CDH大数据集群修复记录 1)cm web打不开,查看监听7180端口产生了很多进程,于是kill进程:重启cloudera-cmf-server服务,几秒钟就挂了,查看cloudera-scm-server运行日志是由于mysql服务挂了. 2)查看mysql错误日志,mysql是默认安装在/根分区下的,由于根分区空间不足,无法启动mysql:清理了一些垃圾,重启mysql成功了:重启cloudera-cmf-server成功,但是各个组件出现了很多配置问题:于是重启所有组件,不能重启,究其原…

CM记录-CDH大数据平台实施经验总结2016（转载）

CDH大数据平台实施经验总结2016(转载) 2016年负责实施了一个生产环境的大数据平台,用的CDH平台+docker容器的方式,过了快半年了,现在把总结发出来. 1. 平台规划注意事项 1.1 业务数据全部存储在datanode上面,所以datanode的存储空间必须足够大,且每个datanode的存储空间尽量保持一致. 1.2 管理节点/namenode对存储空间要求不高,主要存储各计算节点datanode的元数据信息,以3个datanode为例,每个datanode存储2T的数据,nam…

CM记录-CDH部署手册

1.安装环境和软件准备 CentOS release 7.4 JDK1.8.0_121 mysql-connector-java-5.1.40-bin.jar CDH-5.10.2-1.cdh5.10.2.p0.5-el7.parcel CDH-5.10.2-1.cdh5.10.2.p0.5-el7.parcel.sha manifest.json MySQL cloudera-manager-centos7-cm5.10.2_x86_64.tar 2.机器配置2.1 主机名 I…

Hadoop记录-HDFS balancer配置

HDFS balancer配置(可通过CM配置)dfs.datanode.balance.max.concurrent.moves 并行移动的block数量,默认5 dfs.datanode.balance.bandwidthPerSec Balance工具所占用的带宽,默认1048576(1MB) dfs.balancer.moverThreads 用于执行block移动的线程池大小,默认1000 dfs.balancer.max-size-to-move 每次balance进行迭代的过程最大…

CM记录-Cloudera Manager常见问题汇总（转载）

1.无法加载最新的supervisord 解决方案:ps -ef | grep supervisord kill -9 pid 2.cloudera-scm-agent dead but pid file exists 解决方案:ps -ef | grep cloudera-scm-agent,然后kill掉cloudera-scm-agent.pid,并删除/opt/cloudera-manager/cm-xxx/run/cloudera-scm-agent下的cloudera-scm…

hadoop学习记录--hdfs文件上传过程源码解析

本节并不大算为大家讲接什么是hadoop,或者hadoop的基础知识因为这些知识在网上有很多详细的介绍,在这里想说的是关于hdfs的相关内容.或许大家都知道hdfs是hadoop底层存储模块,专门用于存放数据,那么在进行文件上传的时候hdfs是如何进行的呢?我们按照宏观和微观来进行相关解析工作. 首先需要向大家解释如下几个概念: (1) secondaryNamenode: 其实起初我对SN的理解也和大部分人相同,认为SN是NN(nameNode)的一个实时热备份实现HA,并且在一次笔试的过程中…

SAP Hybris Discount group，折扣组，折扣记录，用户组几组概念的关联

在backoffice的Price Settings->Discount->Customer Discount Groups菜单下面,创建一个新的Customer Discount Group,这只是一个place holder,用来存放随后创建的具体折扣信息: 到Discount里维护一条折扣记录,打折20%,id为jerrydiscount_20: 还需要一条路及关系把Discount Group和Discount 关联起来,这就是Discount Row. 新建一条Discount ro…

Linux记录-HDFS副本机制

1. 副本策略 NameNode具有RackAware机架感知功能,这个可以配置. 若client为DataNode节点,那存储block时,规则为:副本1,同client的节点上:副本2,不同机架节点上:副本3,同第二个副本机架的另一个节点上:其他副本随机挑选. 若client不为DataNode节点,那存储block时,规则为:副本1,随机选择一个节点上:副本2,不同副本1,机架上:副本3,同副本2相同的另一个节点上:其他副本随机挑选 (For the common case, when t…

Hadoop记录-HDFS配额Quota

设置文件数配额 hdfs dfsadmin -setQuota <N> <directory>...<directory> 例如:设置目录下的文件总数为1000个hdfs dfsadmin -setQuota 1000 /p/work 清除配额 hdfs dfsadmin -clrQuota <directory>...<directory> 设置空间配额 hdfs dfsadmin -setSpaceQuota <N> <di…

CM记录-部署cdh5.3.3集群

1.安装操作系统,保证联网环境,本文以CentOS 6.8为操作系统(略) 2.wget下载安装包(以5.3.3为例) #mkdir /usr/cdh ---新建cm安装目录 #cd /usr/cdh ---切换目录 #wget 获取下载链接文件到本地服务器 #wget http://archive.cloudera.com/cm5/cm/5/cloudera-manager-el6-cm5.3.3_x86_64.tar.gz #wget http://archive.cloudera.com/…

CM记录-迁移JournalNode和Service Monitor超时解决方案

1.迁移JournalNode节点当你在HDFS服务中新加入一个JournalNode角色时,JournalNode角色需要的数据目录是没有被创建的.但你启用HDFS的HA后,NameNode必须需要JournalNodes都是正常的,并且可以接受edits更新,所以JN如果有问题,会直接导致NN起不来. 无论你是新装JournalNode还是迁移JournalNode角色,JN的edits目录必须格式化.格式化后会有namespace目录,并且目录里会包含正确信息的其他文件. 2.1.新装J…

CM记录-升级Spark版本到2.x（转载）

①csd包:http://archive.cloudera.com/spark2/csd/ 下载SPARK2_ON_YARN-2.2.0.cloudera1.jar ②parcel包:http://archive.cloudera.com/spark2/parcels/2.2.0.cloudera1/ 下载 SPARK2-2.2.0.cloudera1-1.cdh5.12.0.p0.142354-el6.parcel SPARK2-2.2.0.cloudera1-1.cdh5.12.0.p…

CM记录-Hadoop运维管理

1.自动化运维--cloudera manager 2.手动运维 a.启动./start.all.sh,停止./stop-all.sh b.hdfs启动/停止:./start-dfs.sh ./stop-dfs.sh c.启动单个:./hadoop-daemon.sh start/stop namenode ./hadoop-daemon.sh start/stop datanode/secondarynamenode/nodemanager d.增加DataNode 1)修改slaves文…

CM记录-Hadoop参数调优

1.HDFS调优 a.设置合理的块大小(dfs.block.size) b.将中间结果目录设置为分布在多个磁盘以提升写入速度(mapred.local.dir) c.设置DataNode处理RPC的线程数(默认为3),大集群可适当加大点(dfs.datanode.handler.count) d.设置NameNode能同时处理请求数(dfs.namenode.handler.count)为集群规模的自然对数lnN的20倍 2.YRAN调优 Yarn的资源表示模型Container,Contain…

CM记录-操作系统调优

1.避免使用swap分区---将hadoop守护进程的数据交换到磁盘的行为可能会导致操作超时:物理内存(交换)--Swap分区 2.调整内存分配策略---操作系统内核根据vm.overcommit_memory(0-表示是否可用的内存,1-表示分配所有的物理内存,2-表示分配所有的物理内存和交换空间的所有物理内存,建议设置为2)的值来决定分配策略,并且通过vm.overcommit_radio的值来设定超过物理内存的比例 3.修改net.core.somaxconn参数---该参数表示socke…

CM记录-配置Hive on Spark

默认hive on spark是禁用的,需要在Cloudera Manager中启用.1.登录CM界面,打开hive服务.2.单击配置标签,查找enable hive on spark属性.3.勾选Enbale Hive on Spark(Unsupported),并保存更改.4.查找Spark on YARN 服务,并勾选保存.5.保存后,重新部署下客户端使其生效. 在Spark上配置Hive 最低要求角色: 配置器(也由群集管理员提供,完全管理员)要配置Hive在Spark上运行,请执行…

Hadoop记录-HDFS均衡脚本

#!/bin/bash #作用:hdfs使用率取最大100个主机和最小80个主机进行数据均衡 #打印报告 hdfs dfsadmin -report>report.txt #截取主机名 cat report.txt | grep -i "hostname" | awk -F ': ' '{print $2}' >hostname.txt #截取hdfs使用率 cat report.txt | grep -i "DFS Used%" | awk -F ':…

CM记录-Hbase启用安全认证控制

1.cm-cluster2-HBase-2-HBase 安全授权(hbase.security.authorization)-simple改为true 2.添加配置 1)超级用户-加入root.hbase 2)点击左侧的master在 hbase.coprocessor.master.classes里追加如下内容: org.apache.hadoop.hbase.security.access.AccessController 3)点击左侧的regionserver在hbase.coproces…