CM记录-HDFS用户组映射】的更多相关文章

hdfs可以将linux用户映射为hdfs用户,也就是说,你当前操作hdfs的用户身份就是你当前登录的linux用户 usermod -a -G hive admin  ---将admin用户加到hive组下 这样admin用户就可以操作/user/hive/warehouse文件夹了 hadoop hdfs的超级管理员用户是hdfs more  groups  | grep admin groups #将root组加入hdfs超级用户组下…
HDFS数据块所在存储的目录满了的解决方法 1.增加磁盘空间 2.删除回收站 hadoop dfs -du -h 查看各个HDFS空间占用情况 hadoop dfs  -expunge  清空回收站 hadoop dfs -rm -skipTrash  /user/path 删除目录跳过回收站  fs.trash.interval 和 fs.trash.checkpoint.interval   dfs.replication.interval复制延迟时间为3秒,默认值. 单机Hadoop修改/…
1.登录(浏览器输入ip地址:7180,登录用户名和登录密码即可) 2.CM主界面(各个组件,监控图表,绿色代表运行正常.黄色代表运行不良,需要关注根据实际情况调整,红色代表故障,需要排查问题) 3.点击左边的HDFS进入HDFS管理主页 4.查看HDFS运行实例 5.查看配置-服务范围-高级(根据实际情况进行调整) 6.查看配置-DataNode Default Group-资源管理(可根据实际情况调整) 7.查看配置-NameNode Default Group-资源管理(可根据实际情况进行…
Hadoop 存档 每个文件均按块存储,每个块的元数据存储在namenode的内存中,因此hadoop存储小文件会非常低效.因为大量的小文件会耗尽namenode中的大部分内存.但注意,存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多.例如,一个1MB的文件以大小为128MB的块存储,使用的是1MB的磁盘空间,而不是128MB. Hadoop存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少namenode内存使用的同时,允许对文件进行…
CDH大数据集群修复记录 1)cm web打不开,查看监听7180端口产生了很多进程,于是kill进程:重启cloudera-cmf-server服务,几秒钟就挂了,查看cloudera-scm-server运行日志是由于mysql服务挂了. 2)查看mysql错误日志,mysql是默认安装在/根分区下的,由于根分区空间不足,无法启动mysql:清理了一些垃圾,重启mysql成功了:重启cloudera-cmf-server成功,但是各个组件出现了很多配置问题:于是重启所有组件,不能重启,究其原…
CDH大数据平台实施经验总结2016(转载) 2016年负责实施了一个生产环境的大数据平台,用的CDH平台+docker容器的方式,过了快半年了,现在把总结发出来. 1. 平台规划注意事项 1.1 业务数据全部存储在datanode上面,所以datanode的存储空间必须足够大,且每个datanode的存储空间尽量保持一致. 1.2 管理节点/namenode对存储空间要求不高,主要存储各计算节点datanode的元数据信息,以3个datanode为例,每个datanode存储2T的数据,nam…
1.安装环境和软件准备 CentOS release 7.4 JDK1.8.0_121 mysql-connector-java-5.1.40-bin.jar CDH-5.10.2-1.cdh5.10.2.p0.5-el7.parcel CDH-5.10.2-1.cdh5.10.2.p0.5-el7.parcel.sha manifest.json MySQL cloudera-manager-centos7-cm5.10.2_x86_64.tar 2.机器配置2.1 主机名 I…
HDFS balancer配置(可通过CM配置)dfs.datanode.balance.max.concurrent.moves 并行移动的block数量,默认5 dfs.datanode.balance.bandwidthPerSec Balance工具所占用的带宽,默认1048576(1MB) dfs.balancer.moverThreads 用于执行block移动的线程池大小,默认1000 dfs.balancer.max-size-to-move 每次balance进行迭代的过程最大…
1.无法加载最新的supervisord 解决方案:ps -ef | grep supervisord     kill -9 pid 2.cloudera-scm-agent dead but pid file exists 解决方案:ps -ef | grep cloudera-scm-agent,然后kill掉cloudera-scm-agent.pid,并删除/opt/cloudera-manager/cm-xxx/run/cloudera-scm-agent下的cloudera-scm…
本节并不大算为大家讲接什么是hadoop,或者hadoop的基础知识因为这些知识在网上有很多详细的介绍,在这里想说的是关于hdfs的相关内容.或许大家都知道hdfs是hadoop底层存储模块,专门用于存放数据,那么在进行文件上传的时候hdfs是如何进行的呢?我们按照宏观和微观来进行相关解析工作. 首先需要向大家解释如下几个概念: (1) secondaryNamenode: 其实起初我对SN的理解也和大部分人相同,认为SN是NN(nameNode)的一个实时热备份实现HA,并且在一次笔试的过程中…
在backoffice的Price Settings->Discount->Customer Discount Groups菜单下面,创建一个新的Customer Discount Group,这只是一个place holder,用来存放随后创建的具体折扣信息: 到Discount里维护一条折扣记录,打折20%,id为jerrydiscount_20: 还需要一条路及关系把Discount Group和Discount 关联起来,这就是Discount Row. 新建一条Discount ro…
1. 副本策略 NameNode具有RackAware机架感知功能,这个可以配置. 若client为DataNode节点,那存储block时,规则为:副本1,同client的节点上:副本2,不同机架节点上:副本3,同第二个副本机架的另一个节点上:其他副本随机挑选. 若client不为DataNode节点,那存储block时,规则为:副本1,随机选择一个节点上:副本2,不同副本1,机架上:副本3,同副本2相同的另一个节点上:其他副本随机挑选 (For the common case, when t…
设置文件数配额 hdfs dfsadmin -setQuota <N> <directory>...<directory> 例如:设置目录下的文件总数为1000个hdfs dfsadmin -setQuota 1000 /p/work 清除配额 hdfs dfsadmin -clrQuota <directory>...<directory> 设置空间配额 hdfs dfsadmin -setSpaceQuota <N> <di…
1.安装操作系统,保证联网环境,本文以CentOS 6.8为操作系统(略) 2.wget下载安装包(以5.3.3为例) #mkdir /usr/cdh ---新建cm安装目录 #cd /usr/cdh ---切换目录 #wget 获取下载链接文件到本地服务器 #wget http://archive.cloudera.com/cm5/cm/5/cloudera-manager-el6-cm5.3.3_x86_64.tar.gz #wget http://archive.cloudera.com/…
1.迁移JournalNode节点 当你在HDFS服务中新加入一个JournalNode角色时,JournalNode角色需要的数据目录是没有被创建的.但你启用HDFS的HA后,NameNode必须需要JournalNodes都是正常的,并且可以接受edits更新,所以JN如果有问题,会直接导致NN起不来. 无论你是新装JournalNode还是迁移JournalNode角色,JN的edits目录必须格式化.格式化后会有namespace目录,并且目录里会包含正确信息的其他文件. 2.1.新装J…
①csd包:http://archive.cloudera.com/spark2/csd/    下载SPARK2_ON_YARN-2.2.0.cloudera1.jar ②parcel包:http://archive.cloudera.com/spark2/parcels/2.2.0.cloudera1/ 下载 SPARK2-2.2.0.cloudera1-1.cdh5.12.0.p0.142354-el6.parcel SPARK2-2.2.0.cloudera1-1.cdh5.12.0.p…
1.自动化运维--cloudera manager 2.手动运维 a.启动./start.all.sh,停止./stop-all.sh b.hdfs启动/停止:./start-dfs.sh   ./stop-dfs.sh c.启动单个:./hadoop-daemon.sh start/stop namenode ./hadoop-daemon.sh start/stop datanode/secondarynamenode/nodemanager d.增加DataNode 1)修改slaves文…
1.HDFS调优 a.设置合理的块大小(dfs.block.size) b.将中间结果目录设置为分布在多个磁盘以提升写入速度(mapred.local.dir) c.设置DataNode处理RPC的线程数(默认为3),大集群可适当加大点(dfs.datanode.handler.count) d.设置NameNode能同时处理请求数(dfs.namenode.handler.count)为集群规模的自然对数lnN的20倍 2.YRAN调优 Yarn的资源表示模型Container,Contain…
1.避免使用swap分区---将hadoop守护进程的数据交换到磁盘的行为可能会导致操作超时:物理内存(交换)--Swap分区 2.调整内存分配策略---操作系统内核根据vm.overcommit_memory(0-表示是否可用的内存,1-表示分配所有的物理内存,2-表示分配所有的物理内存和交换空间的所有物理内存,建议设置为2)的值来决定分配策略,并且通过vm.overcommit_radio的值来设定超过物理内存的比例 3.修改net.core.somaxconn参数---该参数表示socke…
默认hive on spark是禁用的,需要在Cloudera Manager中启用.1.登录CM界面,打开hive服务.2.单击 配置标签,查找enable hive on spark属性.3.勾选Enbale Hive on Spark(Unsupported),并保存更改.4.查找Spark on YARN 服务,并勾选保存.5.保存后,重新部署下客户端使其生效. 在Spark上配置Hive 最低要求角色: 配置器(也由群集管理员 提供,完全管理员)要配置Hive在Spark上运行,请执行…
#!/bin/bash #作用:hdfs使用率取最大100个主机和最小80个主机进行数据均衡 #打印报告 hdfs dfsadmin -report>report.txt #截取主机名 cat report.txt | grep -i "hostname" | awk -F ': ' '{print $2}' >hostname.txt #截取hdfs使用率 cat report.txt | grep -i "DFS Used%" | awk -F ':…
1.cm-cluster2-HBase-2-HBase 安全授权(hbase.security.authorization)-simple改为true 2.添加配置 1)超级用户-加入root.hbase 2)点击左侧的master在 hbase.coprocessor.master.classes里追加如下内容: org.apache.hadoop.hbase.security.access.AccessController 3)点击左侧的regionserver在hbase.coproces…
CDH大数据集群问题问题分析与解决方案 问题描述:Hive提交任务,一直卡在Reduce阶段,进度缓慢. 日志分析:NodeManager节点产生的usercache所在分区空间不足,导致进程异常退出. 解决方案:1)调整各个NodeManager节点的配置-/opt/yarn/nm./spark/yarn/nm:2)优化SQL语句. 重新部署客户端配置,重启后,执行速度提升,问题得以解决. 作业中止命令:hadoop job -kill  <jobid>…
1.堆栈大小 2.JVM重用 3.GC…
hadoop的运行环境---hadoop/jvm/os/hw 原则1:主节点的可靠性要好于从节点:NameNode(Yarn-ResourceManager).DataNode(NodeManager)可靠性要好于其他节点 原则2:多路多核.高频率CPU.大内存的服务器---NameNode的内存决定了集群保存文件数的总量,ResourceManager同时运行的作业会消耗一定的内存 从节点的内存需要根据CPU的虚拟核数vcore进行配比,CPU的vcore数计算公式为=CPU个数*单CPU核数…
集群运行故障分析(空间不足.时钟误差.状态不良) 调整空间.同步时间.重启 修复后: 各个数据节点容量分布情况…
上一篇博客将了在数据集线性可分的情况下的支持向量机,这篇主要记录如何通过映射到高维解决线性不可分的数据集和如何通过核函数减少内积计算量的理论思想. [5]径向基函数的核函数:https://www.quora.com/Why-does-the-RBF-radial-basis-function-kernel-map-into-infinite-dimensional-space…
1.开机启动Hadoop,输入命令:  检查相关进程的启动情况: 2.对Hadoop集群做一个测试:   可以看到新建的test1.txt和test2.txt已经成功地拷贝到节点上(伪分布式只有一个节点,如果是完全分布式,则会显示3个节点都拷贝成功).这证明HDFS工作正常,其中,hadoop dfs –put [本地地址] [hadoop目录] 代表将本地的地址目录存放到hadoop目录下:hadoop dfs –ls [文件目录] 则表示查看指定目录下的内容.更多Hadoop的常用指令请参考…
HDFS设计目标 1)硬件错误是常态,数据保存需要冗余. 2)数据批量读取,Hadoop擅长数据分析而不是事务处理. 3)大规模数据集. 4)简单一致醒模型,降低系统复杂度,文件一次写入多次读取, 5)“数据就近”原则分配数据节点. HDFS体系结构 NameNode DataNode SecondayNameNode 事务日志 映像文件 NameNode 文件系统命名空间 记录每个文件系统数据块在各个DataNode上的位置和副本信息. 协调Client对文件的访问 记录命名空间内的改动 Na…