副本数由客户端的参数dfs.replication决定(优先级: conf.set > 自定义配置文件 > jar包中的hdfs-default.xml)如果前两个都没有,就用最后一个jar包中的,默认是3 服务器的那个配置只有在服务器用命令行上传东西的时候才用到那个参数…
weekend01.02.03.04.05.06.07的分布式集群的HA测试 1)  weekend01.02的hdfs的HA测试 2)  weekend03.04的yarn的HA测试 1)  weekend01.02的hdfs的HA测试 首先,分布式集群都是正常的,且工作的 然后呢, 以上是,weekend01(active).weekend02(standby) 当weekend01给kill, 变成weekend01(standby).weekend02(active) 模拟weekend…
当hdfs空间不足时,除了删除临时数据或垃圾数据之外,还可以适当调整部分大目录的副本数量,多管齐下: 1 查看 $ hdfs dfs -ls /user/hive/warehouse/temp.db/test_ext_o-rwxr-xr-x 3 hadoop supergroup 44324200 2019-02-28 16:36 /user/hive/warehouse/temp.db/test_ext_o/000000_0 权限后边的3即为副本数量 2 修改 $ hadoop fs -set…
1:按照上篇博客写的,将各个进程都启动起来: 集群规划:    主机名        IP                安装的软件                    运行的进程   master     192.168.3.129    jdk.hadoop                      NameNode.DFSZKFailoverController(zkfc)   slaver1    192.168.3.130   jdk.hadoop                  …
kudu的副本数量是在表上设置,可以通过命令查看 # sudo -u kudu kudu cluster ksck $master ... Summary by table Name | RF | Status | Total Tablets | Healthy | Recovering | Under-replicated | Unavailable ----------------------------------------------------------+----+--------…
多副本可以提升检索的能力,但是如果副本数量太多,插入数据的时候容易出现卡顿现象: 因为主分片要把数据同步给所有的副本,所以建议副本数量最好是1-2个: ---- Es在索引数据的时候,如果存在副本,那么主分片会将数据同时同步到副本: 如果当前插入大量数据,那么会对es集群造成一定的压力,所以在插入大量数据前,也就是在建立索引的时候,我们最好把副本数设置为0:等数据建立完索引之后,在手动的将副本数更改到2,这样可以提高数据的索引效率…
在配置Windows Server Backup的时候可以配置备份时间点和备份存放位置,但是无法配置保留备份的数量.作为微软提供的一个基本的备份工具,做简单的备份还是可以的.但是对于同一备份任务,反复备份后,保留的副本数量,这个是无法自己修改的.比如,这个备份就有4个副本可供恢复.wbadmin命令中可以指定保留副本的数量,删除多余的.比如:wbadmin delete backup -keepversions:50但是依然无法预先指定保留副本的数量.备份使用了VSS.至于究竟能存放多少个副本,…
HDFS会周期性的检查是否有文件缺少副本,并触发副本复制逻辑使之达到配置的副本数, <property> <name>dfs.replication</name> <value>3</value> </property> 具体实现是在BlockManager中启动线程ReplicationMonitor完成: org.apache.hadoop.hdfs.server.blockmanagement.BlockManager /**…
Hadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数.首先分析一下job的maptask数,当一个job提交时,jobclient首先分析job被拆分的split数量,然后吧job.split文件放置在HDFS中,一个job的MapTask数量就等于split的个数. job.split中包含split的个数由FileInputFormat.getSplits计算出,方法的逻辑如下: 1.  读取参数mapred.map.tasks,…
mapred.tasktracker.map.tasks.maximum 官方解释:The maximum number of map tasks that will be run  simultaneously by a task tracker. 我的理解:一个tasktracker最多可以同时运行的map任务数量 默认值:2 优化值:mapred.tasktracker.map.tasks.maximum = cpu数量 cpu数量 = 服务器CPU总核数 / 每个CPU的核数服务器CPU…