HDFS并行复制Distcp

1）Distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。

2）distcp命令是以MR作业(没有R任务)的形式实现的，把文件和目录的列表作为M任务的输入。每一个文件是由一个M任务来拷贝的，distcp尽量把大小之和相同的各个文件导入到同一个M任务中。这样可以每个M任务拷贝的数据量大致相同。

3）集群之间的拷贝(HDFS版本相同)：

bash$ hadoop distcp hdfs://nn1:8020/foo/bar hdfs://nn2:8020 /bar/foo

这个命令会把nn1集群的 /foo/bar 目录下的所有文件或目录名展开并存储到一个临时文件中，这些文件内容的拷贝工作被分配给多个M任务，然后每个TT分别执行从nn1到nn2的拷贝操作。【distcp使用绝对路径进行操作】

4) 多个源目录拷贝

bash$ hadoop distcp hdfs://nn1:8020/foo/a hdfs://nn1:8020/foo/b hdfs://nn2:8020/bar/foo

5) 更新-update和覆盖-overwrite

默认情况下，如果在拷贝的目的地同名文件已经存在，则会默认跳过这些文件。可以通过-overwrite选项指定覆盖掉同名文件，或者通过-update选项来更新同名文件。关于distcp的更多用法，可以不加参数运行“hadoop distcp”命令来查看其用法。

6) 不同版本HDFS之间拷贝

如果两集群Hadoop版本不一致就不能使用hdfs标识符来拷贝文件了，因为两者的RPC系统是不兼容的。

一种方法是使用基于只读的HTTP的HFTP文件系统来读取源数据（此命令在目标集群上执行，以确保RPC版本兼容），在命令中需要指定nn1的网络端口，它是由dfs.http.address指定的，默认为50070.

% hadoop distcp hftp://namenode1:50070/foo hdfs://namenode2/bar

另一种方法是使用webhdfs协议(替换hftp协议)，这样在拷贝的源和目的地都可以使用http而不用担心版本不兼容的问题：

% hadoop distcp webhdfs://namenode1:50070/foo webhdfs://namenode2:50070/bar

M任务的个数是按如下方式决定的：

1) 考虑到创建M任务的开销，每个M任务至少处理256MB的数据（如果总输入文件小于256MB，则把这些输入数据全部交给一个M任务执行）。例如，一个1GB大小的输入数据会被分配四个M任务来拷贝。

2)　　如果待拷贝的数据实在很大，这时候就不能只按每个M任务256MB输入数据的标准来划分了，因为这样可能需要创建很多M任务。这时可以按每个DN有20个M任务来划分，例如，如果有1000GB的输入数据和100个节点，这是就会启动100*20=2000个M任务来拷贝数据，每个M任务拷贝512MB数据。同时我们也可通过-m选项指定要使用的M数，例如，-m 1000就会启动1000个M任务，每个M任务拷贝1GB数据。

HDFS并行复制Distcp的更多相关文章

Hadoop权威指南:通过distcp并行复制
Hadoop权威指南:通过distcp并行复制 distcp是一个分布式复制程序,改程序可以从Hadoop文件系统间复制大量数据,也可以将大量的数据复制到Hadoop中 distcp的典型应用是在两个 ...
hadoop 通过distcp进行并行复制
通过distcp进行并行复制前面的HDFS访问模型都集中于单线程的访问.例如通过指定文件通配,我们可以对一部分文件进行处理,但是为了高效,对这些文件的并行处理需要新写一个程序.Hadoop有一个叫d ...
MySQL 5.7 并行复制实现原理与调优
MySQL 5.7并行复制时代众所周知,MySQL的复制延迟是一直被诟病的问题之一,然而在Inside君之前的两篇博客中(1,2)中都已经提到了MySQL 5.7版本已经支持“真正”的并行复制功能, ...
[MySQL] 号称永久解决了复制延迟问题的并行复制，MySQL5.7
一.缘由: 某天看到主从复制延时的告警有点频繁,就想着是不是彻底可以解决一下. 一般主从复制,有三个线程参与,都是单线程:Binlog Dump(主) ----->IO Thread (从) - ...
mysql 5.6并行复制事件分发机制
并行复制相关线程在MySQL 5.6并行复制中,当设置set global slave_parallel_workers=2时,共有4个复制相关的线程,如下: +----+------------- ...
MySQL5.6 基于db的并行复制
slave的几个类结构: Master_info:用于IO线程的参数,包括连接master实例的信息. Relay_log_info:用于sql线程,表示relay log相关的信 ...
mysql并行复制降低主从同步延时的思路与启示
一.缘起 mysql主从复制,读写分离是互联网用的非常多的mysql架构,主从复制最令人诟病的地方就是,在数据量较大并发量较大的场景下,主从延时会比较严重. 为什么mysql主从延时这么大? 回答:从 ...
[转载自阿里丁奇]各版本MySQL并行复制的实现及优缺点
MySQL并行复制已经是老生常谈,笔者从2010年开始就着手处理线上这个问题,刚开始两三年也乐此不疲分享,现在再提这个话题本来是难免"炒冷饭"嫌疑. 最近触发再谈这个话题,是 ...
MySQL 并行复制从库发生自动重启分析
并行复制从库发生自动重启分析背景半同步复制从库在晚上凌晨2点半发生自动重启,另一个异步复制从库在第二天凌晨3点也发生了自动重启. 分析版本mysql 5.7.16 mysql> show ...

随机推荐

在Windows上手动安装php开发环境
安装MySQL 使用官方提供提供的安装包一键安装即可. 打开 mysql,选择Windows,MSI Installer点击下载.附:最新版mysql5.7.18下载地址点击installer安装, ...
单反手动对焦M档，AV,TV,P,A,A-DEP
今天科普一下单反相机的自动对焦设置,以佳能EOS600为例,在镜头的后方会看到一个af,mf的开关.af为auto focus的缩写,自动对焦.mf为手动对焦自动曝光模式的种类: AV:光圈优先自动 ...
Android 5.0+删除Sdcard文件
在Android5.0往后的平台上,你想通过单纯的调用File.delete()或着ContentResolver.delete()来删除Sdcard上的文件会删除失败.前者提示没有权限,后者仅仅删除 ...
Hibernate中的一些关键字理解
ORM的理解: ORM(Object/Relation Mapping): 对象/关系映射ORM 主要解决对象-关系的映射: ORM的思想:将关系数据库中表中的记录映射成为对象,以对象的形式展现,程序 ...
swift 下storyboard的页面跳转和传值
------------------1. 最简单的方法拖拽, 这个就不用多解释了吧. 直接拖拽到另一个视图控制器, 选择 show, 就行了. 2. 利用 Segue 方法 (这里主要是方法1 的 ...
Dealing with a Stream-based Transport 处理一个基于流的传输粘包即使关闭nagle算法，也不能解决粘包问题
即使关闭nagle算法,也不能解决粘包问题 https://waylau.com/netty-4-user-guide/Getting%20Started/Dealing%20with%20a%20S ...
PHP 支持8种基本的数据类型。
四种标量类型:boolean (布尔型):这是最简单的类型,只有两种取值,可以为 TRUE/true 或 FALSE/false ,不区分大小写.详细请查看:PHP布尔类型(boolean)integ ...
Rooks---LightOj1005(排列组合)
题目链接:http://lightoj.com/volume_showproblem.php?problem=1005 题意就是在一个n*n的方格中放k个棋子,每一行每一列都不能有两个棋子,问有多少种 ...
ssm之mapper异常 Result Maps collection already contains value for com.ssj.mapper.UserMapper 和 Type interface com.ssj.mapper.UserMapper is already known to the MapperRegistry.
异常一:Result Maps collection already contains value for com.ssj.mapper.XXXMapper 原因分析:XXXmapper.xml文件中 ...
oracle入门（6）——PL/SQL常用语法
[本文介绍] 本文不是”语法大全“,只是记录下作项目里自己常用的一些语法.方便查询. [语法] [输出] (1)输出语法 DBMS_OUTPUT.PUT_LINE( ) [定义] (1)定义变 ...

HDFS并行复制Distcp

HDFS并行复制Distcp的更多相关文章

随机推荐

热门专题