HDFS的上传流程

命令:hdfs dfs -put  xxx.wmv   /hdfs的文件夹


cd进入到要上传文件的当前目录,再输入hdfs命令上传,注意-put后tab可以自动补全, 最后加上你要上传到hdfs的NN文件路径,/表示根目录。


步骤1:

client接受到Linux操作命令,要求上传文件到hdfs的存储空间中,将关于文件的元数据信息发送到NameNode.

步骤2:

NN对上传文件进行校验,文件夹是否存在等;计算出需要分为几个block块存储,分别几个副本因子,存储到哪几个服务器.

计算出要上传的文件需要几个block,以及对应几个副本

block0 128M [dn11,dn12,dn13]

block1 128M [dn11,dn12,dn13]

block2 44M [dn11,dn12,dn13]

步骤3:

将计算结果返回给客户端(操作发送文件的Linux系统),需要分块的切block块,不需要的直接发送数据给DataNode(DN可能有多个,按照实现规定好的放在哪个datanode下,从头到尾依次拷贝,拷贝好的数据块会应答发送的数据块)

副本存放机制—机架感知(rack-aware):

考虑要素:

  1. HDFS集群的DN有很多台节点。
  2. 节点内部的网络数据传输, 速度最快.
  3. 机架内可以安装多台服务器, 节点之间网络带宽, 由于机架之间的网络带宽.

机架感知-副本存放策略(hadoop2.7.6以前)--旧版本

  1. 第一个block副本放在客户端所在的服务器的datanode中。
  2. 第二个block副本放置在本机架内的其它数据节点datanode上
  3. 第三个block副本放置在不同机架的随机某个节点上。(防止某个机架数据丢失)

副本存放策略(hadoop2.8.4以后)--新版本

  1. 第一个block副本,放在client所在的节点
  2. 第二个block副本,放在另一个机架上的某个节点上。
  3. 第三个block副本,放在第二个机架的不同节点上。

步骤4/存储后期:

最后DN正常对NN发送六个小时一次的块汇报以及三秒一次的心跳(NN对DN的管理)

块汇报(block report):dn保存block块,同时保存block的数字指纹,定期计算数字指纹与保存的数字指纹是否一致,内容不一致就不一样,来判断是否被篡改损坏.如果损坏,不再发送块报告(六小时一次),NN发掘没有汇报后,删除损坏的block,从已有副本因子进行数据同步给该损坏区域.

心跳:接收dn的磁盘信息,硬盘健康状况.较为频繁,默认三秒.


windows-idea操作注意:

@Test

public void test1() throws IOException {

// 1. 初始化配置

Configuration conf = new Configuration();

conf.set("fs.defaultFS", "hdfs://hadoop10:9000");

// 2. 获得操作hdfs的客户端。

FileSystem fs = FileSystem.get(conf);

// 使用客户端的方法(命令),操作hdfs

fs.copyFromLocalFile(new Path("D:/xxx.txt"), new Path("/data"));

// 3. 关闭资源。

if (fs != null) {

fs.close();

}

}

windows需要配置hadoop环境变量|改hosts ip映射文件 | 引入hadoop依赖 |

以及需要注意的这一个异常: Permission denied: user=Administrator,access=WRITE,inode="/hdfs":root:supergroup:drwxr-xr-x

解决办法: 为上传的hfds目录添加写w权限 hdfs dfs -chmod 777 /hdfs目录


补充:

个人随笔,转载注明

HDFS的上传流程以及windows-idea操作文件上传的注意的更多相关文章

  1. pscp使用详解 Windows与Linux文件互传工具

    pscp使用详解 Windows与Linux文件互传工具 pscp使用方法详解:pscp是putty安装包所带的远程文件传输工具,是一款十分常见windows与linux系统之间文件互传的工具,使用方 ...

  2. jm解决乱码问题-参数化-数据库操作-文件上传下载

    jm解决乱码问题-参数化-数据库操作-文件上传下载 如果JM出果运行结果是乱码(解决中文BODY乱码的问题) 找到JM的安装路径,例如:C:\apache-jmeter-3.1\bin 用UE打开jm ...

  3. 【转帖】Linux上搭建Samba,实现windows与Linux文件数据同步

    Linux上搭建Samba,实现windows与Linux文件数据同步 2018年06月09日 :: m_nanle_xiaobudiu 阅读数 15812更多 分类专栏: Linux Samba 版 ...

  4. 将windows下的文件上传到Linux服务器上

    版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明.本文链接:https://blog.csdn.net/lx_Frolf/article/deta ...

  5. jmeter操作 — 文件上传、下载

    一.上传/下载的过程.        上传的过程就是你把你本地的文件,扔到服务器上的这么一个过程.        下载呢,就是把服务器上的文件拿过来,然后存到你本地的这么一个过程.        总结 ...

  6. Jmeter骚操作—文件上传、下载

    最近很多同学都在问jmeter上传.下载文件的脚本怎么做,要压测上传.下载文件的功能,脚本怎么做,网上查了都说的很含糊,这次呢,咱们就好好的把jmeter的上传下载文件好好缕缕,都整明白了,怎么个过程 ...

  7. PHP 图片上传工具类(支持多文件上传)

    ====================ImageUploadTool======================== <?php class ImageUploadTool { private ...

  8. Struts2文件上传(基于表单的文件上传)

    •Commons-FileUpload组件 –Commons是Apache开放源代码组织的一个Java子项目,其中的FileUpload是用来处理HTTP文件上传的子项目   •Commons-Fil ...

  9. 常见的文件上传方法有哪些?Ajax文件上传原理是什么?

    Ajaxfileupload,Ajaxupload,JqueryUploadify无刷新式的文件上传,在一个页面里嵌入一个Iframe,然后在Iframe使用原生的Post表单提交.

随机推荐

  1. Kubernets二进制安装(6)之部署主控节点服务--etcd

    Etcd是Kubernetes集群中的一个十分重要的组件,用于保存集群所有的网络配置和对象的状态信息. 整个kubernetes系统中一共有两个服务需要用到etcd用来协同和存储配置,分别是 网络插件 ...

  2. Kubernets二进制安装(5)之私有仓库harbor搭建

    在IP地址为192.168.80.50,机器名为mfyxw50上搭建私有仓库harbor harbor下载地址: harbor下载连接地址:https://github.com/goharbor/ha ...

  3. iView 的后台管理系统简易模板 iview-admin-simple

    iview-admin-simple 是基于 iView 官方模板iView admin整理出来的一套后台集成解决方案.iview-admin-simple删除了iView admin的大部分功能,只 ...

  4. vi, vim 使用教程

    vim 使用教程 ```shcd lscd ../cd -pwdcprmmkdirtarmvmbtar -zcfchmodsshtopqfree ``` 数字0含空字符到行首,^不含空字符到行首.G移 ...

  5. ES2020 All in One

    ES2020 All in One ES2020 new features / ES11 ES2020 中的10个新功能 1. BigInt BigInt是JavaScript中最令人期待的功能之一, ...

  6. asm movbe 指令

    movbe MOVBE 目标操作数,源操作数 复制源操作数的数据,交换字节后,移动数据 假如: movbe eax,(float)1000.0 eax == 0x00007A44 movbe eax, ...

  7. NGK团队是如何打造超高回报率的BGV项目的?

    NGK旨在激励网络的供给端引导去中心化的节点集群,用于促进网络使用和增加带宽流动. 具体来讲,在未来的24个月内,NGK会将部分生态参与者纳入白名单系统有兴趣的参与者可关注官方信息. 对内,NGK采用 ...

  8. ES6 声明变量的六种方法

    ES5 只有两种声明变量的方法: var 命令和 function 命令. ES6 除了添加 let 和 const 命令, 后面章节还会提到, 另外两种声明变量的方法: import 命令和 cla ...

  9. HBase ——Shell操作

    HBase --Shell操作 Q:你觉得HBase是什么? A:一种结构化的分布式数据存储系统,它基于列来存储数据. 基于HBase,可以实现以廉价PC机器集群存储海量数据的分布式数据库的解决方案. ...

  10. vue之provide和inject跨组件传递属性值失败(父组件向子组件传值的两种方式)

    简单介绍:当一个子组件需要用到父组件的父组件的某些参数.那么这个时候为了避免组件重复传参,使用vue的依赖注入是个不错的方法,直接在最外层组件设置一个provide,内部不管多少嵌套都可以直接取到最外 ...