提纲 - 存储模型- 架构设计- 角色功能- 元数据持久化- 安全模式- 副本放置策略- 读写流程- 安全策略 存储模型 - 文件线性按字节切割成块(block),具有offset,id - 文件与文件的block大小可以不一样- 一个文件除最后一个block,其他block大小一致- block的大小依据硬件的I/O特性调整- block被分散存放在集群的节点中,具有location- Block具有副本(replication),没有主从概念,副本不能出现在同一个节点- 副本是满足可靠性和性…
Hadoop 附带了一个名为 HDFS(Hadoop 分布式文件系统)的分布式文件系统,专门 存储超大数据文件,为整个 Hadoop 生态圈提供了基础的存储服务. 本章内容: 1) HDFS 文件系统的特点,以及不适用的场景 2) HDFS 文件系统重点知识点:体系架构和数据读写流程 3) 关于操作 HDFS 文件系统的一些基本用户命令 1. 1.HDFS 特点: HDFS 专为解决大数据存储问题而产生的,其具备了以下特点: 1) HDFS 文件系统可存储超大文件 每个磁盘都有默认的数据块大小,…
1.下载Hadoop的压缩包 tar.gz   https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/stable/ 2.关联jar包 在eclipse中新建项目中,建lib文件夹,把要用的jar包拷贝进来,jar包在解压好的 hadoop-2.9.1/share/hadoop中 我们这里不拷贝,选择关联你所存放在电脑上的路径 在项目上右键选择 Bulid Path > Add Libraries > User Library &g…
所谓的重新格式化HDFS文件系统,实际意味着重新的创建一个HDFS文件系统.也就是说,必须将先前的已经有的文件系统配置删除.如下: 笔者采用的是最小化安装 这个是core-site.xml配置 这个是 hdfs-site.xml配置 这里说的删除配置就是在集群中将所配置的目录删除即可. mastetr : rm -rf /opt/programfile/hadoop-2.6.0/logs/*     rm -rf /opt/programfile/hadoop-2.6.0/tmp/*  rm -…
http://blog.163.com/he_junwei/blog/static/19793764620152743325659/ http://www.01yun.com/other/20130422/366044.html   使用 /proc 文件系统来访问 Linux 内核的内容 这个虚拟文件系统在内核空间和用户空间之间打开了一个通信窗口 简介: /proc 文件系统是一个虚拟文件系统,通过它可以使用一种新的方法在 Linux? 内核空间和用户空间之间进行通信.在 /proc 文件系统…
基本文件命令: 格式为:hadoop fs -cmd <args> cmd的命名通常与unix对应的命令名相同.例如,文件列表命令: hadoop fs -ls 1.添加目录和文件 HDFS有一个默认的工作目录 /user/$USER,其中$USER是你的登录用户名.不过目录不会自动建立,我们现在用mkdir建立它,我使用的是chen作为用户名. hadoop fs -mkdir /user/chen (hadoop的mkdir命令会自动创建父目录,类似于带-p的unix命令) 我们现在放本地…
前言: 最近一段时间,开始了<IT连>创业,所以精力和写的文章多数是在分享创业的过程. 而关于本人三大框架CYQ.Data.Aries.Taurus.MVC的相关文章,基本都很少写了. 但框架的维护升级,还是时不时的在进行中的,这点从开源的Github上的代码提交时间上就可以看出来了. 毕竟<IT连>的后台WebAPI,用的是Taurus.MVC,后台系统管理用的是Aries. 不过今天,就不写创业相关的文章了,先分享篇技术类的文章. CYQ.Data 分布式自动缓存 之前写过一篇…
文章目录 一 HDFS概念 1.1 概念 1.2 组成 1.3 HDFS 文件块大小 二 HFDS命令行操作 三 HDFS客户端操作 3.1 eclipse环境准备 3.1.1 jar包准备 3.2 通过API操作HDFS 3.2.1 HDFS获取文件系统 3.2.2 HDFS文件上传 3.2.3 HDFS文件下载 3.2.4 HDFS目录创建 3.2.5 HDFS文件夹删除 3.2.6 HDFS文件名更改 3.2.7 HDFS文件详情查看 3.2.8 HDFS文件夹查看 3.3 通过IO流操作…
HDFS是存取数据的分布式文件系统,HDFS文件操作常有两种方式,一种是命令行方式,即Hadoop提供了一套与Linux文件命令类似的命令行工具.HDFS操作之一:hdfs命令行操作 另一种是JavaAPI,即利用Hadoop的Java库,采用编程的方式操作HDFS的文件. 要在java工程中操作hdfs,需要引入一下jar包,我的maven工程中的pom.xml文件中增加如下几个依赖: <dependency> <groupId>org.apache.hbase</grou…
转载请在页首明显处注明作者与出处 一:说明 此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6.4 上一篇:hadoop系列一:hadoop集群安装 二:HDFS的shell命令 上一章说完了安装HADOOP集群部分,这一张讲HDFS. 其实基本上操作都是通过JAVA API来操作,所以这里的shell命令只是简单介绍一下,实际操作中自然是JAVA API更加方便,功能也更加强大,JAVA…