HDFS中的File由Block组成,一个File包含一个或多个Block,当创建File时会创建一个Block,然后根据配置的副本数量(默认是3)申请3个Datanode来存放这个Block: 通过hdfs fsck命令可以查看一个文件具体的Block.Datanode.Rack信息,例如: hdfs fsck /tmp/test.sql -files -blocks -locations -racksConnecting to namenode via http://name_node:50…
需要精通java开发,有一定linux基础. 1.简介 大数据就是对海量数据进行数据挖掘. 已经有了很多框架方便使用,常用的有hadoop,storm,spark,flink等,辅助框架hive,kafka,es,sqoop,flume等. 常见应用推荐系统,用户画像等. 2.hadoop hadoop有三个核心组件: hdfs:分布式文件系统 mapreduce:分布式运算编程框架 yarn:分布式资源调度平台 3.hdfs原理 hdfs存放的就是文件,顶层目录是/,可以对文件进行增删改查移的…
核心枚举 public enum ServerState { LOOKING, FOLLOWING, LEADING, OBSERVING; } zookeeper服务器状态:刚启动LOOKING,follower是FOLLOWING,leader是LEADING,observer是OBSERVING: public enum LearnerType { PARTICIPANT, OBSERVER; } 简单来说,zookeeper启动的核心类是QuorumPeerMain,启动之后会加载配置,…
1 hive # kadmin.local -q 'ktadd -k /tmp/hive3.keytab -norandkey hive/server03@TEST.COM'# kinit -kt /tmp/hive3.keytab hive/server03@TEST.COM# klist # beeline -u 'jdbc:hive2://192.168.0.3:10000/;principal=hive/server03@TEST.COM'# hive 注意这里的server03是指hi…
HDFS分布式文件系统 文件系统的基本概述 文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易. 文件名:在文件系统中,文件名是用于定位存储位置. 元数据(Metadata):保存文件属性的数据,如文件名,文件长度,文件所属用户组,文件存储位置等. 数据块(Block):存储文件的最小单元.对存储介质划分了固定的区域,使用时按这些区域分配使用. HDFS的概述 HDFS(Hadoop Distributed File System)基于Google发布的GFS论…
第1章 HDFS概述 1.1 HDFS产出背景及定义 1.2 HDFS优缺点 1.3 HDFS组成架构 1.4 HDFS文件块大小(面试重点) 第2章 HDFS的Shell操作(开发重点) 1.基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类. 2.命令大全 [atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop fs   [-appendToFile <localsrc> ... <dst&…
Hadoop模块 提到大数据,Hadoop是一个绕不开的话题,我们来看看Hadoop本身包含哪些模块. Common是基础模块,这个是必须用的.剩下常用的就是HDFS和YARN. MapReduce现在用的比较少了,多数场景下会被Spark取代. Ozone是一个新组件,对象存储,可以看做是HDFS的升级版. HDFS组成 作为Hadoop的分布式文件系统,它的思想远比这个产品本身更重要.它主要包含这么几个组成部分: NameNode,主节点,用来保存元数据信息,包括文件属性.文件切成多少个Bl…
impala2.12 官方:http://impala.apache.org/ 一 简介 Apache Impala is the open source, native analytic database for Apache Hadoop. Impala is shipped by Cloudera, MapR, Oracle, and Amazon. impala是hadoop上的开源分析性数据库:C++和java语言开发: Do BI-style Queries on Hadoop Im…
最近开始学习大数据,发现大数据有很多很多组件,我现在负责的是HDFS(Hadoop分布式储存系统)的学习,整理了一下HDFS的版本情况.因为HDFS是Hadoop的重要组成部分,所以有关HDFS的版本信息我也是通过查看Hadoop官网的每一个版本的Hadoop中HDFS的变化情况得到的,我尽可能的翻看了所有的信息,但是也可能有所疏漏,大家如果发现有不恰当的地方,可以在评论区留言,我有空的时候会做出修改. Hadoop的版本是并行发展的,(可以参考JDK的版本发展),比如在2.7.X发布更新时,2…
一.HDFS概述 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 . 是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间. 通透性.让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般. 容错.即使系统中有某些节点宕机,整体来说系统仍然可以持续运作而不会有数据损失[通过副本机制实现]. 分布式文件管理…