cloudera learning2:HDFS】的更多相关文章

存入HDFS的文件会按块(block)划分,默认每块128MB.默认1个block还有2个备份.备份增加了数据的可靠性和提高计算效率(数据本地化). HDFS部署可选择不支持HA,也可选择支持HA. NameNode内存中有metadata,metadata里主要记录的信息包括:file location,ownership,permissions,block's name and location. metadata持久化在fsimage文件中,每次NameNode启动时加载到内存.Block…
文章copy link:http://cloudera.iteye.com/blog/889468 链接所有者保留所有权! http://www.csdn.net/article/2013-05-10/2815222-cloudera-release-impala-1-0  [cloudera impala] 官方doc https://wiki.cloudera.com/display/DOC/HBase+Installation 首先升级yum: 在 /etc/yum.repos.d/ 下创…
春节前用的shark,是从github下载的源码,自己编译.shark的master源码仅支持hive 0.9,支持hive 0.11的shark只是个分支,不稳定,官方没有发布release版,在使用过程中出现了一些问题.现在官方将hive 0.11分布合并到主干代码,并且发布了支持hive 0.11的稳定版本.为了使用最新的shark 0.9,需要重新安装部署整个环境,包括:hadoop cdh 4.5+hive 0.11(shark 0.9版)+spark 0.9 +shark 0.9.…
Apache Pig是一个高级过程语言,可以调用MapReduce查询大规模的半结构化数据集. 样例执行的环境为cloudera的单节点虚拟机 读取结构数据中的指定列 在hdfs上放置一个文件 [cloudera@quickstart ~]$ hdfs dfs -put /etc/passwd /user/cloudera/ 启动Apache Pig [cloudera@quickstart ~]$ pig -x mapreduce grunt> 使用Pig Latin进行数据提取 grunt>…
CDH quickstart vm包含了单节点的全套hadoop服务生态,可从https://www.cloudera.com/downloads/quickstart_vms/5-13.html下载.如下: 对应的节点如下(不包含Cloudera Navigator): 要学习完整的hadoop生态,最好是使用8C/32GB以上的服务器,4C/16GB勉强能跑.但是很勉强(最好使用2个以上节点). impala 使用c++编写(Spark使用Scala编写),采用MPP架构(类似于MariaD…
为数据节点添加新硬盘 - 挂载硬盘到指定文件夹.如`/dfs_diskb`: - 打开cloudera manager -> hdfs -> 配置 -> DataNode -> DataNode Default Group,添加新硬盘所挂载的目录,注意节点所在群: - 重启hdfs服务. hdfs数据平衡 在主节点(其它节点未测试)执行命令:sudo -u hdfs hdfs balancer. 集群时钟同步 - ntp服务端和外网同步:`sudo /etc/init.d/ntp…
书本第二章的一些知识点,在cloudera-quickstart-vm-5.8.0-0上进行操作. 配置文件 配置在/etc/hive/conf/hive-site.xml文件里面,采用mysql作为metastore."hive.metastore.warehouse.dir"这个属性没有在文件中进行配置,因此采用默认值/user/hive/warehouse作为Hive的默认路径. [cloudera@quickstart ~]$ hdfs dfs -ls /user/hive/w…
继上一篇文章介绍如何使用Pig处理HDFS上的数据,本文将介绍使用Apache Hive进行数据查询和处理. Apache Hive简介 首先Hive是一款数据仓库软件 使用HiveQL来结构化和查询存放的数据 执行环境:MapReduce, Tez, Spark 数据存放:HDFS, HBase 使用场景:数据挖掘和分析,机器学习,即席查询等 Hive使用示例 还是使用passwd作为操作文件 beeline> !quit [cloudera@quickstart ~]$ hdfs dfs -…
参考 Cloudera Enterprise 5.16.x Installing Cloudera Manager, CDH, and Managed Services Installation Path B - Manual Installation Using Cloudera Manager Packages 一. 环境 1.1 系统节点信息 Hostname IP CPU(cores) Memory(GB) OS Service Remark master 172.30.200.75 2…
Cloudera Impala 官方教程 <Impala Tutorial>,解说了Impala一些基本操作,但操作步骤前后缺少连贯性,本文节W选<Impala Tutorial>中的部分演示样例,从零開始解说了一个完整演示样例:创建表.载入数据.查询数据.提供了一个入门级教程,通过本文的操作,向Impala说"Hello World". 本文如果你已经具备了安装好的Impala环境,环境搭建能够參考: CDH5上安装Hive,HBase,Impala,Spar…