Hadoop详解(04)-Hdfs】的更多相关文章

Hadoop详解(04)-Hdfs HDFS概述 HDFS产出背景及定义 背景:随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统.HDFS只是分布式文件管理系统中的一种. 定义:HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件:其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务…
Hadoop详解(07) - Hdfs数据压缩 概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数.压缩提高了网络带宽和磁盘空间的效率.在运行MR程序时,I/O操作.网络数据传输. Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要. 鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源.最小化磁盘I/O和网络传输非常有帮助.可以在任意MapReduce阶段启用压缩.不过,尽管压缩与解压操作的CPU开销不…
类别    [随笔分类]Spark Spark详解(04) - Spark项目开发环境搭建 Spark Shell仅在测试和验证程序时使用的较多,在生产环境中,通常会在IDEA中编制程序,然后打成Jar包,提交到集群,最常用的是创建一个Maven项目,利用Maven来管理Jar包的依赖. 新建项目 在idea中file - new project,选择Maven 填写gid和aid 下一步点击next 选择项目名以及项目源码储存路径,点击Finish 创建完成后会自动打开pom.xml页面 配置…
kafka详解(04) - kafka监控 可视化工具 Kafka监控Eagle 1)修改kafka启动命令 修改kafka-server-start.sh命令中 if [ "x$KAFKA_HEAP_OPTS" = "x" ]; then export KAFKA_HEAP_OPTS="-Xmx1G -Xms1G" fi 为 if [ "x$KAFKA_HEAP_OPTS" = "x" ]; then #…
HBase详解(04) - HBase Java API使用 环境准备 新建Maven项目,在pom.xml中添加依赖 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>2.0.5</version> </dependency> <dependency> &l…
Hive详解(04) - hive函数的使用 系统内置函数 查看系统自带的函数 hive> show functions; 显示自带的函数的用法 hive> desc function upper; 详细显示自带的函数的用法 hive> desc function extended upper; 常用内置函数 空字段赋值 函数说明:NVL:给值为NULL的数据赋值,它的格式是NVL( value,default_value).它的功能是如果value为NULL,则NVL函数返回defau…
Hadoop详解(10) - Hadoop HA高可用 HA概述 HA(High Availablity),即高可用(7*24小时不中断服务). 实现高可用最关键的策略是消除单点故障.HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA. Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF). NameNode主要在以下两个方面影响HDFS集群 NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启 NameNode机器需要升级,包括软…
Hadoop详解(09) - Hadoop新特性 Hadoop2.x新特性 远程主机之间的文件复制 scp实现两个远程主机之间的文件复制 推 push:scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt 拉 pull:scp -r root@hadoop103:/user/atguigu/hello.txt hello.txt 是通过本地主机: 通过本地主机中转实现两个远程主机的文件复制:如果在两个远程主机之间ssh没有配置的情况下可以…
Hadoop详解(08) - Hadoop企业优化方案.docx MapReduce优化 MapReduce 跑的慢的原因 计算机性能:CPU.内存.磁盘健康.网络 I/O 操作优化 (1)数据倾斜 (2)Map和Reduce的Task数设置不合理 (3)Map运行时间太长,导致Reduce等待过久 (4)小文件过多 (5)大量的不可切片的超大压缩文件 (6)Spill次数过多 (7)Merge次数过多等. MapReduce优化方法 MapReduce优化方法主要可以从六个方面考虑:数据输入.…
Hadoop详解(06) - Yarn平台架构和资源调度器 Yarn平台架构 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序. Yarn基本架构 YARN主要由ResourceManager.NodeManager.ApplicationMaster和Container等组件构成. Yarn工作机制 (1)MR程序提交到客户端所在的节点. (2)YarnRunner向Resource…