Hadoop详解(06) - Yarn平台架构和资源调度器 Yarn平台架构 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序. Yarn基本架构 YARN主要由ResourceManager.NodeManager.ApplicationMaster和Container等组件构成. Yarn工作机制 (1)MR程序提交到客户端所在的节点. (2)YarnRunner向Resource…
Hadoop详解(04)-Hdfs HDFS概述 HDFS产出背景及定义 背景:随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统.HDFS只是分布式文件管理系统中的一种. 定义:HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件:其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务…
Hadoop详解(02)Hadoop集群运行环境搭建 虚拟机环境准备 虚拟机节点数:3台 操作系统版本:CentOS-7.6-x86-1810 虚拟机 内存4G,硬盘99G IP地址分配 192.168.194.102 hadoop102 192.168.194.103 hadoop103 192.168.194.104 hadoop104 安装必要环境 yum install -y epel-release yum install -y psmisc nc net-tools rsync vi…
Hadoop详解(01)概论 概念 大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产.主要解决,海量数据的存储和海量数据的分析计算问题.截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB.当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级. 数据存储单位:bit.Byte.KB…
Spark详解(06) - SparkSQL Spark SQL概述 什么是Spark SQL Spark SQL是Spark用于结构化数据(Structured Data)处理的Spark模块. (1)半结构化数据(日志数据): 001    zhangsan     18 (2)结构化数据(数据库数据): id name age 001 zhangsan 18 为什么要有Spark SQL Hive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎…
Hadoop详解(10) - Hadoop HA高可用 HA概述 HA(High Availablity),即高可用(7*24小时不中断服务). 实现高可用最关键的策略是消除单点故障.HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA. Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF). NameNode主要在以下两个方面影响HDFS集群 NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启 NameNode机器需要升级,包括软…
Hadoop详解(09) - Hadoop新特性 Hadoop2.x新特性 远程主机之间的文件复制 scp实现两个远程主机之间的文件复制 推 push:scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt 拉 pull:scp -r root@hadoop103:/user/atguigu/hello.txt hello.txt 是通过本地主机: 通过本地主机中转实现两个远程主机的文件复制:如果在两个远程主机之间ssh没有配置的情况下可以…
Hadoop详解(04-1) - 基于hadoop3.1.3配置Windows10本地开发运行环境 环境准备 安装jdk环境 安装idea 配置maven 搭建好的hadoop集群 配置hadoop 解压hadoopo 将hadoop压缩包hadoop-3.1.3.tar.gz解压到本地任意目录 拷贝Windows依赖到本地目录 Hadoop的Windows依赖说明 hadoop在windows上运行需要winutils支持和hadoop.dll等文件,hadoop主要基于linux编写,had…
Hadoop详解(03)-Hadoop编译源码-了解 准备工作 CentOS联网 配置CentOS能连接外网.Linux虚拟机ping www.baidu.com 是畅通的 jar包准备(hadoop源码.JDK8.maven.ant .protobuf) (1)hadoop-3.1.3-src.tar.gz (2)jdk-8u212-linux-x64.tar.gz (3)apache-maven-3.6.3-bin.tar.gz (4)protobuf-2.5.0.tar.gz(序列化的框架…
Hive详解(06) - Hive调优实战 执行计划(Explain) 基本语法 EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query 案例实操 (1)查看下面这条语句的执行计划 没有生成MR任务的 hive (default)> explain select * from emp; Explain STAGE DEPENDENCIES: Stage-0 is a root stage STAGE PLANS: Stage: Stage-0…