第1章 Hive入门】的更多相关文章

第1章 Hive入门 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能. 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层的实现是MapReduce 3)执行程序运行在Yarn上 1.2 Hive的优缺点 1.2.1 优点 1) 操作接口采用类SQL语法,提供快速开发的能力(简单.容易上手)…
第1章Java入门体验 1.java简介和平台应用 Java是sun公司开发出来,现在属于ORACLE公司java分为几个部分:首先是最基础的Java SE部分,这部分是Java的基础知识,主要包括:变量.语法.面向对象,API,JVM等等再Java SE基础之上分为两个部分.一个是开发企业级的服务,一个是嵌入式的开发Java EE是企业级的开发,主要包括:JSP.EJB.服务等等.Java ME是嵌入式的开发,主要有移动设备,游戏,通信等初学的基本路线都是从Java SE出发,先学基础,再学方…
传统的同步阻塞式I/O编程 基于NIO的非阻塞编程 基于NIO2.0的异步非阻塞(AIO)编程 为什么要使用NIO编程 为什么选择Netty 第二章 NIO 入门 2.1 传统的BIO编程 2.1.1 BIO 通信模型图 2.1.2 同步阻塞式I/O创建的TimeServer源码分析 package com.phei.netty.bio; import java.io.IOException; import java.net.ServerSocket; import java.net.Socke…
第三章 docker 入门 3.1 确保docker已经就绪 首先查看docker程序是否存在,功能是否正常 [#3#cloudsoar@cloudsoar-virtual-machine ~]$sudo docker info [sudo] password for cloudsoar: Containers: 11 Images: 16 Server Version: 1.9.1 Storage Driver: aufs Root Dir: /var/lib/docker/aufs Back…
查看企业公认的最新稳定版本:       https://archive.apache.org/dist/  Hive和HBase都很重要,当然啦,各自也有自己的替代品. 在公司里,SQL有局限,大部分时候,不需写mr程序的,用hive这个工具. 公司里的懂java开发员工不一定每个公司都有,但懂SQL开发员工很多. Hive的替代品:impala.spark shark.spark sql… Hive.impala .spark shark.spark sql l….相比,Hive是最慢的,因…
Hive入门(二) Hive入门(二) Hive的体系结构 ○ Hive的元数据 Hive将元数据存储在数据库中(metastore),支持mysql.derby.oracle等数据库,Hive默认是derby数据库 Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等 ○ HQL的执行过程 解释器.编译器.优化器完成HQL查询语句从词法分析.语法分析.编译.优化以及查询计划(Plan)的生成.生成的查询计划存储在HDFS中,并在随后有MapRed…
Hive入门(一) Hive入门(一) 什么是Hive? Hive是个数据仓库,数据仓库就是数据库,但又与一般意义上的数据库有点区别 实际上,Hive是构建在hadoop HDFS上的一个数据仓库. 什么又是数据仓库? 而数据仓库是一个面向主题的.集成的.不可更新的.随时间不变化的数据集合,它用于支持企业或组织的决策分析处理 面向主题,那么什么又是主题呢?主题就是指用户使用数据仓库决策时所关心的重点的方面,比如商品的推荐系统,那么这里我们所关心的主题就是商品的信息 数据仓库是个集成的数据库,也就…
第一章 MySQL入门篇 一.MySql简介 简言: 和SQL Server数据库相同,MySQl也是一个关系型数据库管理系统.由瑞典的MySQL AB公司开发,2008年被SUN公司收购,2009年,SUN公司被Oracle公司收购,因此两个主流数据库均为Oracle公司所有. 1.MySQL的版本 a)       社区版(Community):可自由下载而且完全免费,但官方不提供任何技术支持. b)       企业版(Enterprise):收费版本,由技术支持. 2.MySQL的优势…
第一章ETL入门 1.1 OLPT和数据仓库对比 普通的事务系统和商业智能系统(BI)有什么区别? 1个独立的普通事务系统也被称为在线事务处理系统(OLTP) 商业智能系统也常被称为决策支持系统(DSS) OLTP和BI数据库最大的区别在于处理的数据量. 对比 使用中BI系统也经常作为业务系统的一部分,预先处理好一部分数据提供给业务系统调用并展现. 1.2 ETL是什么 ETL是抽取.转换.加载的缩写.含义为从数据源抽取数据加工到数据仓库的一些操作的集合. 抽取:一般需要连接到不同的数据源 转换…
第 1 章 Zookeeper入门 1.1 概述 1.2 特点 1.3 数据结构 1.4 应用场景 统一命名服务 统一配置管理 统一集群管理 服务器动态上下线 软负载均衡 1.5 下载地址 第 1 章 Zookeeper入门 1.1 概述 Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务的 Apache 项目. Zookeeper 从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变…