Apache Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供一种HQL语言进行查询,具有扩展性好.延展性好.高容错等特点,多应用于离线数仓建设. 1. Hive架构 存储:Hive底层存储依赖于hdfs,因此也支持hdfs所支持的数据存储格式,如text.json.parquet等.当我们将一个文件映射为Hive中一张表时,只需在建表的时告诉Hive,数据中的列名.列分隔符.行分隔符等,Hive就可以自动解析数据. 支持多种压缩格式:bzip2.g…