简单的word-count操作: [root@master test-map]# head -10 The_Man_of_Property.txt    #先看看数据Preface“The Forsyte Saga” was the title originally destined for that part of it which is called “The Man of Property”; and to adopt it for the collected chronicles of…
一.组成 1.架构 源数据原本是存在dubby数据库,存在MySQL可以支持多个客户端 客户端.数据存储(HDFS).MR计算引擎 2.计算引擎的选择 MR引擎:基于磁盘,计算时间长,但一定能算出结果[一般用于计算周指标.月指标.年指标,一个任务3-5天] tez引擎:基于内存,计算时间快,如果宕机,数据直接丢掉[一般用于临时调试,但容易出现OOM] Spark引擎:既基于内存,也会落盘,居中[一般用于每天的定时任务] 二.与MySQL/Hbase的区别 hive               …
http://hugh-wangp.iteye.com/blog/1612268 http://blog.csdn.net/opensure/article/details/46537969 使用静态分区,创建分区表p_test: 在创建分区表之前需要去人参数是否如下: : jdbc:hive2:/> set hive.exec.dynamic.partition.mode; +------------------------------------------+--+ | set | +---…
安装 pip install fastapi[all] pip install unicorn 基本使用(不能同时支持,get, post方法等要分开写) from fastapi import FastAPI app = FastAPI() @app.get('/') # 点get就支持get请求 def read_root(): return {"hello":'world'} if __name__ == '__main__': import uvicorn uvicorn.ru…
一.前言 Hive默认计算引擎时MR,为了提高计算速度,我们可以改为Tez引擎.至于为什么提高了计算速度,可以参考下图: 用Hive直接编写MR程序,假设有四个有依赖关系的MR作业,上图中,绿色是Reduce Task,云状表示写屏蔽,需要将中间结果持久化写到HDFS. Tez可以将多个有依赖的作业转换为一个作业,这样只需写一次HDFS,且中间节点较少,从而大大提升作业的计算性能. 二.安装包准备 1)下载tez的依赖包:http://tez.apache.org 2)拷贝apache-tez-…
日前,全球权威咨询与服务机构Forrester发布了<The Forrester WaveTM: Cloud Data Warehouse, Q4 2018>报告.这是Forrester Wave首次发布关于云数仓解决方案(Cloud Data Warehouse,简称CDW)的测评.报告对云数仓的当前产品功能.产品路线和发展策略.市场表现等几个方面进行全面的评估,在产品能力排行榜中,阿里云力压微软排行第7. Forrester测评报告对CDW核心功能的评估主要从解决方案的多样性.数据集成.性…
第1章 Hive入门 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能. 本质是:将HQL转化成MapReduce程序 )Hive处理的数据存储在HDFS 2)Hive分析数据底层的实现是MapReduce 3)执行程序运行在Yarn上 1.2 Hive的优缺点 1.2.1 优点 操作接口采用类SQL语法,提供快速开发的能力(简单.容易上手). 避免…
随着移动互联网.云计算.物联网和大数据技术的广泛应用,现代社会已经迈入全新的大数据时代.数据的爆炸式增长以及价值的扩大化,将对企业未来的发展产生深远的影响,数据将成为企业的核心资产.如何处理大数据,挖掘大数据的价值,让大数据为企业的发展保驾护航,将是未来信息技术发展道路上关注的重点. 传统的数据处理方式通常是将数据导入至专门的数据分析工具中,这样会面临两个问题:1.如果源数据非常大时,往往数据的移动就要花费较长时间.2.传统的数据处理工具往往是单机模型,面对海量数据时,数据处理的时间也是一个很大…
一.概述 1.概念 分布式.可扩展.海量数据存储的NoSQL数据库 2.模型结构 (1)逻辑结构 store相当于某张表中的某个列族 (2)存储结构 (3)模型介绍 Name Space:相当于数据库,包含很多张表 Region:类似于表,定义表时只需要声明列族,不需要声明具体的列.[字段可以动态.按需指定] Row:每行数据按RowKey字典序存储,且只能根据RowKey检索 Column:由Column Family(列族)和Column Qualifier(列限定符,即列名,无需预先定义)…
一.简介 1.定义 分布式.可扩展.支持海量数据存储的NoSQL数据库 2.数据模型 2.1逻辑结构 2.2物理存储结构 2.3数据模型介绍 Name Space:相当于数据库,包含很多张表 Region:类似于表,定义表时只需要声明列族,不需要声明具体的列.[字段可以动态.按需指定] Row:每行数据按RowKey字典序存储,且只能根据RowKey检索 Column:由Column Family(列族)和Column Qualifier(列限定符,即列名,无需预先定义)进行限定,例如info:…