SQL on Hadoop系统的最新进展(1)】的更多相关文章

转自:http://blog.jobbole.com/47892/ 为什么非要把SQL放到Hadoop上? SQL易于使用.那为什么非得基于Hadoop呢?the robust and scalable architecture of Hadoop 目前SQL on Hadoop产品主要有以下几种:Hive, Tez/Stinger, Impala, Shark/Spark, Phoenix, Hawq/Greenplum, HadoopDB, Citusdata等.本文主要讨论Hive, Te…
转载声明 本文转载自盘点SQL on Hadoop中用到的主要技术,个人觉得该文章对于诸如Impala这样的MPP架构的SQL引擎和Runtime Framework架构的Hive/Spark SQL进行对比,感觉总结的特别好,并且和本人最近的公司相近,学习转载之. 自hive出现之后,经过几年的发展,SQL on Hadoop相关的系统已经百花齐放,速度越来越快,功能也越来越齐全.本文并不是要去比较所谓“交互式查询哪家强”,而是试图梳理出一个统一的视角,来看看各家系统有哪些技术上相通之处. 考…
转载自:http://sunyi514.github.io/2014/11/15/%E7%9B%98%E7%82%B9sql-on-hadoop%E4%B8%AD%E7%94%A8%E5%88%B0%E7%9A%84%E4%B8%BB%E8%A6%81%E6%8A%80%E6%9C%AF/ 自打Hive出现之后,经过几年的发展,SQL on Hadoop相关的系统已经百花齐放,速度越来越快,功能也越来越齐全.本文并不是要去比较所谓“交互式查询哪家强”,而是试图梳理出一个统一的视角,来看看各家系统…
一.系统架构 runtime framework v.s. mpp 在SQL on Hadoop系统中,有两种架构: 1.一种是基于某个运行时框架来构建查询引擎,典型案例是Hive: 2.另一种是仿照过去关系数据库的MPP架构,就是参考过去的MPP数据库架构打造一个专门的系统,于是就有了Impala,Presto等等. 前者现有运行时框架,然后套上sql层,后者则是从头打造一个一体化的查询引擎. 对于SQL on Hadoop系统很重要的一个评价指标就是:快. DAG v.s. MR:最主要的优…
作者:Mars Lan, Seyi Adebajo, Shirshanka Das 译者: DataPiepline yaran 作为全球最大的职场社交平台,LinkedIn的数据团队不断致力于扩展其基础架构,以满足不断增长的大数据生态系统需求.随着数据量和丰富度的增长,对数据科学家和工程师而言:发现数据资产,理解它们的来源并基于这些见解采取适当的行动变得愈发具有挑战. 为了在数据增长的同时继续扩展数据的生产力和创新力,我们创建了一个通用的元数据搜索和发现工具Data Hub. 一.扩展元数据…
一.Hadoop系统架构图 Hadoop1.0与hadoop2.0架构对比图 YARN架构: ResourceManager –处理客户端请求 –启动/监控ApplicationMaster –监控NodeManager –资源分配与调度 NodeManager –单个节点上的资源管理 –处理来自ResourceManager的命令 –处理来自ApplicationMaster的命令 ApplicationMaster –数据切分 –为应用程序申请资源,并分配给内部任务 –任务监控与容错   Y…
Hive是一个基于HDFS的数据仓库软件,可理解为数据库管理工具:Hive的功能主要有: 1. 支持使用SQL对分布式存储的大型数据集进行读.写.管理,将SQL转化成MapReduce任务执行: 2. 将数据结构映射到已存储的数据中,即将存储在HDFS上结构化的文件内容定义成Hive的外部表. 3. Hive提供了命令行的操作工具和JDBC的开发接口. 我们知道HBase也是基于HDFS的数据库,两者之间有何异同点呢?简言之,Hive和HBase都是Hadoop集群下的工具(bi),Hive是对…
转自:http://blog.jobbole.com/86710/ 这是一组系列博文,目的是详尽介绍 SQL-on-Hadoop .本系列的第一篇会介绍 Hadoop 系统的存储引擎和在线事务处理(简称 OLTP ):第二篇将介绍在线分析处理(简称 OLAP ):第三篇将介绍对 Hadoop 引擎的改进以及在相关替代产品中如何选型等话题. SQL on Hadoop 是一个既令人兴奋又令人困扰的话题: 几乎每周都有一个新的 SQL on Hadoop 支持项目似乎抓住过社区注意力,哪怕只是一个短…
在这个阴雨绵绵的下午,没有睡午觉的我带着一双惺忪的眼睛坐在了电脑前,泡上清茶,摸摸已是略显油光的额头(笑cry),,奋斗啊啊啊啊!!%>_<% 1.课程回顾. 1.1 Hadoop系统运行的软件系统:Linux操作系统(小红帽或Ubuntu).SSH(Secure Shell主要用于远程管理Hadoop节点以及Hadoop节点间的安全共享访问).Java 这里主要多说一点SSH,它是一种网络协议,用于计算机之间的加密登陆,如一个用户从本地计算机通过SSH协议登录一台远程计算机.详情请见[1].…
转自原文 R-Tree空间索引算法的研究历程和最新进展分析,2008 摘要:本文介绍了空间索引的概念.R-Tree数据结构和R-Tree空间索引的算法描述,并从R-Tree索引技术的优缺点对R-Tree的改进结构——变种R-Tree进行了论述.最后,对R-Tree的最新研究进展进行了分析. 关键词:空间索引技术:R-Tree:研究历程:最新进展 当前数据搜索的一个关键问题是速度.提高速度的核心技术是空间索引.空间索引是由空间位置到空间对象的映射关系.当前的一些大型数据库都有空间索引能力,像Ora…