PolyBase--整合SQLServer和Hadoop
我们一直强调,大数据和传统的关系数据库并不对立,未来公司的的业务将会是大数据和关系型数据库的整合。微软的PolyBase打响了SQL Server和Hadoop整合的第一枪。
在2012年度的SQL Server(PASS)峰会(SQL Server专业人士的技术会议)上,微软公布了代码名为”PolyBase”的新功能。微软鲜明地阐述了未来大数据和传统的关系数据库的紧密联系。微软或许不是第一个试图整合关系型数据库和Hadoop的公司,但毫无疑问将会是最具冲击力的一个。
PolyBase 将于 2013 年上半年中发布,作为SQL 服务器 PDW 的下一个版本的一部分。PDW是SQL Server数据仓库的一体机。Polybase 允许使用SQL (结构化查询语言)直接查询存储在Hadoop的数据,甚至可以和本地的关系型的表进行join的操作(如下图所示)

PolyBase的吸引力在于它的两个特点
- 在第一阶段PolyBase支持使用SQL语言对HDFS进行查询, 第二阶段Polybase将引进基于成本的优化器。优化器基于性能分析,可以决定是否利用MapReduce进行查询或者直接使用SQL对HDFS进行查询. 请注意当前类SQL的Hadoop应用象Hive,Pig或着Sqoop都是依赖于MapReduce的分布式计算引擎来抽取数据。直接访问HDFS被认为具有更好的性能和效率。当然这只是总体而言,某些查询用MapReduce可能效率更高些,例如如果源数据的量太大的时候,不用MapReduce来抽取这些数据会导致读取端较大的负担。所以PolyBase必须有较好的优化器来决定最优的查询计划,这是PolyBase第二阶段主要工作
- 虽然PolyBase目前首先只在SQL Server PDW出现,但它极有可能也集成到下一个版本的 SQL Server里面.
整合SQL Server和Hadoop将给一些BI应用带来难以想象的广阔前景。试想一下你的报表和分析服务将会是一个数据源独立的应用,可以随心所欲地从Hadoop或者关系数据库里面抽取数据并搭建商业智能应用。商业智能的领域将会变得更广更实用。虽然微软没有正式承诺PolyBase除了PDW也会出现在下个版本的SQL Server里面,但我想不出微软不这么做的理由。在未来的企业里面,大数据将会和关系数据库整合在一起,成为企业数据系统的一部分。PolyBase已经迈出了第一步。
PolyBase--整合SQLServer和Hadoop的更多相关文章
- java整合spring和hadoop HDFS
http://blog.csdn.net/kokjuis/article/details/53586406 http://download.csdn.net/detail/kokjuis/970932 ...
- 搭建ganglia集群而且监视hadoop CDH4.6
前言 近期在研究云监控的相关工具,感觉ganglia颇有亮点,能从一个集群总体的角度来展现数据. 但是安装过程稍过复杂,相关依赖稍多,故写此文章与大家分享下. 本文不解说相关原理,若想了解请參考其它资 ...
- 零基础学习hadoop到上手工作线路指导(中级篇)
此篇是在零基础学习hadoop到上手工作线路指导(初级篇)的基础,一个继续总结. 五一假期:在写点内容,也算是总结.上面我们会了基本的编程,我们需要对hadoop有一个更深的理解: hadoop分为h ...
- 零基础学习hadoop到上手工作线路指导初级篇:hive及mapreduce
此篇是在零基础学习hadoop到上手工作线路指导(初级篇)的基础,一个继续总结.五一假期:在写点内容,也算是总结.上面我们会了基本的编程,我们需要对hadoop有一个更深的理解:hadoop分为h ...
- PolyBase 指南
PolyBase 是一种可通过 t-sql 语言访问数据库外部数据的技术.PolyBase is a technology that accesses data outside of the data ...
- Oozie-1-安装、配置 让Hadoop流动起来
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/wl101yjx/article/details/27881739 写在前面一: 本文总结 基于Had ...
- 浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案
作者 王枫发布于2014年2月19日 综述 随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个 ...
- 转:浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案
综述 随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个时代决胜未来的关键因素,而基于大数据的 ...
- 【转】Hive导入10G数据的测试
原博文出自于: http://blog.fens.me/hadoop-hive-10g/ 感谢! Hive导入10G数据的测试 让Hadoop跑在云端系列文章,介绍了如何整合虚拟化和Hadoop,让H ...
随机推荐
- Cmake实现样例
多目录工程的CmakeLists.txt编写(自动添加多目录下的文件) http://www.cnblogs.com/chengxuyuancc/p/5347646.html 实现类似于vs中工程的C ...
- 第二百二十四节,jQuery EasyUI,ComboGrid(数据表格下拉框)组件
jQuery EasyUI,ComboGrid(数据表格下拉框)组件 学习要点: 1.加载方式 2.属性列表 3.方法列表 本节课重点了解 EasyUI 中 ComboGrid(数据表格下拉框)组件的 ...
- 请谈谈对SOA的认识。
请谈谈对SOA的认识. 解答:面向服务的体系结构(Service-Oriented Architecture,SOA)是一个组件模型,它将应用程序的不同功能单元(称为服务)通过这些服务之间定义良好的接 ...
- Educational Codeforces Round 22 E. Army Creation 主席树 或 分块
http://codeforces.com/contest/813/problem/E 题目大意: 给出长度为n的数组和k, 大小是1e5级别. 要求在线询问区间[l, r]权值, 权值定义为对于 ...
- javascript基本语法和变量(转)
转载来自 阮一峰老师的文章,地址为:http://javascript.ruanyifeng.com/grammar/basic.html#toc0 1.1语句 JavaScript 程序的执行单位是 ...
- CKEDITOR 3.4.2中 按钮事件中 动态改变图标和title 获取按钮
this.uiItems[0].className="cke_button_hui_position_type";this.uiItems[0].title="zhang ...
- tomcat登录账户配置
tomcat7和tomcat6的用户信息配置有些不一样,tomcat7中添加了manager=gui和admin-gui角色,配置参考如下: 再 tomcat 文件夹的conf文件夹中的 tomcat ...
- tomcat的虚拟目录映射常用的几种方式
我们在项目部署的时候,可以采用多种方式,接下来我们将在实际中比较常用的几种方式总结如下. 1.可以直接将我们的项目丢到tomcat的webapps目录下,这样当tomcat重启的时候,我们就可以访 ...
- DHTML 简介
DHTML, 动态的 html, 不是一门语言, 是多项技术综合体的简称.其中包括了 html, CSS, DOM, javascript. HTML : 负责提供标签, 对数据进行封装,目的是便于对 ...
- 原!!关于java 单元测试Junit4和Mock的一些总结
最近项目有在写java代码的单元测试,然后在思考一个问题,为什么要写单元测试??单元测试写了有什么用??百度了一圈,如下: 软件质量最简单.最有效的保证: 是目标代码最清晰.最有效的文档: 可以优化目 ...