大数据时代的技术hive:hive介绍】的更多相关文章

我最近研究了hive的相关技术,有点心得,这里和大家分享下. 首先我们要知道hive到底是做什么的.下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. 2.Hive是建立在 Hadoop…
在上篇文章里,我列举了一个简单的hive操作实例,创建了一张表test,并且向这张表加载了数据,这些操作和关系数据库操作类似,我们常把hive和关系数据库进行比较,也正是因为hive很多知识点和关系数据库类似. 关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型.今天本文介绍hive的数据类型,数据模型以及文件存储格式.这些知识大家可以类比关系数据库的相关知识. 首先我要讲讲hive的数据类型. Hive支持两种数据类型,一类叫原子数据类…
Vxlan(virtual Extensible LAN)虚拟可扩展局域网,是一种Overlay方式的网络技术,采用了mac in UDP的方式 进行封装,共50字节的报头.该技术的目标是解决虚拟机在数据中心内部的漂移及网络灵活扩展问题. 图 LISP.OTV.VXLAN完美组合                                 左边的NSX是VMware的网络虚拟化产品,其内部封装了VXLAN技术 VXLAN在数据中心内部实现了灵活的扩展,跨子网的二层主机漂移成为了可行 OTV解…
数据中心存储演化——FCoE   数据中心三大基础:主机 网络 存储 在云计算推动下,存储基础架构在发生演变 传统存储结构DAS.SAN在发展中遇到了布线复杂.能耗增多的缺点(原生性),需要对架构做根本的改变. FCoE是业界无可争议的演化方向,下面重点介绍技术的由来和原理,并从本质上解释为何FCoE是公认的唯一演化方向.       图 FC vs 以太网 vs FCoE 演化路线   2x的演进速度让FC逐渐掉队,未来的存储网络将逐步过渡到以太网架构上     图 传统数据中心存储架构 vs…
VOQ机制 本章介绍的VOQ是一种新型的QoS机制,目的是为了解决著名的交换机HoL难题. 但VOQ强烈依赖于调度算法,例如,一个48口的交换机,每个端口都要维护48-1个FIFO缓存队列, 一共48x47=2256个缓存队列,这一方面对交换机的硬件条件提出了较高要求,也对如何设计良好 的转发包调度算法提出了巨大的挑战,目前仅有Cisco一家推出了商用产品,足见其复杂程度. 学习一下VOQ方案的解决问题的思路,还是有助于我们更深入的了解交换机的内部运作机制. 图 HoL问题的由来 这个过程简单描…
软件定义网络——SDN SDN是网络技术热点,即软件定义网络,OpenFlow是实现SDN思想的一个框架标准, open是指公开.开放,具体为控制平面的规则由各个通信厂家自定义变为公开的技术标准, flow是流,把所有数据流量按照流的定义进行分类,每个流由一个六元组精确描述,这一 技术的目标是构建下一代网络通信模型,属于基础架构模式上的变革. SDN的本质是开放思维模式,即把复杂的网络管理控制策略用软件定义的方式,使之具备开放性. 灵活性,也可改变当下运维成本越来越高的情况. 图 SDN架构体系…
相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础软件的安装 CentOS6安装各种大数据软件 第四章:Hadoop分布式集群配置 CentOS6安装各种大数据软件 第五章:Kafka集群的配置 CentOS6安装各种大数据软件 第六章:HBase分布式集群的配置 CentOS6安装各种大数据软件 第七章:Flume安装与配置 CentOS6安装各…
一直觉得“大数据”这个名词离我很近,却又很遥远.最近不管是微博上,还是各种技术博客.论坛,碎碎念大数据概念的不胜枚举. 在我的理解里,从概念理解上来讲,大数据的目的在于更好的数据分析,否则如此大数据的存储便没有这么大的意义了.至于从技术上, 恰好之前在<淘宝技术这十年>的引言部分,读到一篇小文,觉得放在这个大数据的讨论下,也还很贴切: “据不可靠消息,在双十一当天高峰,淘宝的访问流量最巅峰达到871GB/S.这个数字意味着需要178万个4Mb带宽的家庭宽带才能负担的起, 也完全有能力拖垮一个中…
蒲公英 · JELLY技术期刊 Vol.42 这是一个最好的时代,多样化的平台给了所有人成长发展的机会,各种需求和解决需求的人让人大开眼界:但这也并不是完美的时代,"前端还需要懂什么算法?"."中国人不需要隐私!!"."写个 PPT 还需要耗费时间?"--言路畅通也带来很多无畏的恶意,但天光台高未百尺,下眺林岭如屏帷,当我们站得足够高时,原本的知见障就不再是一个问题. 就好像 Trekhleb 的 JS 算法课:保护隐私也并不是用户在孤军奋战,同…
中国大数据技术大会(BDTC)的前身是Hadoop中国云计算大会(HadoopinChina,HiC).从2008年仅60余人参加的技术沙龙发展到当下数千人的技术盛宴,目前已成为国内最具影响力.规模最大的大数据领域技术盛会.中国大数据技术大会(BDTC)作为极具实战价值的专业交流平台,中国大数据技术大会已经成为国内外中高级技术精英最期待的深度分享会. 2016中国大数据技术大会将于12月8日-10日在北京举行,大会为期三天,聚焦行业最佳实践,数据与应用的深度融合,关注热门技术在行业中的实践和应用…