Hadoop生态圈-使用FreeIPA安装Kerberos和LDAP 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 有些大数据平台只是简单地通过防火墙来解决他们的网络安全问题.十分不信的的是,防火墙有一个假设的前提,它总假设“破坏者”都来自于外部,这通常是一个非常糟糕的假设.大多数真正具有破坏性的计算机犯罪事件都是由内部人员进行的.防火墙也有一个明显的缺点,因为它们限制了用户使用Internet的方式.(毕竟,防火墙只是一个不那么极端的例子,没有什么比没有连接到网络的计算机更…
Hadoop生态圈-开启Ambari的Kerberos安全选项 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 在完成IPA-Server服务的安装之后,我们已经了解了他提供的基础功能和服务,领略了其Web控制台和CLI接口的便利性,但是这写特性好像并没有提示平台的安全性啊.别着急,因为IPA-Server只是提供了诸如LDAP和Kerberos等重要的基础设施,只有将IPA于Ambari进行集成才能完全显示处它的神威.关于部署IPA-Server的部署可参考我之前的笔记:“使…
Hadoop生态圈-hbase介绍-伪分布式安装 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HBase简介 HBase是一个分布式的,持久的,强一致性的存储系统,具有近似最优的写性能(能使I/O利用率达到饱和)进而出色的读性能,它充分利用了磁盘空间,支持特定列族切换可选压缩算法. HBase继承自谷歌公司的 BigTable模型,只考虑单一的索引,类似于RDBMS的主键,提供了服务器端钩子,可以实施灵活的辅助索引解决方案.此外,它还提供了过滤器功能,减少了网络传输的数…
Hadoop生态圈-Knox网关的应用案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Knox网关简介 据Knox官网所述(http://knox.apache.org/):Apache Knox Gateway是用于与Apache Hadoop部署的RESTAPI和UI交互的应用程序网关.Knox Gateway为与Apache Hadoop集群的所有REST和HTTP交互提供一个单一的访问点.KNOX提供三组面向用户的服务: 代理服务:Apache Knox项目的…
Hadoop生态圈-构建企业级平台安全方案 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 能看到这篇文章的小伙伴,估计你对大数据集群的部署对于你来说应该是手到擒来了吧.我之前分享过关于“离线方式部署Cloudera Manager5.15.1”和“离线方式部署Ambari2.6.0.0”的笔记.不管你的集群是使用CDH还是HDP亦或是使用的Apache Hadoop部署的,但是这样一套出事状态的服务只能被成为学习或者实验环境,他们还不足以担当起企业级大数据平台的重任.为什么这…
原文地址:大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍   1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储. 具有可靠.高效.可伸缩的特点. Hadoop的核心是YARN,HDFS和Mapreduce 下图是hadoop生态系统,集成spark生态圈.在未来一段时间内,hadoop将于spark共存,hadoop与spark 都能…
1.Hadoop是什么? 适合大数据的分布式存储与计算平台 HDFS: Hadoop Distributed File System分布式文件系统 MapReduce:并行计算框架 解决的问题: HDFS: 海量数据的存储 MapReduce:海量数据的分析 2.Hadoop生态圈 ①HBase Google Bigtable的开源实现 列式数据库 可集群化 可以使用shell.web.api等多种方式访问 适合高读写(insert)的场景 HQL查询语言 NoSQL的典型代表产品 ②Hive…
Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储. 具有可靠.高效.可伸缩的特点. Hadoop的核心是YARN,HDFS和Mapreduce 下图是hadoop生态系统,集成spark生态圈.在未来一段时间内,hadoop将于spark共存,hadoop与…
1.Hadoop是什么? 适合大数据的分布式存储与计算平台 HDFS: Hadoop Distributed File System分布式文件系统 MapReduce:并行计算框架 解决的问题: HDFS: 海量数据的存储 MapReduce:海量数据的分析 2.Hadoop生态圈 ①HBase Google Bigtable的开源实现 列式数据库 可集群化 可以使用shell.web.api等多种方式访问 适合高读写(insert)的场景 HQL查询语言 NoSQL的典型代表产品 ②Hive…
使用Hive转换.装载数据 1. Hive简介 (1)Hive是什么         Hive是一个数据仓库软件,使用SQL读.写.管理分布式存储上的大数据集.它建立在Hadoop之上,具有以下功能和特点: 通过SQL方便地访问数据,适合执行ETL.报表.数据分析等数据仓库任务. 提供一种机制,给各种各样的数据格式加上结构. 直接访问HDFS的文件,或者访问如HBase的其它数据存储. 可以通过MapReduce.Spark或Tez等多种计算框架执行查询.         Hive提供标准的SQ…