Azure平台提供了几乎全线产品的API,可以使用第三方工具来进行管理.对于.NET更是提供封装好了的库方便使用C#等语言实现Azure的管理. 我们使用创建HDInsight集群为例来介绍使用C#管理Azure. 由于HDInsight是按照集群存在的小时收费,所以对于集群的使用都是使用时创建,使用完成立马删除.删除比较好说,Azure Portal点一下按钮并确认就可以了.而创建就需要我们一步步的进行选择.如果我们需要定制集群的属性较多,一步步的选择不但麻烦还容易出错.而使用Azure Ma…
系列目录 写在前面 从Hadoop出现至今,大数据几乎就是Java平台专属一般.虽然Hadoop或Spark也提供了接口可以与其他语言一起使用,但作为基于JVM运行的框架,Java系语言有着天生优势.而且能找到的与大数据框架如Hadoop等使用介绍的文章也都以Java语言作为示例居多.许多C#er为了转投大数据怀抱也开始学习Java.微软为了拥抱大数据在这方面也做了许多,提供了一些工具及库使C#可以更好的与Hadoop等协同工作.本系列中我们一同学习如何以我们熟悉语言来使用Hadoop等大数据平…
准备主机 准备3台主机,名称作用如下: 昵称 Fully Qualified Domain Name IP 作用 Ubuntu-Parrot head1.parrot 192.168.9.126 Ambari控制中心,头结点(辅助) Ubuntu-Laiothrix head0.parrot 192.168.9.127 头节点(主) Ubuntu-Siskin data0.parrot 192.168.9.128 数据节点 使用hostname <fully.qualified.domain.n…
在进行HDInsight的开发测试之前,搭建一个测试环境是很重要的. 由于微软与Hortonworks合作开发了HDInsgiht,如果不方便建立Azure账号使用Azure HDInsight进行开发测试(土豪可以直接选择使用Azure,的确很方便,不过HDInsight按分钟计费,走的都是真金白银),我们可以选择使用Hortonworks HDP作为本地开发测试环境.Hortonworks很人性化的提供了HDP SandBox方便本地测试环境的搭建,所提供的SandBox有三种格式,分别为V…
Hadoop集群搭建 把环境全部准备好,包括编程环境. JDK安装 版本要求: 强烈建议使用64位的JDK版本,这样的优势在于JVM的能够访问到的最大内存就不受限制,基于后期可能会学习到Spark技术,所以建议在搭建系统环境的时候把JDK的版本安装为64位. 如果已经安装,在你不确定安装的版本情况下,可以使用如下方式查看:快捷键WIN+R,调出DOS窗口,然后输入java –version就可以了,如图所示: IDEAK编程工具安装 破解工具:IDEAKeyTool.jar 使用的方法:打开DO…
当今许多企业都有着技术架构的DataOps程度不够.二次开发成本高.迁移成本高.集群部署混乱等情况,团队在技术选型之后发现并不适合自己的需求,但是迁移成本和难度又比较大,甚至前团队还留下了不少坑,企业自有的开发能力又比较有限,导致后面的小伙伴上手难度高体验差. 俗话说"工具选得好,下班回家早:调度用得对,半夜安心睡",面对各种难点和痛点: 如何有效地评估数据调度工具? 如何平滑的过渡到Apache DolphinScheduler? 如何稳定高效的对已有的工具升级改造? 这几个问题是改…
引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭…
Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用.目前越来越多的开源分布式处理系统如Cloudera.Apache Storm.Spark都支持与Kafka集成. 1.下载Kafka并安装 1)下载Apache版本的Kafka. 2)下载Cloudera版本的Kafka. 3)这里选择下载Apache版本的kafka_2.11-0.8.2.1.tgz ,然后上传至bigdata-pro01.kfk.com节点/opt/softwa…
HBase是一个高可靠.高性能.面向列.可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建 大规模结构化存储集群. HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似, HBase 利用Hadoop HDFS 作为其文件存储系统:Google 运行MapReduce 来处理Bigtable中的海量数据, HBase 同样利用Hadoop MapReduce来处理HBase中的海量数据:Google…
ZooKeeper 是一个针对大型分布式系统的可靠协调系统:它提供的功能包括:配置维护.名字服务.分布式同步.组服务等: 它的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效.功能稳定的系统提供给用户: ZooKeeper 已经成为 Hadoop 生态系统中的基础组件. Zookeeper可以选择Apache版本,也可以选择Cloudera版本. 1)下载Apache版本的Zookeeper. 2)下载Cloudera版本的Zookeeper. 1.下载Zookeeper 这里选择…