互联网大规模数据分析技术(自主模式)第五章 大数据平台与技术 第10讲 大数据处理平台Hadoop
大规模的数据计算对于数据挖掘领域当中的作用。两大主要挑战:第一、如何实现分布式的计算 第二、分布式并行编程。Hadoop平台以及Map-reduce的编程方式解决了上面的几个问题。这是谷歌的一个最基本的计算模式,并且对于大规模数据的分析和处理是一种非常有效的方法。以下四个方面了解大数据处理平台Hadoop。
谷歌的解决方案
第一、我们需要计算节点去组成集群。这些点组成集群之后我们是通过网络将这些点连接到一起,从而完成计算和数据的分发。
在这样一种集群式的架构当中,我们是通过switch(交换机)将它们连接到一起。1Gbps,这里的网速要求是非常高的。通过高速的网络将计算机连接在一起完成数据的分发和任务的分配。
多个计算机连接到一起需要多个交换机实现互联。在主干网上对网速的要求会达到更高(网速达到2-10Gbps),也就是说当CPU完成高速运算之后我们要把结果及时和其他的CPU或者是计算机来进行交互。这必然需要高速的网络来帮助我们完成。2011年,我们估计谷歌已经有100万台以上的计算节点来完成大规模的数据分析。
大规模的计算当中,我们需要把数据分发出去,把任务分发出去,最终再把最终的结果和数据收集起来完成我们的计算。
所以在大规模的数据计算当中,我们需要有一定的硬件条件,这样的硬件条件保证了我们能够完成分布式的计算,保证了计算在出现问题或者是机器在出现问题的时候能够快速的恢复。
理想的解决方案是什么?
要把数据在网络当中进行传播。在传播数据的时候虽然是借助了高速的网络仍然会花一定的时间。解决方案当中就是要把数据和计算任务进行一个local,也就是说局部化的处理。将这台计算机要完成的任务和它所需要的数据放到一起,从而达到快速计算的目的。谷歌提出的Map-reduce这样一种编程模式,解决了上面的问题,能够很好地进行大规模的数据分析。在这样一个大规模的数据分析当中,除了有编程模式Map-Reduce,我们还需要一个文件系统来存储我们的数据,帮助我们的编程模式完成计算。
Hadoop这样一个开源的平台集成了这样一些元素来实现我们的运算。Hadoop的运行是使用的Map-reduce这样一种编程的思想,其次Map-reduce允许大规模的数据分析在不同的计算的集群当中,去传递数据和分发任务。所以这样地完成了我们分布式的处理。
Hadoop的Common主要是一些Java的库,
Hadoop这样一个开源平台是以java语言为主的。
Hadoop的YARN这样一个调度平台,所谓的调度是进行资源的分配和数据分发。
在调度上面需要建立Hadoop的分布式文件系统,简称:HDFS
当所有这些元器件被组之后我们能够在上面完成分布式的编程。
分布式文件系统的工作主要由一些块数据的服务器来组成,每一个大的文件被分解成若干个块儿,而一般来说我们会把这些块分成16到64MB。每一个数据块必须要被重复也就是做备份。被重复多少个呢?一般是2个到3个来进行备份。这个备份不是在一台计算机上去做多个数据的备份,是要在不同的计算机节点上面去备份这样一个数据。
在分布式文件系统当中,有一个Master节点,或者是Hadoop当中我们把它叫做Name Node,它能够存储文件的一些信息,从而知道文件存在哪里,有几个备份。这个Master节点就起到一个中央控制的作用。我们还有一些客户端的节点,客户端的节点就通过和master节点呢进行数据交互完成数据的存储和分发以及任务的传送。
我们分布式文件系统的思想:数据做多个备份,但是备份到不同的电脑上面。
Hadoop由1.0到2.0,多了YARN这样一个调度平台。除了Map-reduce编程模式之外,还可以接入其他的数据分析的编程框架。
整个Hadoop的生态系统
在一些大规模数据分析的平台上去进行实战和实例的演示的话,可以选择开源平台Hadoop。也有不开源项目:谷歌内部平台以及Asta Data这样一个集群的、结构化的查询语言的数据库。同样Asta Data也实行了Map-reduce的编程。
同时和大数据平台比较相似的或者是相辅相成的还有我们云计算的平台。在云计算的平台当中,大家可以利用这些云计算的平台按照什么来租用呢?按照小时可以租用这些计算资源来完成大规模数据分析的处理。你只要把数据交给云平台,云平台按小时计费帮助你们完成数据分析。你不用去搭建、管理、维护平台,这是云计算的一些概念。
互联网大规模数据分析技术(自主模式)第五章 大数据平台与技术 第10讲 大数据处理平台Hadoop的更多相关文章
- 大数据征信的应用和启示:ZestFinance的基于大数据的信用评估技术
http://www.d1net.com/bigdata/news/325426.html 2014年11月,本文作者有机会和ZestFinance的创始人和首席执行官梅里尔(Douglas C.Me ...
- < 利用Python进行数据分析 - 第2版 > 第五章 pandas入门 读书笔记
<利用Python进行数据分析·第2版>第五章 pandas入门--基础对象.操作.规则 python引用.浅拷贝.深拷贝 / 视图.副本 视图=引用 副本=浅拷贝/深拷贝 浅拷贝/深拷贝 ...
- 民生银行十五年的数据体系建设,深入解读阿拉丁大数据生态圈、人人BI 是如何养成的?【转】
早在今年的上半年我应邀参加了由 Smartbi 主办的一个小型数据分析交流活动,在活动现场第一次了解到了民生银行的阿拉丁项目.由于时间关系,嘉宾现场分享的内容非常有限.凭着多年对行业研究和对解决方案的 ...
- 大数据时代的技术hive:hive介绍
我最近研究了hive的相关技术,有点心得,这里和大家分享下. 首先我们要知道hive到底是做什么的.下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将 ...
- 大数据时代的技术hive:hive的数据类型和数据模型
在上篇文章里,我列举了一个简单的hive操作实例,创建了一张表test,并且向这张表加载了数据,这些操作和关系数据库操作类似,我们常把hive和关系数据库进行比较,也正是因为hive很多知识点和关系数 ...
- 大数据项目相关技术栈(Hadoop周边技术)
J2EE 框架Spring 开发框架 + SSH or SSM Lucene 索引和查询IKAnalyzer 分词Webmagic 爬虫 ETL工具:KettleSqoop 结构化数据库-hadoop ...
- hadoop大数据基础框架技术详解
一.什么是大数据 进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB ...
- 云计算和大数据时代网络技术揭秘(十三)VXLAN
Vxlan(virtual Extensible LAN)虚拟可扩展局域网,是一种Overlay方式的网络技术,采用了mac in UDP的方式 进行封装,共50字节的报头.该技术的目标是解决虚拟机在 ...
- 【MySQL】MySQL中针对大数据量常用技术_创建索引+缓存配置+分库分表+子查询优化(转载)
原文地址:http://blog.csdn.net/zwan0518/article/details/11972853 目录(?)[-] 一查询优化 1创建索引 2缓存的配置 3slow_query_ ...
随机推荐
- kong k8s 安装 以及可视化管理界面
1. git clone $ git clone git@github.com:Mashape/kong-dist-kubernetes.git $ cd kong-dist-kubernetes ...
- php mysql 字符集(三) (转)
http://bbs.csdn.net/topics/390097514 gbk页面插入数据到utf8表,然后取出到gbk页面 首先, 这个set names x等价于SET character_se ...
- 学习 Git 玩转 GitHub
原文地址:学习 Git 玩转 GitHub 博客地址:http://www.extlight.com 一.基本了解 1.1 什么是版本控制系统 版本控制系统是一种记录一个或若干个文件内容变化,以便将来 ...
- dwr的A request has been denied as a potential CSRF attack.错误
虽然DWR是个很早就出现的Ajax框架,但一直都没去使用过,今天正好没事就看了一下并参照文档照做了个demo, 在其中碰到一个问题: 后台打印出错误信息:“严重: A request has been ...
- 1.Python3关于文件的操作
1.写了一个简单的Demo,就是向txt文本写入内容,最初代码如下: file = open("D:/Users/nancy/python.txt","wb") ...
- 让C# Excel导入导出,支持不同版本的Office(转)
问题:最近在项目中遇到,不同客户机安装不同Office版本,在导出Excel时,发生错误. 找不到Excel Com组件,错误信息如下. 未能加载文件或程序集“Microsoft.Office.Int ...
- 【转】使用JMeter做性能测试的心得
企业应用开发过程中,性能测试是很重要的一个环节,在这个环节中Apache的JMeter以它开源.100%纯Java.操作方便等优点发挥着很大的作用. 经过一段时间的使用,多少有些心得和技巧,拿出来共享 ...
- NGUI的UIPanel、UIButton、AtlasMaker、Widget、Anchor、Tween、RectTransform
全文请看:http://note.youdao.com/noteshare?id=f7b476be35ec554e311bc13ef60b62ef
- 继承String?
不能继承,因为 public final class String extends Objectimplements Serializable, Comparable<String>, C ...
- FastClick
处理移动端click事件300毫秒延迟.FastClick 是一个简单,易于使用的js库用于消除在移动浏览器上触发click事件与一个物理Tap(敲击)之间的300延迟. 1.为什么会延迟? 从点击屏 ...