换个角度理解云计算之HDFS】的更多相关文章

学习云计算,必然得了解Hadoop,而Hadoop中的HDFS(分布式文件系统)是一个基础,接下来就写一下我所理解的HDFS. 有一个很有特别的村庄,村庄里面有一个很牛逼的人,叫做“大哥”,村民们都信得过他,于是会把自己家的粮食.农具等等各种各样的东西“打包成一个大的包裹”让“大哥”给存着,等用的时候,再去找大哥要.我们可以姑且简单的认为:“大哥”就是服务器Server,村民们是客户端Client,而村民打包的一个大的包裹就是一个很大的文件. 一开始大家相安无事,后来别的村的人(更多的Clien…
上一篇简单讲了一下HDFS,简单来说就是一个叫做“NameNode”的大哥,带着一群叫做“DataNode”的小弟,完成了一坨坨数据的存储,其中大哥负责保存数据的目录,小弟们负责数据的真正存储,而大哥和小弟其实就是一台台的电脑,他们之间通过交换机,互相联系到了一起. 其实这位大哥和这群小弟不仅能存储数据,还能完成很多计算任务,于是他们有了新的名字,大哥叫做“JobTracker”,而小弟们叫做“TaskTracker”,一起组成了MapReduce.今天就来说说MapReduce是怎么一回事.…
接上篇 3.Combiner操作 前面讲完Map操作,总结一下就是:一个大文件,分成split1~5,对应于Map1~5,每一个Map处理一个split,每一个split的每一行,会用每一个Map的map方法去处理,经过上面操作,最终输出了5个中间结果. 对于这5个中间结果的每一个来说,都有很多行,每一行是key   value格式的,如hello 1,这样子,在传给Reducer之前,为了减少传输的数据量,可以增加一个Combiner过程,把每个中间结果进行化简.因为每个中间结果可能有相同的键…
Hadoop分布式文件系统(HDFS)是一种分布式文件系统.它与现有的分布式文件系统有许多相似之处.但是,与其他分布式文件系统的差异是值得我们注意的: HDFS具有高度容错能力,旨在部署在低成本硬件上.(高容错) HDFS提供对数据的高吞吐量访问,适用于具有海量数据集的应用程序.(高吞吐量) HDFS放宽了一些POSIX要求,以实现对文件系统数据的流式访问.(流式访问) HDFS最初是作为Apache Nutch网络搜索引擎项目的基础设施而构建的.HDFS是Apache Hadoop Core项…
了解云计算的一定都听过四个“高大上”的概念:On-Premise(本地部署),IaaS(基础设施及服务).PaaS(平台即服务)和SaaS(软件即服务),这几个术语并不好理解.不过,如果你是个吃货,还喜欢汉堡,那这个问题就好解决了! 如果我想吃汉堡,有几种方法呢? 1.自己买材料自己做 准备烤箱,准备火腿,准备面粉,准备青菜,然后自己和面,加材料,加热等等.其要求动手能力比较强,比较难做,但是,您可以根据自己的口味,做出符合自己味道的汉堡.这就是On-Premise(本地部署). 典型代表:物理…
深入理解hadoop之HDFS 刚刚才写完关于mapreduce的一篇博文,趁热打铁接下来聊聊HDFS.本博文参考资料为HADOOP权威指南第3版完版,博文如有错漏之处,敬请指正. HDFS即Hadoop Distributed FileSystem,是hadoop旗舰机的文件系统.HDFS以流式数据访问模式来存储超大文件.有如下几个特点:超大文件:流式数据访问模式,即一次写入多次读取的访问模式:商用硬件,hadoop不需要运行在昂贵的商用硬件上面,对于庞大的集群来说,节点的故障概率是非常高的,…
本文不经允许,不得转载! 云计算技术已经慢慢普及了.我们做技术的有必要学习云计算技术. IaaS:Infrastructure-as-a-Service(基础设施即服务)云计算到来之前,很多企业都是自己架设机房,购买服务器,拉网络专线,才能把自己的系统运行起来,运维成本较高,当然以前也有租用IDC(Internet Data Center)的方式,相对方便一点,把服务器和网络等资源都交给IDC提供商来管理,相对方便.云计算中的IaaS就不同了,IaaS把很多服务器和网络资源整合成一个资源池,通过…
云计算的服务模式仍在不断进化,但业界普遍接受将云计算按照服务的提供方式划分为三个大类: SaaS(Software as a Service–软件即服务) PaaS(Platform as a Service–平台即服务) IaaS(Infrastructure as a Service–基础架构即服务). PaaS基于IaaS实现,SaaS的服务层次又在PaaS之上,三者分别面对不同的需求. 1.IaaS: Infrastructure-as-a-Service(基础设施即服务) 第一层叫做I…
PS:通俗一点的解释都会在引用块中 Nothing is true, Everything is permitted. 0. 什么是TCP TCP,全称Transmission Control Protocol,是一种面向连接.可靠的.基于字节流的单播协议.与我们常说的TCP/IP协议不同,TCP/IP是一个协议族,涉及到OSI模型中的网络层.应用层和应用层.而我们要聊的TCP就是在传输层的协议,现在应用的特别广泛的HTTP请求,就是基于TCP的. 1. 三次握手 所谓面向连接很好理解,就像我们…
Apache Hadoop 是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据. Hadoop并不完全代表云计算,所以,要用Hadoop搭建完整的云计算平台,答案是不够.我们常说云计算,实际上还是通过计算机的大规模或者说海量处理来为生活中各式各样的人和各行各业服务——所以,核心在“服务”.关于服务,展开来就是常用的那3种(也是事实上的标准):SaaS,PaaS,IaaS.对云计算来说,公有和私有,虚拟和存储,这其…
“云计算” 算是近年来最热的词了.现在 IT 行业见面不说这三个字您都不好意思跟人家打招呼. 对于云计算,学术界有各种定义,大家有兴趣可以百度一下. CloudMan 这里主要想从技术的角度谈谈对云计算的理解. 基本概念 所有的新事物都不是突然冒出来的,都有前世和今生. 云计算也是IT技术不断发展的产物. 要理解云计算,需要对IT系统架构的发展过程有所认识. 请看下图 IT系统架构的发展到目前为止大致可以分为3个阶段: 物理机架构这一阶段,应用部署和运行在物理机上. 比如企业要上一个ERP系统,…
英文原文:Cloud computing service models, Part 1: Infrastructure as a Service 本文介绍三个云类别中的第一个:基础架构即服务(infrastructure as a service,IaaS).IaaS 的一些关键概念包括: 云爆发(cloudbursting) 多租户计算(multi-tenant computing ) 资源共用(resources pooling) 虚拟机监控程序(hypervisor) 最重要的是了解 Ia…
如今我们来深入了解一下Hadoop的FileSystem类. 这个类是用来跟Hadoop的文件系统进行交互的.尽管我们这里主要是针对HDFS.可是我们还是应该让我们的代码仅仅使用抽象类FileSystem.这样我们的代码就能够跟不论什么一个Hadoop的文件系统交互了.在写測试代码时,我们能够用本地文件系统測试,部署时使用HDFS.仅仅需配置一下,不须要改动代码了. 在Hadoop 1.x以后的版本号中引入了一个新的文件系统接口叫FileContext,一个FileContext实例能够处理多种…
前言 前面几篇简单介绍了什么是大数据和Hadoop,也说了怎么搭建最简单的伪分布式和全分布式的hadoop集群.接下来这篇我详细的分享一下HDFS. HDFS前言: 设计思想:(分而治之)将大文件.大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析. 在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务. 分布式文件系统: 问题引发:海量数据超过了单台物理计算机的存储能力 解决方案:对数据分区存储与若干台物…
Hadoop是一个开发和运行处理大规模数据的软件平台,是Apache的一个用Java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储. Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算.HDFS在Hadoop中扮演了非常基础的作用,以文件系统的形式为上层应用提供海量数据的存储服务. HDFS作为一个分…
一.云计算的前世今生 所有的新事物都不是突然冒出来的,都有前世和今生.云计算也是IT技术不断发展的产物. 要理解云计算,需要对IT系统架构的发展过程有所认识. 请看下 IT系统架构的发展到目前为止大致可以分为3个阶段:    1. 物理机架构 这一阶段,应用部署和运行在物理机上. 比如企业要上一个ERP系统,如果规模不大,可以找3台物理机,分别部署Web服务器.应用服务器和数据库服务器. 如果规模大一点,各种服务器可以采用集群架构,但每个集群成员也还是直接部署在物理机上. 我见过的客户早期都是这…
阅读目录(Content) 一.HDFS概述 1.1.HDFS概述 1.2.HDFS的概念和特性 1.3.HDFS的局限性 1.4.HDFS保证可靠性的措施 二.HDFS基本概念 2.1.HDFS主从结构体系 2.2.数据块(DataBlock) 2.3.名字节点(主节点:NameNode) 2.4.数据节点(从节点:DataNode) 2.5.SecondaryNameNode 2.6.总结NameNode和DataNode 四.单点故障(单点失效)问题 4.1.单点故障问题 4.2.解决方案…
The other day, I arrived at the SAP LABS CHINA for interview with my pleasure. That gave me a chance to know the concept of cloud computing. We have  a communication in English a few minutes , it's stimulating. And I get a point of view That English…
云计算SPI(SaaS.PaaS.IaaS) The other day, I arrived at the SAP LABS CHINA for interview with my pleasure. That gave me a chance to know the concept of cloud computing. We have  a communication in English a few minutes , it's stimulating. And I get a poin…
首先谈一下关于hive和hbase的区别的疑问(完全不是一个东西): 本质上来说hive和hbase没什么关系,虽然都是表,查数据等,但是他们根本就不是一个层面的东西 hive就是一个rapduce的一个包装,hive就是将编写的sql转换成mapreduce任务 而hbase是什么呢?可以理解为是hdfs的一个包装,本质是数据存储的,一个nosql数据库,部署与hdfs之上的,目的是克服hdfs在随机读写上的缺点 你非得问hive和hbase有什么区别,那就相当于问mapreduce和hdfs…
HDFS前言 HDFS:Hadoop Distributed File System ,Hadoop分布式文件系统,主要用来解决海量数据的存储问题 设计思想 1.分散均匀存储 dfs.blocksize = 128M 2.备份冗余存储 dfs.replication = 3 在大数据系统中作用 为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务. 重点概念 文件切块,副本存放,元数据 HDFS的概念和特性 概念 首先,它是一个文件系统,用于存储文件,通过统一…
在阅读本文之前,先向大家强烈推荐一下周志明的<深入理解Java虚拟机>这本书. 前些天面试了阿里的实习生,问到关于Dalvik虚拟机能不能执行class文件,我当时的回答是不能,但是它执行的是class转换的dex文件.当面试官继续问,为什么不能执行class文件时,我却只能回答Dalvik虚拟机内部的优化原因,却不能正确回答具体的原因.其实周志明的这本书就有回答:Dakvik并不是一个Java虚拟机,它没有遵循Java虚拟机规范,不能执行Java的class文件,使用的是寄存器架构而不是JV…
JVM内存区域 我们在编写程序时,经常会遇到OOM(out of Memory)以及内存泄漏等问题.为了避免出现这些问题,我们首先必须对JVM的内存划分有个具体的认识.JVM将内存主要划分为:方法区.虚拟机栈.本地方法栈.堆.程序计数器.JVM运行时数据区如下: 程序计数器 程序计数器是线程私有的区域,很好理解嘛~,每个线程当然得有个计数器记录当前执行到那个指令.占用的内存空间小,可以把它看成是当前线程所执行的字节码的行号指示器.如果线程在执行Java方法,这个计数器记录的是正在执行的虚拟机字节…
“云计算” 算是近年来最热的词了.现在 IT 行业见面不说这三个字您都不好意思跟人家打招呼. 对于云计算,学术界有各种定义,大家有兴趣可以百度一下. CloudMan 这里主要想从技术的角度谈谈对云计算的理解. 基本概念 所有的新事物都不是突然冒出来的,都有前世和今生. 云计算也是IT技术不断发展的产物. 要理解云计算,需要对IT系统架构的发展过程有所认识. 请看下图 IT系统架构的发展到目前为止大致可以分为3个阶段: 物理机架构这一阶段,应用部署和运行在物理机上. 比如企业要上一个ERP系统,…
程序计数器 程序计数器是线程私有的区域,很好理解嘛~,每个线程当然得有个计数器记录当前执行到那个指令.占用的内存空间小,可以把它看成是当前线程所执行的字节码的行号指示器.如果线程在执行Java方法,这个计数器记录的是正在执行的虚拟机字节码指令地址:如果执行的是Native方法,这个计数器的值为空(Undefined).此内存区域是唯一一个在Java虚拟机规范中没有规定任何OutOfMemoryError情况的区域. Java虚拟机栈 与程序计数器一样,Java虚拟机栈也是线程私有的.其生命周期与…
在本文中,我们讨论如何快速地从更高的层面理解DevOps,介绍准备改变文化的最佳实践.我们将讨论DevOps的目标以及从组织管理层得到支持的方法,为DevOps的概念打下基础.我们将试着从根本上介绍使应用程序生命期管理简单.高效的DevOps实践. DevOps不是一种框架.工具或者技术,理解这一点非常重要.它更多的是与组织的文化有关.DevOps还是人们在组织中使用预先定义的过程.利用自动化工具,使日常工作更加高效.手工工作更少的一种方法. 为了理解DevOps的重要性,我们在本文中将包含如下…
1. 云计算的发展 云计算是IT技术不断发展的产物. 要理解云计算,需要对IT系统架构的发展过程有所认识. IT系统架构的发展到目前为止大致可以分为3个阶段: 1> 物理机架构 这一阶段,应用部署和运行在物理机上. 比如企业要上一个ERP系统,如果规模不大,可以找3台物理机,分别部署Web服务器.应用服务器和数据库服务器. 如果规模大一点,各种服务器可以采用集群架构,但每个集群成员也还是直接部署在物理机上.客户早期都是这种架构,一套应用一套服务器,通常系统的资源使用率都很低,达到20%的都是好的…
云计算管理员们一般都工作在一个分布式局域网计算基础设施中,它与传统数据中心最大的区别之一就是,所有被存储.调配和管理的数据都在一个私有云中.基于云计算的高效工作负载监控可在性能发生问题之前就提前发现这些问题的苗头,从而防患于未然.了解你的云计算运行详细信息将有助于交付一个更强大的云计算使用体验. 收集云计算性能指标 IT管理员们必须积极主动地收集和记录云计算服务器的性能指标与数据,这主要是因为托管云计算工作负载的大多数服务器都是需要使用专用资源的虚拟机.对于云计算服务器来说,过度分配资源或分配资…
一.云计算的前世今生 所有的新事物都不是突然冒出来的,都有前世和今生.云计算也是IT技术不断发展的产物. 要理解云计算,需要对IT系统架构的发展过程有所认识. 请看下 IT系统架构的发展到目前为止大致可以分为3个阶段:    1. 物理机架构 这一阶段,应用部署和运行在物理机上. 比如企业要上一个ERP系统,如果规模不大,可以找3台物理机,分别部署Web服务器.应用服务器和数据库服务器. 如果规模大一点,各种服务器可以采用集群架构,但每个集群成员也还是直接部署在物理机上. 我见过的客户早期都是这…
参考https://www.cnblogs.com/CloudMan6/p/5334760.html   云计算 基本概念   所有的新事物都不是突然冒出来的,都有前世和今生.云计算也是IT技术不断发展的产物.要理解云计算,需要对IT系统架构的发展过程有所认识,请看下图  …