Hadoop源代码点滴-自然常数e

数学里的 e 为什么叫做自然底数?是不是自然界里什么东西恰好是 e? https://www.zhihu.com/question/20296247…

Hadoop建立起HDFS和YARN两个字系统,前者是文件系统,管数据存储:后者是计算框架,管数据处理. 如果只有HDFS而没有YARN,那么Hadoop集群可以被用作容错哦的文件服务器,别的就没有什么应用可言了.虽然HDFS是个分布式的文件系统,但是对服务器的用户来说那只是他的内部实现,从外部看与一般的Raid结构的文件服务器并无多大的区别. 从功能和层次上看,YARN是HDFS的用户,是HDFS的上一层,YARN的功能是建立在HDFS基础上的,HDFS提供数据供YARN字系统处理和计算. Y…

Hadoop源代码点滴-文件系统HDFS

HDFS是Hadoop集群的文件系统,这是一种分布(distributed).容错(fault tolerant)的文件系统所谓分布,是说整个文件系统的内容并非集中存储在一台或几台“文件服务器上”,而是分散在集群的不同节点上对于大数据文件系统,文件之所以应该是分布式的,不再仅仅是容量和容错的问题,还有计算的问题. 大数据处理有个原则,就是数据在哪里,计算就在哪里. 分布的计算必然要求分布的数据存储,最好就是每个机诶但都存储数据,每个节点也都承担计算. 按什么方式把整个文件系统的内容分布存储在…

Hadoop源代码点滴-基础概念

大数据特征:volume(数量).variety(多样性).velocity(产生的速度) 大数据特征:多.乱.快.杂数据的来源:业务数据.日志.管理文档(OCR).互联网.物联网.外购…

Hadoop源代码分析

http://wenku.baidu.com/link?url=R-QoZXhc918qoO0BX6eXI9_uPU75whF62vFFUBIR-7c5XAYUVxDRX5Rs6QZR9hrBnUdMdVHNSHdjYtv7i28lCSng1iuWO620ML_wqJZYFge Hadoop源代码分析(一) 关键字: 分布式云计算 Google的核心竞争技术是它的计算平台.Google的大牛们用了下面5篇文章,介绍了它们的计算设施. GoogleCluster:http://research.g…

Hadoop源代码分析(完整版)

Hadoop源代码分析(一) 关键字: 分布式云计算 Google的核心竞争技术是它的计算平台.Google的大牛们用了下面5篇文章,介绍了它们的计算设施. GoogleCluster:http://research.google.com/archive/googlecluster.html Chubby:http://labs.google.com/papers/chubby.html GFS:http://labs.google.com/papers/gfs.html BigTable:ht…

将hadoop源代码导入eclipse

1. 安装JDK,eclipse,下载hadoop源代码并解压到某一个目录. 2. 安装maven,将bin目录添加到PATH环境变量中. 3. 安装protobuf2.5.0,将protoc-2.5.0-win32中的protoc.exe拷贝到c:\windows\system32中,将proto.exe文件拷贝到解压后的XXX\protobuf-2.5.0\src目录中.进入XXX\protobuf-2.5.0\java 目录,执行maven package命令编辑该包,生成protobuf…

eclipse下编译hadoop源代码(转)

hadoop是一个分布式存储和分布式计算的框架.在日常使用hadoop时,我们会发现hadoop不能完全满足我们的需要,我们可能需要修改hadoop的源代码并重新编译.打包. 下面将详细描述如何从svn上导入并对hadoop进行eclipse下编译. 因项目使用的hadoop版本是0.20.2,所以我们基于hadoop-0.20.2来进行二次开发. (1)首先从svn上签出源代码,svn地址: http://svn.apache.org/repos/asf/hadoop/common/tags/…

关于自然常数e的理解

关于自然常数$e$的理解 By Z.H. Fu 切问录 ( http://www.fuzihao.org ) 利息增长模型在上中学学习对数的时候,我们就学到了一个叫做e的东西($e\approx 2.71828$),后来又学了e的定义,($e=\lim \limits_{n\to \infty}(1+\frac{1}{n})^n$),但是始终缺乏一个直观的理解,为什么e要这么定义,为什么到处都会有他的身影.后来在研究一个增长模型的时候,重新研究了下e的定义,找到了几个关于它的直观的…

hadoop源代码解读namenode高可靠：HA;web方式查看namenode下信息；dfs/data决定datanode存储位置

点击browserFilesystem,和命令查看结果一样当我们查看hadoop源代码时,我们看到hdfs下的hdfs-default.xml文件信息我们查找${hadoop.tmp.dir}这是引用变量,肯定在其它文件有定义,在core-default.xml中查看到,这两个配置文件有个共同点: 就是不要改动此文件.但能够复制信息到core-site.xml和hdfs-site.xml中改动 usr/local/hadoop 是我存放hadoop目录的地方几个关于namenode的关键文…

Hadoop源代码导入Eclipse

须要进一步学习hadoop.须要看看内部源代码实现.因此须要将hadoop源代码导入都eclipse中,简单总结一下,详细过程例如以下: 首先确保已经安装了git.maven3.protobuf2.5.假设没有安装须要提前安装一下 1.下载hadoop源代码 git clone git://git.apache.org/hadoop-common.git 2.进入hadoop-common文件夹,用maven生成eclipseproject mvn install -DskipTests mvn…

eclipse导入/编译hadoop源代码

1. 确保安装好JDK和eclipse 详细教程见: http://blog.csdn.net/kangdakangdaa/article/details/11364985 2. 安装 Subclipse(Eclipse 的 SVN 插件) 用于从 Hadoop 获得源代码.我们使用 eclipse 自带的软件安装功能,通过 Subclipse 提供的地址自动下载安装该插件. 首先访问http://subclipse.tigris.org,在Download and Install页面找到与Ec…

两种配置大数据环境的方法Ambari以及hadoop源代码安装的步骤

1.Ambari安装 Ambari & HDP(Hortonworks Data Platform) ***************************************************************************************************** Base: 0.操作系统原则与对应的HDP对应的版本.rhel6 or rhel7 1.操作系统原则完全安装(Desktop),所有的包都安装. 2.关闭防火墙,IPV6等服务(海涛Python…

我们数学中常用的自然常数e代表什么？看完长知识了！

我们在学习期间都接触过自然常数e,也知道e ≍ 2.718,学过极限的同学应该也知道那么大家知道e的含义是什么吗?为啥叫“自然常数”? e的含义可以用一个计算利息的例子来解释. 假如你有1块钱,银行抽风了一年利率100%. 如果一年结算一次,一年后就能得到1×(1+1)=2块钱. 如果半年结算一次,上半年的计息计入下半年的本金,一年后就能得到1×(1+0.5)×(1+0.5)=1×(1+0.5)=2.25块钱.这样就多出了两毛五. 如果像余额宝一样,每天都结算利息,那么一年后你就能得到比最开…

RPC框架研究（二）Hadoop源代码-1

报名了阿里中间件性能大赛,我来说是一个全新的挑战.一切从空白学起,比赛的过程也是学习的过程是的.想让自己学好.给自己报一个比赛吧~ 就像当初学围棋,也是报了围棋比赛,为了不至于输的太慘.一个星期里学了好多东西第二天 Hadoop源代码-1 小雨天真的以为学了Java回调机制后就能够把原来的RPC框架改为异步调用了,结果对着代码一下午都没想出要怎么去改,怎么入手. 于是决定研究一下Hadoop的源代码,看看别人是怎么实现RPC的,这也是我第一次研究源代码,曾经都是仅仅管用.无论怎样实现. 使…

如何高效的阅读hadoop源代码？

个人谈谈阅读hadoop源代码的经验. 首先,不得不说,hadoop发展到现在这个阶段,代码已经变得非常庞大臃肿,如果你直接阅读最新版本的源代码,难度比较大,需要足够的耐心和时间,所以,如果你觉得认真一次,认真阅读一次hadoop源代码,一定要有足够的心理准备和时间预期. 其次,需要注意,阅读Hadoop源代码的效率,因人而异,如果你有足够的分布式系统知识储备,看过类似的系统,则能够很快地读它的源代码进行通读,并快速切入你最关注的局部细节,比如你之前看过某个分布式数据库的源代码,对分布式系统的网…

hadoop源代码组织结构与阅读技巧

本文将介绍在 Eclipse 下阅读 Hadoop 源代码的一些技巧, 比如如何查看一个基类有哪些派生类. 一个方法被其他哪些方法调用等. 本文地址:http://www.cnblogs.com/archimedes/p/study-hadoop-sourcecode.html,转载请注明源地址. 欢迎关注我的个人博客:www.wuyudong.com, 更多云计算与大数据的精彩文章 1 . 查看一个基类或接口的派生类或实现类在 Eclipse 中, 选中某个基类或接口名称,右击,在弹出的…

调试 Hadoop 源代码

环境是 64bit Ubuntu 14.04 系统, jdk 1.7 以及 Eclipse Mars (4.5) 这里介绍两种调试 Hadoop 源代码的方法: 利用 Eclipse 远程调试工具和打印调试日志. 这两种方法均可以调试伪分布式工作模式和完全分布式工作模式下的 Hadoop. 最后介绍我自己的方法, 可以打印你想查看的信息( 针对单个文件内部 ). (1) 利用 Eclipse 进行远程调试参考 http://andilyliao.iteye.com/blog/2151688 …

Hadoop 源代码组织结构

Hadoop 2.X 包括编译好的可以直接部署的文件hadoop-{VERSION}.tar.gz; 还有源代码文件hadoop-{VERSION}-src.tar.gz , 需要 Maven 编译后才能进行部署安装. 我以 hadoop 2.7.3 为例. 1. 在Hadoop 的JAR 压缩包解压后的目录 hadoop-{VERSION} 中包含了 Hadoop全部的管理脚本和 JAR 包, ( 如hadoop-2.7.3.tar.gz, 解压后得到hadoop-2.7.3 ,如下图所示…

Eclipse中导入Hadoop源代码工程

以hadoop 2.7.3为例, jdk1.7.0_80 , Eclipse Mars(4.5), Apache Maven 3.0.5 mvn时需要使用root权限,即县切换到root用户,用命令su root. 本节将介绍如何创建一个Hadoop源代码工程以方便阅读源代码. Hadoop源代码hadoop-2.7.3-src不能直接导入Eclipse,会报很多错,因为该源代码工程没有包含它所需的所有JAR包等, 需要Maven编译引入. 首先,介绍一下我自己成功的办法. ( 后面…

自然常数e的含义

e是一个重要的常数,但是它的直观含义却不像 π 那么明了.我们都知道,圆的周长与直径之比是一个常数,这个常数被称为圆周率,记作 π = 3.14159......可是e代表什么呢? e是“指数”(exponential)的首字母,也是欧拉名字的首字母.和圆周率 π 及虚单位 i 一样,e是最重要的数学常数之一.第一次把e看成常数的是雅各布·伯努利,他开始尝试计算lim(1+1/n)^n 的值,1727年欧拉首次使用小写字母 “e” 表示这常数,此后遂成标准. e有时被称为自然常数(Natural…

自然常数e的由来以及计算机为什么是二进制

背景昨晚我在看一本书,叫<数学极客>,看到第六章<e:不自然的自然数>,这个数最早开始接触应该是高一的时候,那时候问老师,这个数是怎么来的,老实说,和圆周率一样,是一个常数,然后就没有然后了,后面这个问题就随着我的好奇心一起沉睡了,直到昨晚这个尘封许久的问题又一次浮上我的心头,庆幸的是这次我有了打破砂锅问到底的想法和行动.特意写下这篇文章纪念这一次探索之旅. e是怎么来的? 这个数其实来源于1683年瑞士数学家雅各布·伯努利以及他所研究的复利问题.复利问题是这样的,如果你…

Eclipse查看hadoop源代码出现Source not found,是因为没有添加.zip

在我们hadoop编程中,经常遇到像看看hadoop的某个类中函数的功能.但是我们会遇到一种情况就是Source not found.遇到这个问题,该如何解决.因为我们已经引入了包,为什么会找不到.如果不了解怎么引入的可以参考:hadoop开发方式总结及操作指导http://www.aboutyun.com/thread-6950-1-1.html看到上面现象,是因为我们每天添加.zip.该如何添加zip包.那么我们从哪去找zip包. (1)解压hadoop-2.7.3-src.tar.gz得到…

[hadoop源代码解读] 【SequenceFile】

SequeceFile是Hadoop API提供的一种二进制文件支持.这种二进制文件直接将<key, value>对序列化到文件中.一般对小文件可以使用这种文件合并,即将文件名作为key,文件内容作为value序列化到大文件中.这种文件格式有以下好处:1)支持压缩,且可定制为基于Record或Block压缩(Block级压缩性能较优) 2)本地化任务支持:因为文件可以被切分,因此MapReduce任务时数据的本地化情况应该是非常好的. 3)难度低:因为是Hadoop框架提供的API,业务逻辑…

Hadoop源代码中的build-main.xml

在Hadoop的每一个Project中,都有build-main.xml,如下图所示: 这个文件其实是通过maven-ant插件生成的,在hadoop的每一个Maven工程中,都有一个pom文件,在pom.xml文件中,有mkdir dir的动作:…

Hadoop源代码分析【IO专题】

由于Hadoop的MapReduce和HDFS都有通信的需求,需要对通信的对象进行序列化.Hadoop并没有采用Java的序列化(因为Java序列化比较复杂,且不能深度控制),而是引入了它自己的系统.org.apache.hadoop.io中定义了大量的可序列化对象,他们都实现了Writable接口.实现了Writable接口的一个典型例子如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 public class MyWritab…

在Ubuntu中，用mvn打包hadoop源代码时报错，正在解决中！！！

报错信息如下: (各种配置在最后面) hadoop@administrator-virtual-machine:~/Downloads/tar/hadoop-3.0.0-alpha1-src$ mvn clean package -Pdist,native -DskipTests -Dtar---------------------------------------------------constituent[0]: file:/usr/share/maven/lib/plexus-ciph…

Hadoop源代码分析：HDFS读取和写入数据流控制(DataTransferThrottler类别)

DataTransferThrottler类别Datanode读取和写入数据时控制传输数据速率.这个类是线程安全的,它可以由多个线程共享. 用途是构建DataTransferThrottler对象,并设置期限period和带宽bandwidthPerSec,际读写前调用DataTransferThrottler.throttle()方法.假设I/O的速率相对给定的带宽太快,则该方法会将当前线程wait. 两个构造函数双參构造函数,能够设置周期period和带宽bandwidthPerSec.…