用最直白的语言告诉你，hadoop是什么？

hadoop应历史之潮流，随着理论探索、科学技术试验的不断开展，hadoop终于2006年问世，惊天地泣鬼神！

hadoop雏形开始于2002年的Apache的Nutch，Nutch是一个开源Java实现的搜索引擎。它提供了运行搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

在2003年Google发表了一篇技术学术论文谷歌文件系统（GFS）。GFS也就是google File System，是google公司为了存储海量搜索数据而设计的专用文件系统。

2004年Nutch创始人Doug Cutting基于Google的GFS论文实现了分布式文件存储系统名为NDFS。

2004年Google又发表了一篇技术学术论文MapReduce。MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行分析运算。

2005年Doug Cutting又基于MapReduce，在Nutch搜索引擎实现了该功能。

2006年，Yahoo雇用了Doug Cutting，Doug Cutting将NDFS和MapReduce升级命名为Hadoop，Yahoo创建了一个独立的团队给Goug Cutting专门研究发展Hadoop。不得不说Google和Yahoo对Hadoop的贡献功不可没。

简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。其核心是HDFS和MapReduce。

HDFS（Hadoop Distributed File System，Hadoop分布式文件系统），它是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，适合那些有着超大数据集（large data set）的应用程序，一句话来概括的话：HDFS更加利于大量数据（一般在TB级别）的存取。MapReduce是一套从海量源数据提取分析元素最后返回结果集的编程模型，将文件分布式存储到硬盘是第一步，而从海量数据中提取分析我们需要的内容就是MapReduce做的事了，一句话来概括为：MapReduce方便大量数据的计算。

关于大数据的意义和价值，我认为最精炼的一句话总结：大数据可以直抵事件真相！互联网时代数据量逐渐增大，据说百度一天的搜索页面量都在TB级别。之前的Apache架构，虽然能够对数据进行计算和存储，但是远远不能满足现代量级，因此开发新的专门针对大数据处理的技术十分必要，这也是大数据相关技术，包括spark、hadoop等出现的背景条件。

hadoop技术发展到一定程度，可以建立立体化的分析系统，其对象可以为消费者或者网站或者app，能够多角度全方位的分析大量数据，从而得出关于对象的事件真相，可以举一个例子解释它的具体表现：未来，可能消费者不知道自己喜欢什么，但是大数据能够通过他的历史行为，告诉他应该喜欢什么。

我是大讲台的指导老师，大讲台，最落地的Hadoop在线学习机构，欢迎想学习数据分析的小伙伴，想学习Hadoop小伙伴，咨询Hadoop学习问题。或者到网站（dajiangtai.con)咨询。

用最直白的语言告诉你，hadoop是什么？的更多相关文章

告诉你Hadoop是什么
Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算. Hadoop框架中 ...
你的数据根本不够大，别老扯什么Hadoop了
本文原名"Don't use Hadoop when your data isn't that big ",出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯 ...
一 hadoop 相关介绍
hadoop 相关介绍 hadoop的首页有下面这样一段介绍.对hadoop是什么这个问题,做了简要的回答. The Apache™ Hadoop® project develops open-sou ...
Win10环境下Hadoop(单节点伪分布式)的安装与配置--bug(yarn的8088端口打不开+)
一.本文思路 [1].配置java环境–JDK12(Hadoop的底层实现语言是java,hadoop运行需要JDK环境) [2].安装Hadoop 1.解压hadop 2.配置hadoop环境变量 ...
C语言指针-从底层原理到花式技巧，用图文和代码帮你讲解透彻
这是道哥的第014篇原创目录一.前言二.变量与指针的本质 1. 内存地址 2. 32位与64位系统 3. 变量 4. 指针变量 5. 操作指针变量 5.1 指针变量自身的值 5.2 获取指针变量 ...
[BigData]关于Hadoop学习笔记第三天(PPT总结)(一)
课程安排 MapReduce原理*** MapReduce执行过程** 数据类型与格式*** Writable接口与序列化机制*** ---------------------------加深拓展- ...
使用Python实现Hadoop MapReduce程序
转自:使用Python实现Hadoop MapReduce程序英文原文:Writing an Hadoop MapReduce Program in Python 根据上面两篇文章,下面是我在自己的 ...
R语言数据分析
CSDN博客:包括R语言基础.R语言数据挖掘.hadoop大数据及spark等 http://blog.csdn.net/qq_16365849 R语言及数据分析 http://blog.csdn.n ...
C语言随笔_区分=与==
写C程序时,经常发现大家=与==分不清.最常见的写法如下:int a = 3;if(a = 1){.......} 写程序的人原意是想如果a等于1的话,就执行花括号里的语句,a初始化时的值是3,也就是 ...

随机推荐

com.service.impl
package com.service.impl; import java.util.ArrayList; import java.util.LinkedHashMap; import java.ut ...
TOP30专访：捕鱼达人陈昊芝
原文:http://www.csdn.net/article/2012-04-04/313919/1 编者按:3月31日,第四届CocoaChina游戏开发者大会暨Cocos2D-X技术研讨会在北京举 ...
eclipse中不能找到dubbo.xsd解决方法
使用dubbo时遇到问题: org.xml.sax.SAXParseException: schema_reference.4: Failed to read schema document 'htt ...
Hibernate学习笔记--------3.缓存
一.一级缓存一级缓存又称为“Session缓存”或者“会话级缓存”,通过Session从数据库查询实体时,会把实体在内存中存储起来,下一次查询同一实体时不再再次执行sql语句查询数据库,而是从内存中 ...
java基础学习总结三(jdk7新特性、变量(局部变量和成员变量)、常量以及运算符)
一:jdk7新特性可以表示二进制数值,以0b开头,中间可以使用下划线_分隔符.如下: @Test /** * 测试jdk新特性 */ public void testJdk7(){ int a=0b ...
关于增强for循环
1 增强for循环增强for循环是for的一种新用法!用来循环遍历数组和集合. 1.1 增强for的语法for(元素类型 e : 数组或集合对象) {}例如:int[] arr = {1,2,3};f ...
【转】Android自动化测试之MonkeyRunner录制和回放脚本（四）
测试脚本录制: 方案一: 我们先看看以下monkeyrecoder.py脚本: #Usage: monkeyrunner recorder.py #recorder.py http://mirror ...
SQL*PLUS中批量执行SQL语句
SQL*PLUS中批量执行SQL语句今天由于工作的需要,要在CMD中批量执行大量的SQL语句,对于Oracle学习还处在入门阶段的我,只能硬着头皮到处去寻找资料(主要是网络资料,也包括自己的电子书) ...
怎么关闭InstantRun
Settings → Build, Execution, Deployment → Instant Run and uncheck Enable Instant Run.
python出现Non-ASCII character '\xe7' in file ex6.py on line 1, but no encoding declare错误
http://www.cnblogs.com/qi09/archive/2012/02/06/2340712.html python中出现Non-ASCII character '\xe7' in f ...

用最直白的语言告诉你，hadoop是什么？

用最直白的语言告诉你，hadoop是什么？的更多相关文章

随机推荐

热门专题