Hadoop之父Doug Cutting:Lucene到Hadoop的开源之路
Hadoop之父Doug Cutting:Lucene到Hadoop的开源之路
Doug Cutting,凭借自己对工作的热情和脚踏实地的态度,开创了Lucene和Nutch两个成功的开源搜索引擎项目,同时也是当下人气大数据计算框架 Hadoop的创立者。Doug于1985年毕业于美国斯坦福大学,首个在Xerox的实习工作奠定了他日后研究搜索引擎项目以及成功的基础。1997年 底,Doug通过Lucene这个首个提供了全文文本搜索的开源函数库实现了理论到实践的巨大突破。在此基础上,Doug相继实现了Nutch 、Hadoop。为了自身梦想的实现,Doug先后就职于Architext和Yahoo!等企业,直至2009年出任Cloudera的首席架构师。
Lucene&Nutch
Lucene是第一个提供全文文本搜索的函数库,提供了一个简单而强大的应用程序接 口,是一个高性能、可伸缩的信息搜索库。作为一个成熟免费的开源项目,Lucene在Java信息检索程序库中得到了广泛的欢迎。开发者不仅能利用它构建 具体的全文检索应用,同时还能将其集成到各种系统软件中,它提供的很多API函数都能运用到各种实际应用程序中。
Nutch则是Doug在Lucene基础上将开源思想继续深化的成果,是一个真正的应用程序,它是建立在Lucene核心之上的Web搜索的实现,其目的旨在减少人们使用过程中的复杂度,并在花费很少的情况下配置世界一流的Web搜索引擎,实现开箱即用的特性。 站内索引和搜索推广到全球网络的搜索上,就像Google和雅虎一样。
Hadoop
Hadoop是Doug基于谷歌MapReduce system开发的一个开源版本,是一种开源的适合大数据的分布式存储和处理平台,是当下新时代应用程序开发必备技能之一。Hadoop作为一个能够让用户轻松架构和使用的分布式平台,具有以下几个优点:
- 高可靠性
- 高扩展性
- 高效性
- 高容错性
- 低成本
Hadoop从最初应用的那一刻起就表现的异常出众,大大提高了网页搜索的速度。Doug的目标是将Hadoop发展成云计算领域的RedHat。纵观当下该计算框架所受到的关注度,Hadoop的成功已完全超脱了Doug的想象。
Doug可以说是云计算和大数据领域的传奇人物,他将高深莫测的搜索技术神奇般的变成了产品。然而,他的成功秘诀却并不神秘——对工作的热情和工作时的认真踏实。然而,正是这众所周知的品质成就了他的成功,也让几乎所有的人都直接或间接的使用过他作品。
转自:http://cda.pinggu.org/view/1679.html
Hadoop之父Doug Cutting:Lucene到Hadoop的开源之路的更多相关文章
- Hadoop之父Doug Cutting
生活中,可能所有人都间接用过他的作品,他是Lucene.Nutch .Hadoop等项目的发起人.是他,把高深莫测的搜索技术形成产品,贡献给普罗大众:还是他,打造了目前在云计算和大数据领域里如日中天的 ...
- 关于Hadoop之父Doug Cutting
生活中,可能所有人都间接用过他的作品,他是Lucene.Nutch .Hadoop等项目的发起人.是他,把高深莫测的搜索技术形成产品,贡献给普罗大众:还是他,打造了目前在云计算和大数据领域里如日中天的 ...
- Hadoop基础(二):从Hadoop框架讨论大数据生态
1 Hadoop是什么 2 Hadoop三大发行版本 Hadoop三大发行版本:Apache.Cloudera.Hortonworks. Apache版本最原始(最基础)的版本,对于入门学习最好. C ...
- Hadoop是原Yahoo的Doug Cutting根据Google发布的学术论文研究而来
Hadoop是原Yahoo的Doug Cutting根据Google发布的学术论文研究而来.Doug Cutting给这个Project起了个名字,就叫Hadoop. Doug Cutting在Clo ...
- Hadoop创始人Doug Cutting寄语2017:五种让开源项目成功的方法
原文链接:http://www.infoq.com/cn/news/2017/01/Hadoop-2017-5-open-source?utm_source=tuicool&utm_mediu ...
- [Hadoop in Action] 第2章 初识Hadoop
Hadoop的结构组成 安装Hadoop及其3种工作模式:单机.伪分布和全分布 用于监控Hadoop安装的Web工具 1.Hadoop的构造模块 (1)NameNode(名字节点) ...
- Hadoop阅读笔记(六)——洞悉Hadoop序列化机制Writable
酒,是个好东西,前提要适量.今天参加了公司的年会,主题就是吃.喝.吹,除了那些天生话唠外,大部分人需要加点酒来作催化剂,让一个平时沉默寡言的码农也能成为一个喷子!在大家推杯换盏之际,难免一些画面浮现脑 ...
- Hadoop阅读笔记(五)——重返Hadoop目录结构
常言道:男人是视觉动物.我觉得不完全对,我的理解是范围再扩大点,不管男人女人都是视觉动物.某些场合(比如面试.初次见面等),别人没有那么多的闲暇时间听你诉说过往以塑立一个关于你的完整模型.所以,第一眼 ...
- Hadoop - Mac OSX下配置和启动hadoop以及常见错误解决
0. 安装JDK 参考网上教程在OSX下安装jdk 1. 下载及安装hadoop a) 下载地址: http://hadoop.apache.org b) 配置ssh环境 在terminal里面输入: ...
随机推荐
- day14-二分法、匿名函数、内置函数以及面向过程编程
目录 二分法 匿名函数 内置函数 面向过程编程 二分法 二分法查找适用于数据量较大时,但是数据需要先排好顺序.主要思想是:(设查找的数组区间为array[low, high]) (1)确定该区间的中间 ...
- Springboot + SLF4j + Log4j2 打印异常日志时,耗时要5-6秒
1.使用jps -l 查看springboot项目的进程ID 2.使用命令jstack -l 进程ID > log.txt 打印堆栈信息到文件,内容如下: "http-nio-8065 ...
- ubuntu 16.04 添加网卡
root@ubuntu:~# ls /sys/class/net/ enp0s3 enp0s8 lo root@ubuntu:~# vim /etc/network/interfaces # This ...
- java.net.MalformedURLException: no protocol: www.baidu.com
URL url = new URL("www.baidu.com");改为 URL url = new URL("http://www.baidu.com");
- Xcode git 忽略user interface state文件
退出xcdoe, 打开终端(Terminal),进入到你的项目目录下 在终端输入如下代码 git rm --cached *.xcuserstate git commit -m "Remov ...
- STL二分查找函数的应用
应用二分查找的条件必须是数组有序! 其中二分查找函数有三个binary_serch,upper_bound,lower_bound 测试数组 int n1[]={1,2,2,3,3,4,5}; int ...
- Centos7安装MySQL5.7(yum)
本人尝试过使用源码安装方式,那叫一个头疼,各种问题,于是采用yum方式安装,没想到如此简单: 此服务器是刚买的,所以以前没有安装过mysql,如果以前安装过mysql的,好像要卸载干净再安装(其实我也 ...
- illuminate/routing 源码分析之注册路由
我们知道,在 Laravel 世界里,外界传进来一个 Request 时,会被 Kernel 处理并返回给外界一个 Response.Kernel 在处理 Request 时,会调用 illumina ...
- L2-014. 列车调度(带图详解)
L2-014. 列车调度 火车站的列车调度铁轨的结构如下图所示. Figure 两端分别是一条入口(Entrance)轨道和一条出口(Exit)轨道,它们之间有N条平行的轨道.每趟列车从入口可以选 ...
- L2-006. 树的遍历(不建树)
L2-006. 树的遍历 给定一棵二叉树的后序遍历和中序遍历,请你输出其层序遍历的序列.这里假设键值都是互不相等的正整数. 输入格式: 输入第一行给出一个正整数N(<=30),是二叉树中结点 ...