Hadoop的思想之源:Google

Google搜索引擎
,Gmail,安卓,
AppspotGoogle Maps,
Google earth,Google 学术,
Google翻译,Google+,下一步Google what??

Google的低成本之道

不使用超级计算机,不使用存储(淘宝的去i,去e,去o之路)

(就是少用  I BM代表小型机  E MC代表企业级存储, O racle代表企业级数据库
使用pc服务器和hadoop来部分代替上述软件的作用)

大量使用普通的pc服务器(去掉机箱,外设,硬盘),

提供有冗余的集群服务 全世界多个数据中心,有些附带发电厂 运营商向Google倒付费

Hadoop的起源 --Lucene

Doug Cutting开创的开源源软件,用java书写的代码,实现与Google类似的全文搜索功能,

它提供了全文检索引擎的框架,包括完整的查询引擎和索引引擎 早期发布在个人网站和SourceFage上 ,

2001年底成为Apache软件基金会jakarta的一个子项目 Lucene的目的是为软件开发人员提供一套简单易用的工具包,

以方便的在目标系统中实现全文检索的功能 对于大数据量的检索,lucene面临这和Google一样的困难。

迫使DougCutting学习和模仿Google解决这些问题的方法 一个微缩版nutch

从 Lucene到nutch ,从nutch到Hadoop

2003-2004年,Google公开了部分GFS和MapReduce的思想细节,

以此为基础,DougCutting等人用了2年的业余时间实现了DFS和MapReduce机制,

使Nutch性能飘升 Yahoo招安了DougCutting及其子项目

Hadoop于2005秋天作为Lucene的子项目Nutch的一部分正式引入Apache基金会。

2006年3月份,MapReduce和Nutch Distributed FileSystem (NDFS)分别是被纳入到Hadoop的项目中

名字来源于DougCutting儿子的一个玩具大象

Doug Cutting

目前Hadoop达到的高度

传统场景:面临的问题

Hadoop的思想

Hadoop 2.x、 生态系统

大数据处理业务应用

大型网站Web服务器的日志分析:一个大型网站的Web服务器集群,

每5分钟收录的点击日志高达800GB左右,峰值点击每秒达到900万次。

每隔5分钟将数据装载到内存中,高速计算网站的热点URL,

并将这些信息反馈给前端缓存服务器,以提高缓存命中率。

运营商流量经营分析:每天的流量数据在2TB~5TB左右,拷贝到HDFS上,通过交互式分析引擎框架,

能运行几百个复杂的数据清洗和报表业务,总时间比类似硬件配置的小型机集群和DB2快2~3倍。

IPTV收视统计与点播推荐:一个实时收视率统计和点播推荐系统,可以实时收集用户的遥控器操作,

提供实时的收视率榜单;并且根据内容推荐和协同过滤算法,实现了点播推荐服务。

城市交通卡口视频监控信息的实时分析:采用基于流式 Stream进行全省范围的交通卡口通过视频监控收录的信息进行实时分析、

告警和统计(计算实时路况),对全省范围内未年检车辆或套牌车的分析延时在300毫秒左右,

可以做出实时告警,所以开车的朋友最好要按时年检。

培养三大能力

1)学习能力 自我学习能力,接受新鲜事物。

2)解决问题能力 发现 问题、分析问题(静下心来)、解决问题(如何解决)

3)沟通交际能力 与人打交通,肯定与沟通交际,不要与同事上司还是下属关系不好。

Hadoop: The Definitive Guide

Apache Hadoop 起源

Apache Lucene 开源的高性能全文检索工具包

Apache Nutch 开源的 Web 搜索引擎

Google 三大论文MapReduce / GFS / BigTable

Apache Hadoop 大规模数据处理

Apache Hadoop 版本演化

大数据Hadoop安装过程

Hadoop 环境准备 使用SCP传输数据 安装JDK 安装Hadoop

安装包目录结构

05Hadoop 概论的更多相关文章

  1. Atitit.研发团队与公司绩效管理的原理概论的attilax总结

    Atitit.研发团队与公司绩效管理的原理概论的attilax总结 1. 四个理念 1 1.1. 绩效管理的三个目的.四个环节.五个关键2 1.2. 绩效目标smart2 2. 考核对象2 3. 绩效 ...

  2. Atitit.软件研发团队建设原理与概论 理论

    Atitit.软件研发团队建设原理与概论 理论 培训 团队文化建设(内刊,ppt,书籍,杂志等) 梯队建设 技术储备人才的问题 团队建设--小红花评比. 团队建设--文化墙.doc 户外拓展 1. 团 ...

  3. Atitit 输入法原理与概论ati use

    Atitit 输入法原理与概论ati use 1.1. 输入法技术点1 1.2. 参考多多输入法设置2 1.3. Attilax博客集合知识点2 1.4. 输入法的书籍当当几乎没有..都是打字的.2 ...

  4. atitit.http原理与概论attilax总结

    atitit.http原理与概论attilax总结 1. 图解HTTP 作者:[日]上野宣 著1 2. HTTP权威指南(国内首本HTTP及其相关核心Web技术权威著作)1 3. TCP/IP详解(中 ...

  5. Atitit.软件架构高扩展性and兼容性原理与概论实践attilax总结

    Atitit.软件架构高扩展性and兼容性原理与概论实践attilax总结 1. 什么是可扩展的应用程序?1 2. 松耦合(ioc)2 3. 接口的思考 2 4. 单一用途&模块化,小粒度化2 ...

  6. Atitit.可视化与报表原理与概论

    Atitit.可视化与报表原理与概论 1.  信息可视化1 2. Gui可视化1 3. 报表系统(三大图表,金字塔,组织结构图等)1 4. <可视化数据>目录3 5. 可视化的具体实现(c ...

  7. Atitit 游戏的原理与概论attilax总结

    Atitit 游戏的原理与概论attilax总结 1. 游戏历史2 1.1.1. 盘点PC游戏史上最重要的50款游戏2 1.1.2. 回味人类文明进程 五款经典的历史游戏2 2. 游戏类型(主要分为6 ...

  8. Atitit 软件国际化原理与概论

    Atitit 软件国际化原理与概论 语言和文化习俗因地域不同而差别很大.对某一特定的地域的 语言环境称为"locale".它不仅包括语言和货币单位,而且还包括 数字标示格式, 日期 ...

  9. Atitit 《控制论原理与概论attilax总结

    Atitit <控制论原理与概论attilax总结 <控制论> 奠基之作,出自创始人维纳.虽然内容权威,但我认为带有相当强烈的个人色彩,且门槛较高,不适合入门.深入研究控制论必看书籍 ...

随机推荐

  1. mysql建表基本语法

    mysql添加约束的两种条件: ------表的内部添加(约束) 列名1 数据类型 (int) primary key auto_increment,---主键默认不能为空的 列名2 数据类型 not ...

  2. spyder 快捷键

    本文主要介绍了spyder的快捷键. 常用快捷键   快捷键 中文名称 Ctrl+R 替换文本 Ctrl+1 单行注释,单次注释,双次取消注释 Ctrl+4 块注释,单次注释,双次取消注释 F5 运行 ...

  3. 回调函数的原理及PHP实例

    背景:在最近的一个开发项目中,用户要先调用服务才能开始进行一系列的查询活动,想了好久,经同事提醒, 用回调函数即可解决该问题.在这里,对PHP下回调函数的原理及实现分别做一下讲解. 1 什么是回调 软 ...

  4. ASP.NET -- 一般处理程序ashx

    ASP.NET  --   一般处理程序ashx 如果在一个html页面向服务器端请求数据,可用ashx作为后台页面处理数据.ashx适合用作数据后台处理,相当于WebForm中的aspx.cs文件或 ...

  5. 【Teradata】并行操作工具

    1.psh并行shell //单机模式 psh date psh pdestate -a psh verify_pdisks //交互模式 psh psh.>help psh.>selec ...

  6. ubuntu集群下ssh配置总结

    最重要的前提就是:集群中的所有机器的用户名和用户组必须一样 一般做法都是在每台机器上新建用户组和用户名. 比如:sudo addgroup sparks 新建用户组sparks: sudo addus ...

  7. RPC入门总结(一)RPC定义和原理

    转载:深入浅出 RPC - 浅出篇 转载:RPC框架与Dubbo完整使用 转载:深入浅出 RPC - 深入篇 转载:远程调用服务(RPC)和消息队列(Message Queue)对比及其适用/不适用场 ...

  8. luogu P4735 最大异或和

    嘟嘟嘟 省选竟然考了一个可持久化trie,就挑着我不会的考. 话说考场上我确实写了一个trie的做法,只不过一直没调出来然后就只剩暴力分了. 现在想想实在是太蠢了,明明对算法没有把握,却头脑一热在这题 ...

  9. 小a的子序列 (线性dp)

    思路:设dp[i][j]表示最大数为j,i为第i的位置的萌值.那么推导过程就是两种情况:1.第i位数不放数字,则结果就是dp[i-1][j]; 2.第i位放数字,则结果就是前面的萌值sum+dp[i- ...

  10. 【转】APK反编译

    学习和开发Android应用有一段时间了,今天写一篇博客总结一下Android的apk文件反编译.我们知道,Android应用开发完成之后,我们最终都会将应用打包成一个apk文件,然后让用户通过手机或 ...