05Hadoop 概论
Hadoop的思想之源:Google Google搜索引擎
,Gmail,安卓,
AppspotGoogle Maps,
Google earth,Google 学术,
Google翻译,Google+,下一步Google what??
Google的低成本之道
不使用超级计算机,不使用存储(淘宝的去i,去e,去o之路)
(就是少用 I BM代表小型机 E MC代表企业级存储, O racle代表企业级数据库
使用pc服务器和hadoop来部分代替上述软件的作用)
大量使用普通的pc服务器(去掉机箱,外设,硬盘),
提供有冗余的集群服务 全世界多个数据中心,有些附带发电厂 运营商向Google倒付费
Hadoop的起源 --Lucene
Doug Cutting开创的开源源软件,用java书写的代码,实现与Google类似的全文搜索功能,
它提供了全文检索引擎的框架,包括完整的查询引擎和索引引擎 早期发布在个人网站和SourceFage上 ,
2001年底成为Apache软件基金会jakarta的一个子项目 Lucene的目的是为软件开发人员提供一套简单易用的工具包,
以方便的在目标系统中实现全文检索的功能 对于大数据量的检索,lucene面临这和Google一样的困难。
迫使DougCutting学习和模仿Google解决这些问题的方法 一个微缩版nutch
从 Lucene到nutch ,从nutch到Hadoop
2003-2004年,Google公开了部分GFS和MapReduce的思想细节,
以此为基础,DougCutting等人用了2年的业余时间实现了DFS和MapReduce机制,
使Nutch性能飘升 Yahoo招安了DougCutting及其子项目
Hadoop于2005秋天作为Lucene的子项目Nutch的一部分正式引入Apache基金会。
2006年3月份,MapReduce和Nutch Distributed FileSystem (NDFS)分别是被纳入到Hadoop的项目中
名字来源于DougCutting儿子的一个玩具大象
Doug Cutting
目前Hadoop达到的高度
传统场景:面临的问题
Hadoop的思想
Hadoop 2.x、 生态系统
大数据处理业务应用
大型网站Web服务器的日志分析:一个大型网站的Web服务器集群,
每5分钟收录的点击日志高达800GB左右,峰值点击每秒达到900万次。
每隔5分钟将数据装载到内存中,高速计算网站的热点URL,
并将这些信息反馈给前端缓存服务器,以提高缓存命中率。
运营商流量经营分析:每天的流量数据在2TB~5TB左右,拷贝到HDFS上,通过交互式分析引擎框架,
能运行几百个复杂的数据清洗和报表业务,总时间比类似硬件配置的小型机集群和DB2快2~3倍。
IPTV收视统计与点播推荐:一个实时收视率统计和点播推荐系统,可以实时收集用户的遥控器操作,
提供实时的收视率榜单;并且根据内容推荐和协同过滤算法,实现了点播推荐服务。
城市交通卡口视频监控信息的实时分析:采用基于流式 Stream进行全省范围的交通卡口通过视频监控收录的信息进行实时分析、
告警和统计(计算实时路况),对全省范围内未年检车辆或套牌车的分析延时在300毫秒左右,
可以做出实时告警,所以开车的朋友最好要按时年检。
培养三大能力
1)学习能力 自我学习能力,接受新鲜事物。
2)解决问题能力 发现 问题、分析问题(静下心来)、解决问题(如何解决)
3)沟通交际能力 与人打交通,肯定与沟通交际,不要与同事上司还是下属关系不好。
Hadoop: The Definitive Guide
Apache Hadoop 起源
Apache Lucene 开源的高性能全文检索工具包
Apache Nutch 开源的 Web 搜索引擎
Google 三大论文MapReduce / GFS / BigTable
Apache Hadoop 大规模数据处理
Apache Hadoop 版本演化
大数据Hadoop安装过程
Hadoop 环境准备 使用SCP传输数据 安装JDK 安装Hadoop
安装包目录结构
05Hadoop 概论的更多相关文章
- Atitit.研发团队与公司绩效管理的原理概论的attilax总结
Atitit.研发团队与公司绩效管理的原理概论的attilax总结 1. 四个理念 1 1.1. 绩效管理的三个目的.四个环节.五个关键2 1.2. 绩效目标smart2 2. 考核对象2 3. 绩效 ...
- Atitit.软件研发团队建设原理与概论 理论
Atitit.软件研发团队建设原理与概论 理论 培训 团队文化建设(内刊,ppt,书籍,杂志等) 梯队建设 技术储备人才的问题 团队建设--小红花评比. 团队建设--文化墙.doc 户外拓展 1. 团 ...
- Atitit 输入法原理与概论ati use
Atitit 输入法原理与概论ati use 1.1. 输入法技术点1 1.2. 参考多多输入法设置2 1.3. Attilax博客集合知识点2 1.4. 输入法的书籍当当几乎没有..都是打字的.2 ...
- atitit.http原理与概论attilax总结
atitit.http原理与概论attilax总结 1. 图解HTTP 作者:[日]上野宣 著1 2. HTTP权威指南(国内首本HTTP及其相关核心Web技术权威著作)1 3. TCP/IP详解(中 ...
- Atitit.软件架构高扩展性and兼容性原理与概论实践attilax总结
Atitit.软件架构高扩展性and兼容性原理与概论实践attilax总结 1. 什么是可扩展的应用程序?1 2. 松耦合(ioc)2 3. 接口的思考 2 4. 单一用途&模块化,小粒度化2 ...
- Atitit.可视化与报表原理与概论
Atitit.可视化与报表原理与概论 1. 信息可视化1 2. Gui可视化1 3. 报表系统(三大图表,金字塔,组织结构图等)1 4. <可视化数据>目录3 5. 可视化的具体实现(c ...
- Atitit 游戏的原理与概论attilax总结
Atitit 游戏的原理与概论attilax总结 1. 游戏历史2 1.1.1. 盘点PC游戏史上最重要的50款游戏2 1.1.2. 回味人类文明进程 五款经典的历史游戏2 2. 游戏类型(主要分为6 ...
- Atitit 软件国际化原理与概论
Atitit 软件国际化原理与概论 语言和文化习俗因地域不同而差别很大.对某一特定的地域的 语言环境称为"locale".它不仅包括语言和货币单位,而且还包括 数字标示格式, 日期 ...
- Atitit 《控制论原理与概论attilax总结
Atitit <控制论原理与概论attilax总结 <控制论> 奠基之作,出自创始人维纳.虽然内容权威,但我认为带有相当强烈的个人色彩,且门槛较高,不适合入门.深入研究控制论必看书籍 ...
随机推荐
- mysql建表基本语法
mysql添加约束的两种条件: ------表的内部添加(约束) 列名1 数据类型 (int) primary key auto_increment,---主键默认不能为空的 列名2 数据类型 not ...
- spyder 快捷键
本文主要介绍了spyder的快捷键. 常用快捷键 快捷键 中文名称 Ctrl+R 替换文本 Ctrl+1 单行注释,单次注释,双次取消注释 Ctrl+4 块注释,单次注释,双次取消注释 F5 运行 ...
- 回调函数的原理及PHP实例
背景:在最近的一个开发项目中,用户要先调用服务才能开始进行一系列的查询活动,想了好久,经同事提醒, 用回调函数即可解决该问题.在这里,对PHP下回调函数的原理及实现分别做一下讲解. 1 什么是回调 软 ...
- ASP.NET -- 一般处理程序ashx
ASP.NET -- 一般处理程序ashx 如果在一个html页面向服务器端请求数据,可用ashx作为后台页面处理数据.ashx适合用作数据后台处理,相当于WebForm中的aspx.cs文件或 ...
- 【Teradata】并行操作工具
1.psh并行shell //单机模式 psh date psh pdestate -a psh verify_pdisks //交互模式 psh psh.>help psh.>selec ...
- ubuntu集群下ssh配置总结
最重要的前提就是:集群中的所有机器的用户名和用户组必须一样 一般做法都是在每台机器上新建用户组和用户名. 比如:sudo addgroup sparks 新建用户组sparks: sudo addus ...
- RPC入门总结(一)RPC定义和原理
转载:深入浅出 RPC - 浅出篇 转载:RPC框架与Dubbo完整使用 转载:深入浅出 RPC - 深入篇 转载:远程调用服务(RPC)和消息队列(Message Queue)对比及其适用/不适用场 ...
- luogu P4735 最大异或和
嘟嘟嘟 省选竟然考了一个可持久化trie,就挑着我不会的考. 话说考场上我确实写了一个trie的做法,只不过一直没调出来然后就只剩暴力分了. 现在想想实在是太蠢了,明明对算法没有把握,却头脑一热在这题 ...
- 小a的子序列 (线性dp)
思路:设dp[i][j]表示最大数为j,i为第i的位置的萌值.那么推导过程就是两种情况:1.第i位数不放数字,则结果就是dp[i-1][j]; 2.第i位放数字,则结果就是前面的萌值sum+dp[i- ...
- 【转】APK反编译
学习和开发Android应用有一段时间了,今天写一篇博客总结一下Android的apk文件反编译.我们知道,Android应用开发完成之后,我们最终都会将应用打包成一个apk文件,然后让用户通过手机或 ...