Hadoop下各技术应用场景

数据采集和DataFlow

对于数据采集主要分为三类，即结构化数据库采集，日志和文件采集，网页采集。对于结构化数据库，采用Sqoop是合适的，可以实现结构化数据库中数据并行批量入库到hdfs存储。对于网页采集，前端可以采用Nutch，全文检索采用lucense，而实际数据存储最好是入库到Hbase数据库。对于日志文件的采集，现在最常用的仍然是flume或chukwa，但是我们要看到如果对于日志文件数据需要进行各种计算处理再入库的时候，往往flume并不容易处理，这也是为何可以采用Pig来做进一步复杂的data flow和process的原因。

数据采集类似于传统的ETL等工作，因此传统ETL工具中的数据清洗，转换，任务和调度等都是相当重要的内容。这一方面是要基于已有的工具，进行各种接口的扩展以实现对数据的处理和清洗，一方面是加强数据采集过程的调度和任务监控。

数据存储库

数据存储在这里先谈三种场景下的三种存储和应用方式，即Hbase，Hive，impala。其中三者都是基于底层的hdfs分布式文件系统。hive重点是sql-batch查询，海量数据的统计类查询分析，而impala的重点是ad-hoc和交互式查询。hive和impala都可以看作是基于OLAP模式的。而Hbase库是支撑业务的CRUD操作，各种业务操作下的处理和查询。

如何对上面三种模式提供共享一致的数据存储和管理服务，HCatalog是基于Apache Hadoop之上的数据表和存储管理服务。提供统一的元数据管理，而不需要知道具体的存储细节当然是最好的，但是Hcatalog本身也还处于完善阶段，包括和Hive ,Pig的集成。

基于Mysql的MPP数据库Infobright是另外一个MPP(share nothing)数据分析库的选择，如果本身已有的业务系统就是基于Mysql数据库的，那么采用Infobright来做作为一个OLAP分析库也是一个选择。但是本身
Infobright的性能，Infobright社区版的稳定性，管控功能的缺失等仍然是需要考量的因素。

对于mapreduce和zookeeper本身就已经在hbase和hive中使用到了。如hive的hsql语言需要通过mapreduce解析和合并等。而对于impala要注意到本身是基于内存的MPP机制，没有用到mapreduce框架去处理，Dremel之所以能在大数据上实现交互性的响应速度，是因为使用了两方面的技术：一是对有嵌套结构的嵌套关系型数据采用了全新的列式存储格式，一是分布式可扩展统计算法，能够在几千台机器上并行计算查询结果。

实时流处理

这个hadoop框架本身没有包含，在此也做一个分析，前面已经摘录过文章对实时流处理做过介绍，而实际上真正实时流处理的场景并不多，任何一个技术的出现都是为了解决实际的业务问题。比如twitter推出storm可以解决实时热点查询和排序的问题，基于一个巨大的海量数据数据库，如果不是这种基于增量stream模式的分布式实时任务计算和推送，很难真正满足都业务对性能的要求。

同样对于s4和storm只是提供了一个开源的实时流处理框架，而真正的任务处理逻辑和代码仍然需要自己去实现，而开源框架只是提供了一个框架，提供了基本的集群控制，任务采集，任务分发，监控和failover的能力。真正在企业内部应用来看，很少有这种实时流场景，而与之对应的CEP复杂事件处理和EDA事件驱动架构，这个前面很多文章也都谈到过，这个基于消息中间件实现的事件发布订阅和推送，事件链的形成相对来说更加成熟。

Hadoop下各技术应用场景的更多相关文章

[hadoop读书笔记] Hadoop下各技术应用场景
1.数据采集对于数据采集主要分为三类,即结构化数据库采集,日志和文件采集,网页采集. 对于结构化数据库,采用Sqoop是合适的,可以实现结构化数据库中数据并行批量入库到hdfs存储.对于网页采集,前 ...
成都大数据Hadoop与Spark技术培训班
成都大数据Hadoop与Spark技术培训班中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师 ...
hadoop应用开发技术详解
<大数据技术丛书:Hadoop应用开发技术详解>共12章.第1-2章详细地介绍了Hadoop的生态系统.关键技术以及安装和配置:第3章是 MapReduce的使用入门,让读者了解整个开发 ...
《Hadoop应用开发技术详解》
<Hadoop应用开发技术详解> 基本信息作者: 刘刚丛书名: 大数据技术丛书出版社:机械工业出版社 ISBN:9787111452447 上架时间:2014-1-10 出版日期:2 ...
《2016ThoughtWorks技术雷达峰会----js爆炸下的技术选型》
JS爆炸下的技术选型刘尚奇 ThoughtWorks, 高级咨询师 JS每6个星期出现一个新框架,那么如何进行JS的选型.以下从四个方面来分析. 1.工具 NPM for all the t ...
超人学院Hadoop大数据技术资源分享
超人学院Hadoop大数据技术资源分享 http://bbs.superwu.cn/forum.php?mod=viewthread&tid=807&fromuid=645 很多其它精 ...
在本机eclipse中创建maven项目，查看linux中hadoop下的文件、在本机搭建hadoop环境
注意第一次建立maven项目时需要在联网情况下,因为他会自动下载一些东西,不然突然终止需要手动删除断网前建立的文件在eclipse里新建maven项目步骤直接新建maven项目出了错 ...
hadoop下安装mahout
安装hadoop 完成安装mahout 首先下载mahout压缩文件apache-mahout-distribution-0.12.2.tar.gz 放到/home/hadoop/software- ...
hadoop包含哪些技术？
1.Hadoop包含哪些技术?Common, Avro, MapReduce, HDFS, Pig, Hive, Hbase, ZooKeeper, Sqoop, Oozie. 2.简介Common: ...

随机推荐

iOS swift使用xib绘制UIView
目标:用xib绘制一个UIView,在某个ViewController中调用. 三个文件:ViewController.Swift DemoView.swift DemoView.xib ...
Coordinate System
Coordinate System Introduction of Different Coordinate Systems Cartesian Coordinate System UI Coordi ...
RedHat7/Windows7搭建JAVA开发环境（Eclipse）
RedHat7搭建JAVA开发环境安装JAVA # yum install java 安装Tomcat # yum install tomcat 确认Tomcat版本 # tomcat versio ...
CentOS7添加第三方源
CentOS由于很追求稳定性,所以官方源中自带的软件不多,因而需要一些第三方源,比如EPEL.ATrpms.ELRepo.Nux Dextop.RepoForge等. EPEL EPEL即Extra ...
linux下安装apache2.2.27
1.首先下载httpd-2.2.27.tar.gz用linux命令下载 wget http://mirrors.cnnic.cn/apache//httpd/httpd-2.2.27.tar.gz 2 ...
Caused by: java.lang.ClassNotFoundException: com/sun/tools/internal/xjc/api/XJC
Caused by: java.lang.ClassNotFoundException: com/sun/tools/internal/xjc/api/XJC 缺少com/sun/tools/inte ...
25、Javascript 事件
Javascript 事件是指 Javascript 捕获到用户的操作,并做出正确的相应. Javascript 事件一般与DOM元素绑定. Javascript处理事件的基本机制 1.对DOM元素 ...
曾经感动过我们的文字今天是否还有印象？——v1
①人最宝贵的东西是生命.生命对人来说只有一次.因此,人的一生应当这样度过:当一个人回首往事时,不因虚度年华而悔恨,也不因碌碌无为而羞愧;这样,在他临死的时候,能够说,我把整个生命和全部精力都献给了人生 ...
github上建站和使用markdown写文章
积累了那么久,终于成功搭建了github上的个人网站.虽然方法有点巧妙.不是还是建成了同时学会用markdown写基本的文章.感觉还可以.附带我的github上的静态页面网站的网址:http://z ...
使用 C# 编程对RTF文档的支持
http://www.68design.net/Development/Aspnet/Basis-AspNet/26011-1.html

Hadoop下各技术应用场景

Hadoop下各技术应用场景的更多相关文章

随机推荐

热门专题