Hadoop ecosystem notes Outline - TODO】的更多相关文章

Motivation Sometimes I fell like giving up, then I remember I have a lot of motherfuckers to prove wrong. Audience Scope Hadoop concepts and APIs MapReduce patterns HBase APIs and use cases Hive APIs and use case Progress 2015/07/23 init Content Refe…
How did it all start- huge data on the web! Nutch built to crawl this web data Huge data had to saved- HDFS was born! How to use this data? Map reduce framework built for coding and running analytics – java, any language-streaming/pipes How to get in…
本文总结了Hadoop生态系统中各个组件使用的端口,包括了HDFS,Map Reduce,HBase,Hive,Spark,WebHCat,Impala,Alluxio,Sqoop等,后续会持续更新. HDFS Ports: Service Servers Default Ports Used Protocol Description Need End User Access? Configuration Parameters NameNode WebUI Master Nodes (NameN…
Cascading: hadoop上面的workflow Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递 2) Nutch,互联网数据及Nutch搜索引擎应用 3) HDFS,Hadoop的分布式文件系统 5) MapReduce,分布式计算框架 6) Flume.Scribe,Chukwa数据收集,收集非结构化数据的工具. 7) Hiho.Sqoop,讲关系数据库中的数据导入HDFS的工具…
MongoDB Connector for Hadoop https://github.com/mongodb/mongo-hadoop Purpose The MongoDB Connector for Hadoop is a library which allows MongoDB (or backup files in its data format, BSON) to be used as an input source, or output destination, for Hadoo…
hadoop 是什么? 1. 适合海量数据的分布式存储与计算平台. 海量: 是指 1T 以上数据. 分布式: 任务分配到多态虚拟机上进行计算. 2. 多个任务是怎么被分配到多个虚拟机当中的? 分配是需要网络通讯的.而且是需要启动资源 或者 消耗一些硬件上的配置. 单 JVM 关注的如何『处理』,而不是交给其他人进行处理这个 『管理』的过程.  所以最开始有两个关键的字  『适合』, 只有当数据量超过 1T 的大数据处理才能凸显 hadoop 的优势;    当然,用 hadoop 处理 几十G.…
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan  .该系列课程是应邀实验楼整理编写的,这里需要赞一下实验楼提供了学习的新方式,可以边看博客边上机实验,课程地址为 https://www.shiyanlou.com/courses/237 [注]该系列所使用到安装包.测试数据和代码均可在百度网盘下载,具体地址为 http://pan.baidu.c…
Hadoop版本演进 当前Hadoop有两大版本:Hadoop 1.0和Hadoop 2.0. Hadoop1.0被称为第一代Hadoop,由分布式文件系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应Hadoop版本为0..x..x.其中0..x是比较稳定的版本,最后演化为1. x,变成稳定版本..x则增加了NameNode HA等新特性. 第二代…
原文:http://zhuanlan.zhihu.com/donglaoshi/19962491 作者: 董飞       提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x 进化到目前的2.6版本.我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充.我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给…
导读 HBase – Hadoop Database,是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群. 一.Hbase简介 HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统:Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce…