Hadoop自学笔记(一)常见Hadoop相关项目一览
本自学笔记来自于Yutube上的视频Hadoop系列。网址:
https://www.youtube.com/watch?v=-TaAVaAwZTs(当中一个)
以后不再赘述
自学笔记,难免有各类错误纰漏。请看者谨慎。
Hadoop的使用还有大数据时代什么的就不说了。Hadoop不是一个单独的工具,而是一整个生态系统。包括一系列工具。所以首先要先介绍一下Hadoop相关的工具和各类概念,是以后经常会接触到的。
1. Hadoop Core
a) HDFS Hadoop分布式文件系统,Hadoop的核心之中的一个。会把TB, PB, ZB的数据切割成为以64M(默认)大小的数据块分布存储在不同硬盘上,而且给予备份(默认3份)
b) MapReduce Hadoop的数据处理模型。
简单来说,处理能够分为Map阶段和Reduce阶段。Map阶段找出要处理的数据,Reduce阶段来处理这些数据得到想要的结果。
c) YARN 未来版本号,相当于MapReduce2.0版。
一些升级比方。原来的MapReduce系统中,有JobTracker和TaskTracker,前者关注Name Node, 后者关注TaskNode, 在YARN里面JobTracker 会更仔细一点,分成几个分别关注job或者data等
2. Hadoop Projects
a) Pig,Hive:负责分析数据的。有点类似Hadoop里面的SQL工具。主要是由于每次使用就去写MapReduce程序太麻烦(并且也不是人人都喜欢java),所以有这些工具来提供类SQL的支持。差别是Pig更像提供了一种脚本语言,然后会将其转化为MapReduce, 而Hive提供类SQL语言。叫HiveQL。
b) HBase, Cassandra. HBase是NOSQL类的数据库。Hadoop的数据存储方式。而且与Pig和Hive无缝集成,基于google的big table, 能够支持数百万列和亿行的数据。
Cassandra主要涉及用来与Hadoop数据进行即时交互的工具。
c) HCatalog, Lucene, Hama, Crunch: HCatalog是日志工具,能够记录我们用不同的工具如Pig, Hive的查询记录等。Lucene提供搜索功能。各类搜索。Hama在分析科学研究数据时候经常使用,Crunch用来表现MapReduce的pipeline。上述四个工具都能够提供可视化的界面。
d) Avro, Thrift: 提供数据的序列化/,让我们能够把数据序列化后在不同的程序间共享。Avro能够说是Hadoop基本的数据序列化工具。 Thrift主要用于不同开发语言间的数据序列化。
e) Drill, Mahout: 数据智能化。Drill用于数据挖掘;Mahout用于数据分类等。比方依据你听的音乐智能推荐。
3. Hadoop Incubation:
a) Sqoop: 关系数据库和hadoop之间的数据交换
b) Flume: 即时日志处理系统
c) Chukwa:
d) Zookeeper:同步server和不同的Cluster之间和合作,同一时候提供统一管理界面
e) Oozie: 大致相当于任务管理,比方先完毕一个Pig,然后再做一个Hive,然后Sqoop转换,用Oozie控制
f) Knok。安全控制
g) HDT。用eclipse来开发Hadoop,比方MapReduce等。
h) Spark:宣称比Hadoop快上百倍,主要把hadoop硬盘操作的东西放入内存中操作。Shark类似Spark,相相应hive.
i) Ambari:管理整个project的工具
j) 具体每一种工具,能够去incubator.apache.org/projects/
Hadoop自学笔记(一)常见Hadoop相关项目一览的更多相关文章
- Hadoop自学笔记(三)MapReduce简单介绍
1. MapReduce Architecture MapReduce是一套可编程的框架,大部分MapReduce的工作都能够用Pig或者Hive完毕.可是还是要了解MapReduce本身是怎样工作的 ...
- hadoop学习笔记--找到执行hadoop的入口
参与个hadoop项目,之前没搞过,赶紧学习: 照葫芦画瓢,得到代码是hdfs2local.sh脚本和LiaoNingFilter.jar包,迫不及待用jd-gui打开jar包,搜索到main(在MA ...
- Hadoop自学系列集(三) ---- Hadoop安装
这节就开始讲述Hadoop的安装吧.在这之前先配置下SSH免密码登录,为什么需要配置这个呢?大家都知道Hadoop集群中可能有几十台机器甚至是上千台机器,而每次启动Hadoop都需要输入密码才能够登录 ...
- Hadoop自学系列集(四) ---- Hadoop集群
久等了,近期公司比较忙,学习的时间都没有啊,到今日才有时间呢!!!好了,下面就跟着笔者开始配置Hadoop集群吧. hosts文件和SSH免密码登录配置好了之后,现在进入Hadoop安装目录,修改一些 ...
- Hadoop学习笔记—20.网站日志分析项目案例
1.1 项目来源 本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖.回帖,如图1所示. 图1 项目来源网站-技术学习论坛 本次实践的目的就在于 ...
- Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:当前页面 网站日志分析项目案例 ...
- Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍
网站日志分析项目案例(一)项目介绍:当前页面 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例 ...
- Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:http://www.cnbl ...
- Hadoop自学笔记(五)配置分布式Hadoop环境
上一课讲了怎样在一台机器上建立Hadoop环境.我们仅仅配置了一个NHName Node, 这个Name Node里面包括了我们全部Hadoop的东西.包括Name Node, Secondary N ...
随机推荐
- 第一篇、Android Supersu 权限管理定制,隐藏过滤权限,指定APP最高权限
近期有个需求,在预装ROM的时候,须要权限,可是又不同意全部的应用都有权限,仅仅同意自己的应用有最高的权限(当然没有系统签名情况下). 所以.编译了CM 提取了supersu进行了二次定制,让他进行权 ...
- 高校学生学籍系统C++&mysql
/* C++程序设计实践教学环节任务书 一.题目:高校学籍管理系统 二.目的与要求 1. 目的: 1.掌握C++语言基本知识及其编程方法 2.掌握类和对象的基本概念与用法 3.掌握面向对象中的继承与 ...
- oracle如何创建数据库
第一步: 从Windows桌面执行“开始”→“Database Configuration Assistant”命令,打开Database Configuration Assistant对话框的欢迎界 ...
- ES等待任务——是master节点上的task任务
等待中的任务编辑 有一些任务只能由主节点去处理,比如创建一个新的 索引或者在集群中移动分片.由于一个集群中只能有一个主节点,所以只有这一节点可以处理集群级别的元数据变动.在 99.9999% 的时间里 ...
- 一个Python项目的创建架构
要进行Python项目的编写,很多人刚开始一筹莫展,不知道该如何去构建一个项目,现在粗略的描述一下一个项目的创建过程,供大家参考了解一下: 大家可以先忽略其中创建的函数 ,每个包的含义都有定义,大家可 ...
- ubuntu下Chrome谷歌浏览器部分网站图片显示不正常的解决方法
title: ubuntu下Chrome谷歌浏览器部分网站图片显示不正常的解决方法 toc: false date: 2018-09-02 14:37:26 categories: methods t ...
- 依赖注入Unity框架
依赖注入和控制反转是对同一件事情的不同描述,从某个方面讲,就是它们描述的角度不同.依赖注入是从应用程序的角度在描述,可以把依赖注入描述完整点:应用程序依赖容器创建并注入它所需要的外部资源:而控制反转是 ...
- windows中安装redis的phpredis扩展
1. 下载php的redis扩展 打开网址 http://pecl.php.net/ (php的扩展库官网),搜索redis,进入地址:http://pecl.php.net/package/redi ...
- 理解z-index和css中的层叠顺序问题(大神技术博的读后感?)
一直对 z-index不太理解,今天看到了大神的博客...http://www.zhangxinxu.com/wordpress/tag/z-index/ 1.层叠上下文:是一个名词!是一个性质!此时 ...
- Vue 菜单栏点击实现高亮显示
步骤: 遍历对象(goods)获取菜单栏每一项的对象(item)和下标(index) 添加点击事件toggle(),传入下标参数:@click="fn1();fn2()" 动态切换 ...