hadoop是什么？新手自学hadoop教程【附】大数据系统学习教程

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

Hadoop是一个专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式。

Hadoop=HDFS（文件系统，数据存储技术相关）+ Mapreduce（数据处理），Hadoop的数据来源可以是任何形式，在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能，具有更灵活的处理能力，不管任何数据形式最终会转化为key/value，key/value是基本数据单元。

用函数式变成Mapreduce代替SQL，SQL是查询语句，而Mapreduce则是使用脚本和代码，而对于适用于关系型数据库，习惯SQL的Hadoop有开源工具hive代替。

hadoop使用java编写，版本较为混乱，初学者可从1.2.1开始学习

1.成百上千台服务器组成集群，需要时刻检测服务器是否故障

2.用流读取数据更加高效快速

3.存储节点具有运算功能，省略了服务器之间来回传数据的网络带宽限制

4.一次写入，多次访问，不修改数据

5.多平台

namenode:master，负责总体调度，处理协调请求等

（一个集群只能有一个namenode，但是可以多个集群组成一个更大的集群，这时就有多个namenode，这时的namenode有两种状态，一种叫active并且一个大集群只能有一个namenode处于该状态，一种为standby）

namenode两大功能：接受客户端读写服务，存放元数据（DataNode存储的位置等基本信息，fsimage和edits文件）

fsimage是namenode格式化时产生的，edits是用户操作增删改查的时候生成的日志

datanode:slave，存储节点，会备份，一般本地2分，其他服务器一份

机架:多个DataNod节点组成，master通过机架感知技术得知所需数据的位置

数据块:存储单元，一般64M（hadoop2中是128M）

时刻保持心跳通讯，保证每个数据都备份于3个节点上

5的read为第一个数据块读完后，读下一个数据块，如果在读取过程中某一个数据块出问题，则会记录下来并且找其他的备份，并且以后不再读取错误数据块

map负责分批运算，如果要统计1TB数据中my的出线次数，则可以启用100个map，每个map统计0.01TB数据，最终由reduce汇总

作业（Job）：运行一个MapReduce所需要用到的所有jar组件

任务（Task）：mapTask和ReduceTask

Key相同的结果进行reduce统计合并

作业提交一般提交jar包和配置文件

调度一般来说默认采取FIFO调度，即先考虑优先级，然后先进先出

TaskTracker会不断想JobTracker传达任务信息，如果空闲会主动申请作业

一般的生产环境都是完全分布式模式。

以上资料可以关注我公众号：免费获取

hadoop是什么？新手自学hadoop教程【附】大数据系统学习教程的更多相关文章

从零自学Hadoop系列索引
本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 从零自学Hadoop(01):认识Hadoop ...
深度学习教程 | Seq2Seq序列模型和注意力机制
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/35 本文地址:http://www.showmeai.tech/article-det ...
新手推荐:Hadoop安装教程_单机/伪分布式配置_Hadoop-2.7.1/Ubuntu14.04
下述教程本人在最新版的-jre openjdk-7-jdk OpenJDK 默认的安装位置为: /usr/lib/jvm/java-7-openjdk-amd64 (32位系统则是 /usr/lib/ ...
自学Hadoop（一）
主要是在自学一些根据以下两份文档来自己摸索.第二份文档是最后的时候,碰到一个问题的搜到的,因为觉得不错.所以放在这里.如果只是想要能跑起来的话,直接跟着这篇文章做.就可以.hadoop版本为2 ...
从零自学Hadoop(22)：HBase协处理器
阅读目录序介绍 Observer操作示例下载系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,Sour ...
从零自学Hadoop(20)：HBase数据模型相关操作上
阅读目录序介绍命名空间表系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 ...
从零自学Hadoop(21)：HBase数据模型相关操作下
阅读目录序变量数据模型操作系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 ...
从零自学Hadoop(19)：HBase介绍及安装
阅读目录序介绍安装系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序上一篇, ...
从零自学Hadoop(18)：Hive的CLI和JDBC
阅读目录序 Hive CLI(old CLI) Beeline CLI(new CLI) JDBC Demo下载系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出 ...

随机推荐

win10专业版激活（亲测可用）
1.slmgr.vbs /upk 2.slmgr /ipk W269N-WFGWX-YVC9B-4J6C9-T83GX 3.slmgr /skms zh.us.to 4.slmgr /ato
windows10怎么开机启动虚拟机
将如下脚本添加到windows计划任务中即可 "D:\Program Files (x86)\VMware\VMware Workstation\vmplayer.exe" &qu ...
BZOJ 1641 [Usaco2007 Nov]Cow Hurdles 奶牛跨栏：新版floyd【路径上最大边最小】
题目链接:http://www.lydsy.com/JudgeOnline/problem.php?id=1641 题意: 给你一个有向图,n个点(n <= 300),m条边,边权为h[i]. ...
BZOJ 1680 [Usaco2005 Mar]Yogurt factory：贪心【只用考虑上一个】
题目链接:http://www.lydsy.com/JudgeOnline/problem.php?id=1680 题意: 在接下来的n周内,第i周生产一吨酸奶的成本为c[i],订单为y[i]吨酸奶. ...
JS工具函数汇总
备注:http://phpjs.org/ 这个站点把PHP常用的方法用js实现了,推荐一下 1.从数组中随机获取几个不重复项 //从一个给定的数组arr中,随机返回num个不重复项 function ...
mysql八：ORM框架SQLAlchemy
阅读目录一介绍二创建表三增删改查四其他查询相关五正查.反查一介绍 SQLAlchemy是Python编程语言下的一款ORM框架,该框架建立在数据库API之上,使用关系对象映射进 ...
【C】四则运算生成和核对器----by郁卓、谢明浩
[Github项目地址] 完成功能: 1. 使用 -n 参数控制生成题目的个数 2. 使用 -r 参数控制题目中数值(自然数.真分数和真分数分母)的范围 3. 生成的题目中计算过程不能产生负数,也就是 ...
resEdit
resEdit:一个图形界面编辑工具,它不但可以用来编写程序所图形界面(如修改图标.菜单.鼠标.版本信息等),还支持了对exe.dll等执行文件内的资源(图标.菜单.鼠标指针.位图.版本信息)等进行修 ...
集训Day1
雅礼集训2017Day1的题感觉上不可做实际上还挺简单的吧 T1 区间加区间除法向下取整查询区间和区间最小值大力上线段树,把除法标记推到底,加法标记就是按照线段树的来先拿30 然后60的数 ...
HDU5875Function（单调队列）
The shorter, the simpler. With this problem, you should be convinced of this truth. You are giv ...

hadoop是什么？新手自学hadoop教程【附】大数据系统学习教程

hadoop是什么？新手自学hadoop教程【附】大数据系统学习教程的更多相关文章

随机推荐

热门专题