一、大数据介绍

1、大数据指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息。

2、大数据,可帮助我们能察觉商业趋势、判断研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等。

3、麦肯锡全球研究院(MGI)预测,到2020年,全球数据使用量预计达到35ZB(1ZB=1000EB,1EB=1000PB,1PB=1000TB,1TB=1000GB).

4、Google每天要处理的数据高达几百PB。百度每天处理数据几十PB。腾讯微信活跃用户数达7亿,每天产生的数据量上百TB,2016年除夕当日,微信红包的参与人数达到4.2亿人,收发总量达80.8亿个。

5、多源异构:描述同一主题的数据由不同的用户、不同的网站产生。网络数据有多种不同的呈现形式,如音视频、图片、文本等,导致网络数据格式上的异构性。

6、交互性:不同于测量和传感获取的大规模科学数据,微博等社交网络兴起导致大量网络数据具有很强的交互性。

7、时效性:在网络平台上,每时每刻都有大量新的网络数据发布,网络信息内容不断变化,导致了信息传播的时序相关性。

8:社会性:网络上用户根据自己的需要和喜好发布、恢复或转发信息,因为网络数据成了对社会状态的直接反应。

9、突发性:有些信息在传播过程中会短时间内引起大量新的网络数据与信息的产生,并使相关的网络用户形成网络群体,体现出网络大数据以及网络群体的突发特性。

10、高噪声:网络数据来自于众多不同的网络用户,具有很高的噪声。

二、Hadoop介绍

1、Hadoop是一个开源分布式计算平台架构,基于apache协议发布,由java语言开发。官方网址 http://Hadoop.apache.org

2、Hadoop两大核心组件:HDFS(分布式文件系统,为分布式计算提供了数据存储)和MapReduce(应用程序被分成许多小部分,而每个部分都能在集群中的任意节点上运行,一句话就是人物的分解和结果的汇总)。

3、另外两个模块:Common、YARN。

4、其他和Hadoop相关的项目:Ambari、Avro、Cassandra、Chukwa、Hbase、Hive、Mahout、Pig、Spark、Tez、ZooKeeper。

5、Hadoop支持有廉价的计算机搭建集群,有强大的冗余机制。

6、Hadoop在各大互联网企业中应用广泛,百度使用Hadoop进行搜索日志的分析和网页数据的挖掘工作;淘宝使用Hadoop存储并处理电子商务交易相关数据;facebook使用Hadoop进行数据分析和机器学习。

7、还有那些企业在使用Hadoop?可通过此站点进行查看:http://wiki.apache.org/Hadoop/PoweredBy

三、Hadoop组件和相关项目介绍

1、Common:为其他组件提供常用工具支持。

2、YARN:作业调度和集群管理的框架。

3、Ambari:是Apache Software Foundation中的一个项目。就Ambari的作用来说。就是创建、管理、监视Hadoop的集群,但是这里Hadoop是广义,指的是Hadoop整个生态圈(例如Hive,Hbase,ZooKeeper等)。用一句话来说,Ambari就是为了让Hadoop以及相关的大数据软件更容易使用的一个工具。Ambari下载安装方法:http://www.ibm.com/developerworks/cn/opensource/os-cn-bigdata-ambari/index.html

4、Avro:Avro是Hadoop中的一个子项目,也是Apache中一个独立的项目,Avro是一个基于二进制数据传输高性能的中间件,在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具,Avro是一个数据序列化的系统,Avro可以将数据结构或对象转化成便于存储或传输的格式,Avro设计之初用来支持数据密集型应用,适合于远程或本地大规模数据的存储和交换。官方地址:http://www.open-open.com/lib/view/open1369363962228.html

5、Cassandra:可扩展的多主数据库,不存在单点故障。

6、Chukwa:是数据收集系统,用于监控和分析大型分布式系统的数据。

7、HBase:是一个分布式面向列的数据库。

8、Hive:最早由facebook设计,是建立在Hadoop基础之上的数据仓库,它提供了一些用于数据整理、特殊查询和分析在Hadoop文件中数据集工具。

9、Mahout:可扩展的机器学习和数据挖掘库。

10、Pig:是一种高级语言和并行计算可执行框架,他是对一个大型数据集分析和评估的平台。

11、Spark:一个快速和通用计算的Hadoop数据引擎。和MapReduce类似,但是要比MapReduce快,它提供了一个简单而丰富的编程模型,支持多种应用,包括ETL、机器学习、数据流处理、图形计算。参考文档:http://www.techweb.com.cn/network/system/2016-01-25/2267414.shtml

12、Tez:是Apache最新的支持DAG作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。Tez并不直接面向最终用户,事实上他允许开发者为最终给用户构建性能更快、扩展性更好的应用程序。Hadoop传统上还有一些工作则不太适合MapReduce,例如机器学习,Tez的目的就是帮助Hadoop处理这些用例场景。

13、ZooKeeper:ZooKeeper是一组工具,用来配置和支持分布式调度,一个重要功能就是对所有节点进行配置的同步,他能处理分布式应用的“部分失败”问题,部分失败是分布式处理系统的固有特征,即发送者无法知道接受者是否收到消息,它的出现可能和网络传输问题、接受进程意外死掉等有关。ZooKeeper是Hadoop生态系统的一部分,但又远不止如此,它能支持更多类似的分布式平台和系统,如Jubatus,Cassender等等。

Hadoop及其相关组件简介的更多相关文章

  1. hadoop以及相关组件介绍以及个人理解

    前言 本人是由java后端转型大数据方向,目前也有近一年半时间了,不过我平时的开发平台是阿里云的Maxcompute,通过这么长时间的开发,对数据仓库也有了一定的理解,ETL这些经验还算比较丰富.但是 ...

  2. 【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之RAC 工作原理和相关组件(三)

    RAC 工作原理和相关组件(三) 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体 ...

  3. Spark学习之基础相关组件(1)

    Spark学习之基础相关组件(1) 1. Spark是一个用来实现快速而通用的集群计算的平台. 2. Spark的一个主要特点是能够在内存中进行计算,因而更快. 3. RDD(resilient di ...

  4. 【转】【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之RAC 工作原理和相关组件(三)

    原文地址:http://www.cnblogs.com/baiboy/p/orc3.html 阅读目录 目录 RAC 工作原理和相关组件 ClusterWare 架构 RAC 软件结构 集群注册(OC ...

  5. HBase的部署与其它相关组件(Hive和Phoenix)的集成

    HBase的部署与其它相关组件(Hive和Phoenix)的集成 一.HBase部署 1.1.Zookeeper正常部署 首先保证Zookeeper集群的正常部署,并启动之: /opt/module/ ...

  6. Hadoop框架:HDFS简介与Shell管理命令

    本文源码:GitHub·点这里 || GitEE·点这里 一.HDFS基本概述 1.HDFS描述 大数据领域一直面对的两大核心模块:数据存储,数据计算,HDFS作为最重要的大数据存储技术,具有高度的容 ...

  7. node.js及相关组件安装

    第一步:下载安装文件(下载地址:官网http://www.nodejs.org/download/ )第二步:安装nodejs(双击直接安装) 安装完成后使用命令行查看版本信息,出现版本号说明安装成功 ...

  8. Netty 源码(一)Netty 组件简介

    Netty 源码(一)Netty 组件简介 Netty 系列目录(https://www.cnblogs.com/binarylei/p/10117436.html) 一.Netty 架构 Core: ...

  9. 转载:【Oracle 集群】RAC知识图文详细教程(三)--RAC工作原理和相关组件

    文章导航 集群概念介绍(一) ORACLE集群概念和原理(二) RAC 工作原理和相关组件(三) 缓存融合技术(四) RAC 特殊问题和实战经验(五) ORACLE 11 G版本2 RAC在LINUX ...

随机推荐

  1. Scrum Meeting 4-20151204

    任务安排 姓名 今日任务 明日任务 困难 董元财 学习上拉加入新的listview 无 胡亚坤 设计优化聊天页面 无 刘猛 请假(参加编译测试,提前准备) 无 马汉虎 请假(参加编译测试,提前准备) ...

  2. iOS FMDB的使用

    简介: SQLite (http://www.sqlite.org/docs.html) 是一个轻量级的关系数据库.iOS SDK 很早就支持了 SQLite,在使用时,只需要加入 libsqlite ...

  3. eventloop & actor模式 & Java线程模型演进 & Netty线程模型 总结

    eventloop的基本概念可以参考:http://www.ruanyifeng.com/blog/2013/10/event_loop.html Eventloop指的是独立于主线程的一条线程,专门 ...

  4. Pycharm使用问题# Interpreter设置

    Pycharm可以迅速更换interpreter版本. 在菜单栏选择File-Settings打开Settings设置对话框,选择展开Interpreter选项: 使用列表右侧的+和—即可增加和删除I ...

  5. 被table单元格colspan属性折磨了

    基础知识不牢固,被colspan折磨了很长时间 table里面的td使用colspan前提条件是所跨的单元格宽度必须一样,不然显示效果会是属性不起作用或直接导致表格变形,下面的例子可以看出效果 < ...

  6. [Selenium] 拖拽一个 Component 到 Workspace

    先使Component可见,获取Component位置信息,获取Workspace位置信息,点击Component并拖拽到Workspace,最后释放.(调试时dragAndDropOffset()方 ...

  7. ERWin 7.2下载安装及注册机

    ERWin 7.2下载安装及注册机   ERWin 7.2 下载地址: ftp://ftp.ca.com/CAproducts/erwin/ServicePacks/AFEDM72-b1644.exe ...

  8. "struct"类型重定义解决办法

    #ifndef 在头文件中的作用 在一个大的软件工程里面,可能会有多个文件同时包含一个头文件,当这些文件编译链接成一个可执行文件时,就会出现大量 “重定义”的错误. 在头文件中使用#ifndef #d ...

  9. Canvas 画布小案例

    <script> window.onload = function () { draw('canvas1'); draw('canvas2'); draw('canvas3'); draw ...

  10. 把DataTable中的数据拼接成XML时遇到的问题

    错误信息:System.Web.Services.Protocols.SoapException: System.Web.Services.Protocols.SoapException: Serve ...