Hadoop大数据分析应用场景

　　为了满足日益增长的业务变化，京东的京麦团队在京东大数据平台的基础上，采用了hadoop等热门的开源大数据计算引擎，打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台。

　　一、Hadoop的应用业务分析

　　大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。

　　目前主流的三大分布式计算系统分别为:Hadoop、Spark和Strom：

　　Hadoop当前大数据管理标准之一，运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。

　　Spark采用了内存计算。从多迭代批处理出发，允许将数据载入内存作反复查询，此外还融合数据仓库，流处理和图形计算等多种计算范式。Spark构建在HDFS上，能与Hadoop很好的结合。它的RDD是一个很大的特点。

　　Storm用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的实时数据处理功能

　　Hadoop是使用Java编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。 Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。 Hadoop是专为从单一服务器到上千台机器扩展，每个机器都可以提供本地计算和存储。

　　Hadoop适用于海量数据、离线数据和负责数据，应用场景如下：

　　场景1：数据分析，如京东海量日志分析，京东商品推荐，京东用户行为分析

　　场景2：离线计算，(异构计算+分布式计算)天文计算

　　场景3：海量数据存储，如京东的存储集群

　　基于京麦业务三个实用场景

　　京麦用户分析

　　京麦流量分析

　　京麦订单分析

　　都属于离线数据，决定采用Hadoop作为京麦数据类产品的数据计算引擎，后续会根据业务的发展，会增加Storm等流式计算的计算引擎，下图是京麦的北斗系统架构图：

　　(图一)京东北斗系统

　　二、浅谈Hadoop的基本原理

　　Hadoop分布式处理框架核心设计

　　HDFS ：(Hadoop Distributed File System)分布式文件系统

　　MapReduce：是一种计算模型及软件架构

　　2.1 HDFS

　　HDFS(Hadoop File System)，是Hadoop的分布式文件存储系统。

　　将大文件分解为多个Block，每个Block保存多个副本。提供容错机制，副本丢失或者宕机时自动恢复。默认每个Block保存3个副本，64M为1个Block。将Block按照key-value映射到内存当中。

　　(图二)数据写入HDFS

　　(图三)HDFS读取数据

　　2.2 MapReduce

　　MapReduce是一个编程模型，封装了并行计算、容错、数据分布、负载均衡等细节问题。MapReduce实现最开始是映射map，将操作映射到集合中的每个文档，然后按照产生的键进行分组，并将产生的键值组成列表放到对应的键中。化简(reduce)则是把列表中的值化简成一个单值，这个值被返回，然后再次进行键分组，直到每个键的列表只有一个值为止。这样做的好处是可以在任务被分解后，可以通过大量机器进行并行计算，减少整个操作的时间。但如果你要我再通俗点介绍，那么，说白了，Mapreduce的原理就是一个分治算法。

　　算法：

　　MapReduce计划分三个阶段执行，即映射阶段，shuffle阶段，并减少阶段。

　　映射阶段：映射或映射器的工作是处理输入数据。一般输入数据是在文件或目录的形式，并且被存储在Hadoop的文件系统(HDFS)。输入文件被传递到由线映射器功能线路。映射器处理该数据，并创建数据的若干小块。

　　减少阶段：这个阶段是：Shuffle阶段和Reduce阶段的组合。减速器的工作是处理该来自映射器中的数据。处理之后，它产生一组新的输出，这将被存储在HDFS。

　　2.3 HIVE

　　hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行，这套SQL 简称HQL。使不熟悉mapreduce 的用户很方便的利用SQL 语言查询，汇总，分析数据。而mapreduce开发人员可以把己写的mapper 和reducer 作为插件来支持Hive 做更复杂的数据分析。

　　(图五)HIVE体系架构图

　　由上图可知，hadoop和mapreduce是hive架构的根基。Hive架构包括如下组件：CLI(command line interface)、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor)。

　　三、Hadoop走过来的那些坑

　　进行HIVE操作的时候，HQL写的不当，容易造成数据倾斜，大致分为这么几类：空值数据倾斜、不同数据类型关联产生数据倾斜和Join的数据偏斜。只有理解了Hadoop的原理，熟练使用HQL，就会避免数据倾斜，提高查询效率。

Hadoop大数据分析应用场景的更多相关文章

discuz论坛apache日志hadoop大数据分析项目：清洗数据核心功能解说及代码实现
discuz论坛apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现http://www.aboutyun.com/thread-8637-1-1.html(出处: about云 ...
大数据分析系统Hadoop的13个开源工具
Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来. 用户可以在不了解分布式底层细节的 ...
《Hadoop金融大数据分析》读书笔记
<Hadoop金融大数据分析> Hadoop for Finance Essentials 使用Hadoop,是因为数据量大数据量如此之多,以至于无法用传统的数据处理工具和应用来处理的数据 ...
使用Kylin构建企业大数据分析平台的4种部署方式
本篇博客重点介绍如何使用Kylin来构建大数据分析平台.根据官网介绍,其实部署Kylin非常简单,称为非侵入式安装,也就是不需要去修改已有的 Hadoop大数据平台.你只需要根据的环境下载适合的Kyl ...
《基于Apache Kylin构建大数据分析平台》
Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿武汉市云升科技发展有限公司董事长,<智慧城市-大数据.物联网和云计算之应用>作者 ...
《开源大数据分析引擎Impala实战》目录
当当网图书信息: http://product.dangdang.com/23648533.html <开源大数据分析引擎Impala实战>目录第1章 Impala概述.安装与配置.. ...
除Hadoop大数据技术外，还需了解的九大技术
除Hadoop外的9个大数据技术: 1.Apache Flink 2.Apache Samza 3.Google Cloud Data Flow 4.StreamSets 5.Tensor Flow ...
用Storm轻松实时大数据分析【翻译】
原文地址简单易用,Storm让大数据分析变得轻而易举. 如今,公司在日常运作中经常会产生TB(terabytes)级的数据.数据来源包括从网络传感器捕获的,到Web,社交媒体,交易型业务数据,以及其 ...
使用Storm实现实时大数据分析
摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战.Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Sto ...

随机推荐

Oracle笔记 #01# 简单分页
rownum是Oracle为查询结果分配的有序编号(总是从1~n).言下之意,rownum字段本来并不存在于表中,而是经查询后才分配的. 举一个例子: SELECT rownum, name, pri ...
django 分页函数
实现类似: 上一页 1 ... 4 5 7 8 ... 89 下一页的效果 def pageGenerate(fullList,pagenum,urltype,type,currpage): pag ...
Docker学习笔记之保存和共享镜像
0x00 概述让 Docker 引以为傲的是它能够实现相比于其他虚拟化软件更快的环境迁移和部署,在这件事情上,轻量级的容器和镜像结构的设计无疑发挥了巨大的作用.通过将容器打包成镜像,再利用体积远小于 ...
Docker学习笔记之Docker的数据管理和存储
0x00 概述数据是应用程序重要的产出,所以很好的管理和存储数据,是对应用程序劳动结果的尊重.特别是在大数据时代,所有的数据都是重要的资产,保护好数据是每个开发者必须掌握的技能.我们知道,在 Doc ...
python3 获取cookie解决方案
python3 获取cookie解决方案方案一: 利用selenium+phantomjs无界面浏览器的形式访问网站,再获取cookie值: from selenium import webdriv ...
01：adminLTE2基本使用
1.1 adminLTE介绍 1.adminLTE 介绍 1.基于Bootstrap3高度可定制的响应式管理模板,免去前端架构师大量的js和css的编写 2.adminLTE除了可以使用bootstr ...
vue2.0之echarts使用
1.首先下载echart依赖 npm install echarts --save备注:npm 安装报错时使用cnpm 2.全局注册在main.js里引入echart并在vue中注册echart / ...
Ymodem协议(参考STM32)
相信很多人都希望,不开盖就可以对固件进行升级吧,就像手机那些.下文中的bootload就来实现这样的功能. 前段时间有项目关于Bootload设计.所以就仔细的去了研究了一翻.以前都是用的stm32官 ...
分块读取Blob字段数据(MSSQL)
MSSQL中提供了一个功能,能够分块读取Blob字段中的数据,写了一个存储过程代码如下: CREATE PROCEDURE PRO_GET_FILE_DATA @PKG_ID INT, ...
【做题】CF239E. k-d-sequence——线段树
首先,容易得到判断一个子串为"good k-d sequence"的方法: 子串中没有重复元素,且所有元素模d相等. 记mx为除以d的最大值,mn为除以d的最小值,则\(mx-mn ...

Hadoop大数据分析应用场景

Hadoop大数据分析应用场景的更多相关文章

随机推荐

热门专题