分布式存储 (1) 5PB甚至更大的数据集怎么存储 ? 所有数据分块,每个数据块冗余存储在多台机器上(冗余可提高数据块高可用性).另外一台机器上启动一个管理所有节点.以及存储在各节点上面数据块的服务. (2)分布式存储集群: master/slave结构集群 存在于slave上的文件:表示真实存放数据的文件即本地磁盘文件 存在于master上的文件:表示逻辑文件,它表示这个逻辑文件全路径名,与这个全路径对应的有数据块的存储信息(数据块位置等) HDFS各组件及作用讲解 1.NameNode 名字…
Hadoop模块 提到大数据,Hadoop是一个绕不开的话题,我们来看看Hadoop本身包含哪些模块. Common是基础模块,这个是必须用的.剩下常用的就是HDFS和YARN. MapReduce现在用的比较少了,多数场景下会被Spark取代. Ozone是一个新组件,对象存储,可以看做是HDFS的升级版. HDFS组成 作为Hadoop的分布式文件系统,它的思想远比这个产品本身更重要.它主要包含这么几个组成部分: NameNode,主节点,用来保存元数据信息,包括文件属性.文件切成多少个Bl…
第1章 HDFS概述 1.1 HDFS产出背景及定义 1.2 HDFS优缺点 1.3 HDFS组成架构 1.4 HDFS文件块大小(面试重点) 第2章 HDFS的Shell操作(开发重点) 1.基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类. 2.命令大全 [atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop fs   [-appendToFile <localsrc> ... <dst&…
  第1章 大数据概论 1.1 大数据概念 大数据概念如图2-1 所示. 图2-1 大数据概念 1.2 大数据特点(4V) 大数据特点如图2-2,2-3,2-4,2-5所示 图2-2 大数据特点之大量 图2-3 大数据特点之高速 图2-4 大数据特点之多样 图2-5 大数据特点之低价值密度 1.3 大数据应用场景 大数据应用场景如图2-6,2-7,2-8,2-9,2-10,2-11所示 图2-6 大数据应用场景之物流仓储 图2-7 大数据应用场景之零售 图2-8 大数据应用场景之旅游 图2-9…
1 大数据概述 大数据特性:4v volume velocity variety value 即大量化.快速化.多样化.价值密度低 数据量大:大数据摩尔定律 快速化:从数据的生成到消耗,时间窗口小,可用于生成决策的时间非常少:1秒定律,这和传统的数据挖掘技术有着本质区别(谷歌的dremel可以在1秒内调动上千台服务器处理PB级数据) 价值密度低,商业价值高 大数据影响: 对科学研究影响:出现科学研究第四方式数据(前三个分别是实验.理论.计算) 对思维方式影响:全样而非抽样.效率而非准确.相关而非…
[摘要] 知乎上一篇很不错的科普文章,介绍大数据技术生态圈(Hadoop.Hive.Spark )的关系. 链接地址:https://www.zhihu.com/question/27974418 [问题] 如何用形象的比喻描述大数据的技术生态?Hadoop.Hive.Spark 之间是什么关系? [答案1] 学习很重要的是能将纷繁复杂的信息进行归类和抽象. 对应到大数据技术体系,虽然各种技术百花齐放,层出不穷,但大数据技术本质上无非解决4个核心问题. 1.存储,海量的数据怎样有效的存储?主要包…
本篇文章内容来自2016年TOP100summitWalmartLabs实验室广告平台首席工程师.架构师粟迪夫的案例分享. 编辑:Cynthia 粟迪夫:WalmartLabs实验室广告平台首席工程师.架构师 在大数据平台架构设计.消息中间件.分布式系统等领域有丰富经验. 作为技术负责人,帮助多家企业搭建了大数据平台和分布式系统. 目前主导WMX大数据平台.广告效益分析系统和实时数据管道的开发. 导读:作为世界上最大的商品零售商,沃尔玛每天都投放大量的广告.产生大量的商品交易,生成大量数据,需要…
我秀中国物联网地图服务平台目前接入的监控车辆近百万辆,每天采集GPS数据7亿多条,产生日志文件70GB,使用传统的数据处理方式非常耗时. 比如,仅仅对GPS做一些简单的统计分析,程序就需要几个小时才能跑完一天的数据,完全达不到实时分析的要求,更无法对数据进行一些深层次的挖掘. 另外历史数据的存储也是一个亟待解决的问题,目前大多采用的方式是将日志文件进行压缩后上传到服务器上进行存储. 这种方式既原始又不可靠,一是需要作业员每天定时手动上传数据,操作不方便:二是一旦存储数据的服务器出现问题,可能会造…
大数据技术之Hadoop3.1.2版本HA模式 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Hadoop的HA特点 1>.主备NameNode 2>.解决单点故障(属性,位置) .主NameNode对外提供服务,备NameNode同步主NameNode元数据一带切换: .所有DataNode同时向两个NameNode汇报数据块信息(位置): .JNN:集群(属性): .Standby:备,完成了edits.log文件的合并产生新的image,推送回ANN: 3>…
第1章 HBase简介 1.1 什么是HBase HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储. 官方网站:http://hbase.apache.org -- 2006年Google发表BigTable白皮书 -- 2006年开始开发HBase -- 2008年北京成功开奥运会,程序员默默地将HBase弄成了Hadoop的子项目 -- 2010年HBase成为Apache顶级项目 -- 现在很多公…