hadoop分布式存储（1）-hadoop基础概念（毕业设计）

hadoop是一种用于海量数据存储、管理、分析的分布式系统。需要hadoop需要储备一定的基础知识：1、掌握一定的linux操作命令 2、会java编程。因此hadoop必须安装在有jdk的linux环境中。

linux环境可以用以下方式获取：1、安装linux操作系统 2、安装linux虚拟机 3、在阿里云、UniteStack上租一个云主机，创建linux环境，然后用putty去链接。

linux下jdk的安装：百度即可。

与hadoop相关联的一些基础知识：

Google大数据技术：

1.MapReduce：概念"Map（映射）"和"Reduce（归约）"，它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。

2.BigTable：是Google设计的分布式数据存储系统，用来处理海量的数据的一种非关系型的数据库

3.GFS：是一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上，并提供容错功能。它可以给大量的用户提供总体性能较高的服务。

hadoop革命性变

1.成本降低，能用PC机，不用大型机和高端存储

2.软件容错硬件故障视为常态，通过软件保证可靠性

3.简化并行分布式计算，无须控制节点同步和数据交换

Hadoop的功能和优势

1.Hadoop是开源的分布式存储和分布式计算平台

2.Hadoop的组成：HDFS:分步实施文件系统，存储海量数据  MapReduce：并行处理框架，实现任务分解和调度

3.Hadoop的用途：搭建大型数据仓库，PB级数据存储、处理、分析、统计等业务（搜索引擎、日志分析、商业智能、数据挖掘）

4.Hadoop优势：高扩展、低成本（普通PC机）、成熟的生态圈

hadoop生态系统：

1.hdfs

2.mapreduce

3.相关开源工具：

（1）hive：将简单的sql语句转化为hadoop任务，降低使用hadoop的门槛

（2）HBASE：区别于传统数据库：存储结构化数据的分布式数据库，放弃事务特性，追求更高的扩展，它提供数据的随机读写和实时访问，实现对表数据的读写功能

（3）zookeeper:监控Hadoop集群里的每个节点的状态，管理整个集群的配置，维护数据节点之间的一致性

Hadoop版本最高2.6，初学者建议1.2（ver1.2-稳定）

hadoop分布式存储（1）-hadoop基础概念（毕业设计）的更多相关文章

一文理解Hadoop分布式存储和计算框架入门基础
@ 目录概述定义发展历史发行版本优势生态项目架构组成模块 HDFS架构 YARN架构部署部署规划前置条件部署步骤下载文件(三台都执行) 创建目录(三台都执行) 配置环境变量( ...
[hadoop] 一些基础概念
一.云的概念 1.云计算的概念随时随地使用任何设备获得任何服务 2.趋势 )资料开始回归集中处理(存储大量资料) 随时存取降低遗失风险减少传输成本促进团队协作 )网页变为预设开发平台(网 ...
Hadoop基础概念介绍
基于YARN的配置信息, 参见: http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/ hadoop入门 - 基础概念 ...
hadoop概述测试题和基础模版代码
hadoop概述测试题和基础模版代码 1.Hadoop的创始人是DougCutting?() A.正确 B.错误答对了!正确答案:A解析:参考课程里的文档,这个就不解释了2.下列有关Hadoop的说法 ...
沉淀，再出发——在Hadoop集群的基础上搭建Spark
在Hadoop集群的基础上搭建Spark 一.环境准备在搭建Spark环境之前必须搭建Hadoop平台,尽管以前的一些博客上说在单机的环境下使用本地FS不用搭建Hadoop集群,可是在新版spark ...
hadoop基础----hadoop实战(七)-----hadoop管理工具---使用Cloudera Manager安装Hadoop---Cloudera Manager和CDH5.8离线安装
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍简介我们在上篇文章中已经了解了CDH,为了后续的学习,我们本章就来 ...
hadoop基础----hadoop实战(九)-----hadoop管理工具---CDH的错误排查(持续更新)
在CDH安装完成后或者CDH使用过程中经常会有错误或者警报,需要我们去解决,积累如下: 解决红色警报时钟偏差这是因为我们的NTP服务不起作用导致的,几台机子之间有几秒钟的时间偏差. 这种情况下一是 ...
hadoop基础----hadoop理论(四)-----hadoop分布式并行计算模型MapReduce具体解释
我们在前一章已经学习了HDFS: hadoop基础----hadoop理论(三)-----hadoop分布式文件系统HDFS详细解释我们已经知道Hadoop=HDFS(文件系统,数据存储技术相关)+ ...
揭秘FaceBook Puma演变及发展——FaceBook公司的实时数据分析平台是建立在Hadoop 和Hive的基础之上，这个根能立稳吗？hive又是sql的Map reduce任务拆分，底层还是依赖hbase和hdfs存储
在12月2日下午的“大数据技术与应用”分论坛的第一场演讲中,来自全球知名互联网公司——FaceBook公司的软件工程师.研发经理邵铮就带来了一颗重磅炸弹,他将为我们讲解FaceBook公司的实时数据处 ...
Hadoop YARN学习之核心概念（2）
Hadoop YARN学习之核心概念(2) 1. Hadoop 2.X YARN引入的新服务 1.1 新的ResourceManager纯碎作为资源调度器,是集群资源的唯一仲裁者: 1.2 用户应用程 ...

随机推荐

Linux 搭建Java web服务器
未经允许,不得转载 1.jdk的下载与配置 1.1下载 sudo wget http://download.oracle.com/otn-pub/java/jdk/8u45-b14/jdk-8u45- ...
通过数组和枚举简化GPIO操作编码
在工作中,经常遇到大量使用GPIO作为数字量输入输出来控制设备或采集状态,每次定义操作不同的GPIO针脚既麻烦又容易出错,于是就想要简化操作过程.对于数字量输入来说就是采集对应针脚的状态:而输出则是根 ...
MYSQL字符类型数值排序
今天遇到MySQL数字排序问题,我的排序字段是经过计算后的,而计算后的字段直接拿来排序就会按照字符一个个排序,所以这里找到简单的方法, ORDER BY 排序字段* 或者 ORDER BY 排序字段+ ...
(转)REDIS各项配置参数介绍
# 默认情况下,redis不是在后台模式运行的,如果需要在后台进程运行,把该项的值更改为yes,默认为no daemonize:是否以后台daemon方式运行 # 如redis服务以后台进程运行的时候 ...
redis的安装及使用
Redis介绍: 1.redis是一个开源的使用ANSI C语言编写.支持网络.可基于内存亦可持久化的日志型.Key-Value数据库,并提供多种语言的API. 2.redis是一个key-value ...
Objective-C歌词解析
#import <Foundation/Foundation.h> int main(int argc, const char * argv[]) { FILE* fp1;//定义文件指针 ...
Power BI for Office 365 概览
伴随着数据量的日益增长,通过自服务式的商业智能把数据转换成辅助决策支持的工具,越来越成为迫切的需求.在以前,处理这些数据往往只是IT人员范围内的事,但是通过Power BI for Office 36 ...
ubuntu14.04下配置Java环境以及安装最新版本的eclipse
首先是配置JDK 步骤一:下载最新版本的JDK,链接:http://www.oracle.com/technetwork/java/javase/downloads/index.html 步骤二:首先 ...
餐厅点餐系统app总结
总结: 三个冲刺已经结束,虽然没有说十分完美,但该实现的功能还是实现了,只是在市场是相较于专业性的缺乏竞争力,从界面到体验都需进一步优化. 每个人的进度不一样,为了同一个任务需要不断的磨合与合作,但慢 ...

hadoop分布式存储（1）-hadoop基础概念（毕业设计）

hadoop分布式存储（1）-hadoop基础概念（毕业设计）的更多相关文章

随机推荐

热门专题