Hadoop大数据平台构建

基础：linux常用命令、Java编程基础
大数据：科学数据、金融数据、物联网数据、交通数据、社交网络数据、零售数据等等。

Hadoop: 一个开源的分布式存储、分布式计算平台.（基于Apache）

Hadoop的组成：
　　HDFS:分布式文件系统，存储海量的数据。
　　MapReduce:并行处理框架，实现任务分解和调度。

Hadoop的用处：

　　搭建大型数据仓库，PB级数据的存储、处理、分析、统计等业务。

　　比如搜索引擎、网页的数据处理，各种商业智能、风险评估、预警，还有一些日志的分析、数据挖掘的任务。

Hadoop优势：高扩展、低成本、成熟的生态圈(Hadoop Ecosystem Map)

Hadoop开源工具：

Hive：将SQL语句转换成一个hadoop任务去执行，降低了使用Hadoop的门槛。
HBase:存储结构化数据的分布式数据库，habase提供数据的随机读写和实时访问，实现对表数据的读写功能。
zookeeper:就像动物管理员一样，监控hadoop集群里面每个节点的状态，管理整个集群的配置，维护节点针之间数据的一次性等等。

hadoop的版本尽量选稳定版本，即较老版本。

===============================================

Hadoop的安装与配置：
1）在Linux中安装JDK，并设置环境变量
　 安装jdk: >> sudo apt-get install openjdk-7-jdk
　 设置环境变量：

　　>> vim /etc/profile

　　>> :wq

2)下载Hadoop,并设置Hadoop环境变量
下载hadoop解压缩:

>> cd /opt/hadoop-1.2.1/

>> ls

>> vim /etc/profile

>>:wq

3）修改4个配置文件
（a）修改hadoop-env.sh,设置JAVA_HOME
（b）修改core-site.xml,设置hadoop.tmp.dir, dfs.name.dir, fs.default.name
（c）修改mapred-site.xml, 设置mapred.job.tracker
（d）修改hdfs-site.xml,设置dfs.data.dir

>> cd conf
>> ls

>> vim mapred-site.xml

>> :wq

>> vim core-site.xml

第一部分

第二部分

>> :wq

>> vim hdfs-site.xml

>> :wq

>> vim hadoop-env.sh

>> :wq

# hadoop格式化
>> hadoop namenode -format

# hadoop启动
>> start-all.sh

# 通过jps命令查看当前运行进程
>> jps

看见以下进程即说明hadoop安装成功

Hadoop大数据平台构建的更多相关文章

【HADOOP】| 环境搭建：从零开始搭建hadoop大数据平台（单机/伪分布式）-下
因篇幅过长,故分为两节,上节主要说明hadoop运行环境和必须的基础软件,包括VMware虚拟机软件的说明安装.Xmanager5管理软件以及CentOS操作系统的安装和基本网络配置.具体请参看: [ ...
数据仓库和Hadoop大数据平台有什么差别？
广义上来说,Hadoop大数据平台也可以看做是新一代的数据仓库系统, 它也具有很多现代数据仓库的特征,也被企业所广泛使用.因为MPP架构的可扩展性,基于MPP的数据仓库系统有时候也被划分到大数据平台类 ...
hadoop大数据平台安全基础知识入门
概述以 Hortonworks Data Platform (HDP) 平台为例 ,hadoop大数据平台的安全机制包括以下两个方面: 身份认证即核实一个使用者的真实身份,一个使用者来使用大数据引 ...
单机，伪分布式，完全分布式-----搭建Hadoop大数据平台
Hadoop大数据——随着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快.信息更是爆炸性增长,收集,检索,统计这些信息越发困难,必须使用新的技术来解决这 ...
Hadoop大数据平台入门——HDFS和MapReduce
随着硬件水平的不断提高,需要处理数据的大小也越来越大.大家都知道,现在大数据有多火爆,都认为21世纪是大数据的世纪.当然我也想打上时代的便车.所以今天来学习一下大数据存储和处理. 随着数据的不断变大, ...
Hadoop大数据平台搭建之前期配置（2）
环境:CentOS 7.4 (1708 DVD) 工具:VMware.MobaXterm 一. 克隆大数据集群 1. 选中已经进行了基本配置的虚拟机,进行克隆. 2. 此处改为"创建完整克 ...
Hadoop大数据平台之Zookeeper搭建
环境:CentOS 7.4 (1708 DVD) 工具:MobaXterm 1. 使用xftp将hadoop上传到/usr/local目录下,将其解压并重命名. 2. 修改环境变量并source. ...
Hadoop大数据平台节点的动态增删
环境:CentOS 7.4 (1708 DVD) 工具:MobaXterm 一. 节点的动态增加 1. 为新增加的节点(主机)配置免密码登录.使用ssh-keygen和ssh-copy-id命令(详 ...
Hadoop大数据平台搭建之前期配置（1）
环境:CentOS 7.4 (1708 DVD) 工具:VMware.MobaXterm 一. 网络配置 1. 在VMware中安装虚拟机,此步骤不作赘述. 2. 镜像文件保留在固定目录下,网络适配 ...

随机推荐

CentOS7下安装caffe（包括ffmpeg\boost\opencv）
因为有项目想采用深度学习,而caffe是深度学习框架中比较理想的一款,并且跨平台,以及可以采用python/matlab的方式进行调用等优势,所以想在服务器上安装,下面就开始了血泪史... 服务器是阿 ...
Android 获取系统语言(兼容7.0)
转载连接:http://likfe.com/2017/05/10/android-sys-language/ 前言获取系统当前语言是一个比较常用的功能,在 Android 7.0 系统上旧函数获取到 ...
Charles抓取https请求
最近公司将Windows产品的http请求,替换成https请求了,当https请求超过5次失败,就自动切换回http请求.测试时使用Charles抓包测试. 一.http抓包 http抓包比较简单, ...
go语言练习：文件哈希
package main import ( "crypto/sha256" "encoding/hex" "fmt" "io&qu ...
为什么Sql Server的查询有时候第一次执行很慢，第二次，第三次执行就变快了
老外提问: Hi, I have an sql query which takes 8 seconds in the first run. The next run there after takes ...
迁移MSSQL实例的所有login（包含密码）
迁移数据库的时候肯定会涉及到login的迁移(包含数据库除外). 而一般我们迁移login的时候,可能会使用在某个login上右键生成脚本这样的做法.但是这样生成的脚本不能把密码也生成出来. 而且你只 ...
【Redis数据库】命令学习笔记——发布订阅、事务、脚本、连接等命令汇总
本篇基于redis 4.0.11版本,学习发布订阅.事务.脚本.连接的相关命令. Redis 发布订阅(pub/sub)是一种消息通信模式:发送者(pub)发送消息,订阅者(sub)接收消息. 序号 ...
转：C#综合揭秘——细说多线程（下）
原文地址:http://www.cnblogs.com/leslies2/archive/2012/02/08/2320914.html 引言本文主要从线程的基础用法,CLR线程池当中工作者线程与I ...
Linux 中 FQDN 查询及设置
FQDN:(Fully Qualified Domain Name)全限定域名:同时带有主机名和域名的名称其实就是标注一个主机的完整域名.比如我的域名为 ifrom.top 那么它的邮件服务器的主机 ...
ODS设计
1.数据调研 2.确定数据范围需要把上端应用需求与ODS数据范围进行验证,以确保应用所需的数据都已经从业务系统中抽取出来,并且得到了很好的组织,以ER模型表示数据主题关系 3.根据数据范围进行进一步 ...

Hadoop大数据平台构建

Hadoop大数据平台构建的更多相关文章

随机推荐

热门专题