Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功能DFS和MapReduce, DFS可以理解为一个分布式文件系统,存储而已,所以这里暂时就不深入研究了,等后面读了其源码后,再来深入分析. 所以这里主要来研究一下MapReduce. 这样,我们先来看一下MapReduce的思想来源: alert("I'd like some Spaghetti!…
要想深入学习Hadoop分布式文件系统,首先需要搭建Hadoop的实验环境,Hadoop有两种安装模式,即单节点集群模式安装(也称为伪分布式)和完全分布式模式安装,本节只介绍单节点模式的安装,参考官方文档: http://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-common/SingleCluster.html 由于Hadoop是运行在Linux/Unix平台,如果读者使用的是Windows操作系统,需要在虚拟机中搭建Li…
本文原创,如需转载,请注明作者和原文链接 1.集群搭建的前期准备   见      搭建分布式hadoop环境的前期准备---需要检查的几个点 2.解压tar.gz包 [root@node01 ~]# cd software/ [root@node01 software]# ll 总用量 -rw-r--r-- root root 2月 hadoop-.tar.gz [root@node01 software]# tar xf hadoop-.tar.gz -C /opt/sxt/ [root@n…
为了学习这部分的功能,我们这里的linux都是使用root用户登录的.所以每个命令的前面都有一个#符号. 伪分布模式安装步骤: 关闭防火墙 修改ip地址 修改hostname 设置ssh自动登录 安装JDK 安装hadoop 1. 关闭防火墙 具体的操作过程参见博文:我用过的Linux命令--关闭防火墙 2. 修改ip地址,设置静态ip地址 这里使用Host-only的方式,注意虚拟机的网关地址要写windows对应的软网卡的IP地址.CentOS重新启动网络的命令: #service netw…
安装前的一些环境配置: 1. 给用户添加sudo权限,输入su - 进入root账号,然后输入visudo,进入编辑模式,找到这一行:"root ALL=(ALL) ALL"在下面添加"xxx ALL=(ALL) ALL"(这里的xxx是你的用户名),然后保存退出 2. 将JDK压缩包解压到某一目录下tar -zxvf jdk-8u71-linux-x64.gz,并且配置JAVA_HOME以及HADOOP_HOME参数.用文本编辑器打开/etc/profile, 在…
具体的过程参见伪分布模式的安装,集群模式的安装和伪分布模式的安装基本一样,只有细微的差别,写在下面: 修改masers和slavers文件: 在hadoop/conf文件夹中的配置文件中有两个文件masters和slavers两文件,分别记录物理机器的主节点和从节点.分别以文本格式把主节点和从节点的名字写入到这两个文件中. 向各个节点复制hadoop: 在一个节点中安装好hadoop并且配置好了hadoop/conf/…下的一些配置文件之后,就能把hadoop复制到各个节点了: #scp -r…
Hadoop是适合大数据的分布式存储与计算平台 HDFS的架构:主从式结构 主节点只有一个NameNode,从节点可以有很多个DataNode. NameNode负责: (1)接收用户操作请求 (2)维护文件系统的目录结构 (3)管理文件与block之间关系,block与DataNode之间联系 DataNode负责: (1)存储文件 (2)文件被分成block存储在磁盘上 (3)为保证数据安全,文件会有多个副本 NameNode和DataNode是指不同的独立的物理机器. 类比:积木拼图,Na…
HDFS和MapReduce是Hadoop的两大核心. 整个Hadoop体系结构主要是通过HDFS来实现分布式存储的底层支持的,而且通过MapReduce来实现分布式并行任务处理的程序支持. 一.HDFS体系结构 HDFS採用了主从(Master/Slave)结构模型.一个HDFS集群是由一个NameNode和若干个DataNode组成的.当中,NameNode作为主server.管理文件系统的命名空间和client对文件的訪问操作:集群中的DataNode管理存储的数据.HDFS典型的部署是在…
Hadoop学习笔记(1) ——菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分布式系统基础架构,由Apache基金会所开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储. Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高传输率(high throughput)来访问应用程序…
以下是hadoop学习笔记的顺序: hadoop学习笔记(一):概念和组成 hadoop学习笔记(二):centos7三节点安装hadoop2.7.0 hadoop学习笔记(三):hdfs体系结构和读写流程(转) hadoop学习笔记(四):hdfs常用命令 hadoop学习笔记(五):java api 操作hdfs hadoop学习笔记(六):HBase体系结构和数据模型…