Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功能DFS和MapReduce, DFS可以理解为一个分布式文件系统,存储而已,所以这里暂时就不深入研究了,等后面读了其源码后,再来深入分析. 所以这里主要来研究一下MapReduce. 这样,我们先来看一下MapReduce的思想来源: alert("I'd like some Spaghetti!…
假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop. 启动与关闭启动HADOOP1. 进入HADOOP_HOME目录. 2. 执行sh bin/start-all.sh 关闭HADOOP1. 进入HADOOP_HOME目录. 2. 执行sh bin/stop-all.sh 文件操作Hadoop使用的是HDFS,能够实现的功能和我们使用的磁盘系统类似.并且支持通配符,如*. 查看文件列表查看hdfs中/user/admin/aaron目录下的文件. 1. 进入H…
要想深入学习Hadoop分布式文件系统,首先需要搭建Hadoop的实验环境,Hadoop有两种安装模式,即单节点集群模式安装(也称为伪分布式)和完全分布式模式安装,本节只介绍单节点模式的安装,参考官方文档: http://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-common/SingleCluster.html 由于Hadoop是运行在Linux/Unix平台,如果读者使用的是Windows操作系统,需要在虚拟机中搭建Li…
本文原创,如需转载,请注明作者和原文链接 1.集群搭建的前期准备   见      搭建分布式hadoop环境的前期准备---需要检查的几个点 2.解压tar.gz包 [root@node01 ~]# cd software/ [root@node01 software]# ll 总用量 -rw-r--r-- root root 2月 hadoop-.tar.gz [root@node01 software]# tar xf hadoop-.tar.gz -C /opt/sxt/ [root@n…
一.设置HDFS不进行权限检查 默认的HDFS上的文件类似于Linux中的文件,是有权限的.例如test用户创建的文件,root用户如果没有写权限,则不能进行删除. 有2种办法进行修改,修改文件的权限.或者设置不进行HDFS的权限检查,在hdfs-site.xml中添加: <property> <name>dfs.permissions</name> <value>false</value> </property> 二.启动HDFS和…
参考书籍:<Hadoop实战>第二版 第9章:HDFS详解 1. HDFS基本操作 @ 出现的bug信息 @-@ WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable @-@ WARN hdfs.DFSClient: DFSInputStream has been closed alread…
Hadoop是适合大数据的分布式存储与计算平台 HDFS的架构:主从式结构 主节点只有一个NameNode,从节点可以有很多个DataNode. NameNode负责: (1)接收用户操作请求 (2)维护文件系统的目录结构 (3)管理文件与block之间关系,block与DataNode之间联系 DataNode负责: (1)存储文件 (2)文件被分成block存储在磁盘上 (3)为保证数据安全,文件会有多个副本 NameNode和DataNode是指不同的独立的物理机器. 类比:积木拼图,Na…
Scanner类 Scanner类属于引用数据类型,先了解下引用数据类型. 引用数据类型的使用 与定义基本数据类型变量不同,引用数据类型的变量定义及赋值有一个相对固定的步骤或格式. 数据类型 变量名 = new 数据类型(); 每种引用数据类型都有其功能,我们可以调用该类型实例使用其功能. 变量名.方法名(); Scanner类 Scanner类可以完成用户键盘录入,获取到录入的数据. Scanner使用步骤: 导包: import java.util.Scanner; 创建对象实例:Scann…
具体的过程参见伪分布模式的安装,集群模式的安装和伪分布模式的安装基本一样,只有细微的差别,写在下面: 修改masers和slavers文件: 在hadoop/conf文件夹中的配置文件中有两个文件masters和slavers两文件,分别记录物理机器的主节点和从节点.分别以文本格式把主节点和从节点的名字写入到这两个文件中. 向各个节点复制hadoop: 在一个节点中安装好hadoop并且配置好了hadoop/conf/…下的一些配置文件之后,就能把hadoop复制到各个节点了: #scp -r…
为了学习这部分的功能,我们这里的linux都是使用root用户登录的.所以每个命令的前面都有一个#符号. 伪分布模式安装步骤: 关闭防火墙 修改ip地址 修改hostname 设置ssh自动登录 安装JDK 安装hadoop 1. 关闭防火墙 具体的操作过程参见博文:我用过的Linux命令--关闭防火墙 2. 修改ip地址,设置静态ip地址 这里使用Host-only的方式,注意虚拟机的网关地址要写windows对应的软网卡的IP地址.CentOS重新启动网络的命令: #service netw…