一:HDFS 用户指导】的更多相关文章

1.hdfs的牛逼特性 Hadoop, including HDFS, is well suited for distributed storage and distributed processing using commodity hardware. It is fault tolerant, scalable, and extremely simple to expand. MapReduce, well known for its simplicity and applicability…
用户指导 本文翻译自http://code.google.com/p/guava-libraries/wiki/GuavaExplained,由十八子将翻译,发表于博客园 http://www.cnblogs.com/shibazijiang/版权所有,转载请注明作者以及转载地址 Guava工程包含了一些Google的核心库,这些库是我们在开发java语言为基础的工程时信赖的工具,包含了集合,缓存,基本支持工具,并发处理库,通用注释,字符串处理,i/o等等.他们中的每个都是google的工程师们…
这个功能的重点就是在如何判断应用是第一次启动的. 其实很简单 我们只需要在一个类里面写好用户引导页面  基本上都是使用UIScrollView 来实现, 新建一个继承于UIViewController的类 命名为 UserGuideViewController , 在UserGuideViewController.m 写 - (void)viewDidLoad { [superviewDidLoad]; // Do any additional setup after loading the v…
This document is a starting point for users working with Hadoop Distributed File System (HDFS) either as a part of a Hadoop cluster or as a stand-alone general purpose distributed file system. While HDFS is designed to "just work" in many enviro…
https://hadoop.apache.org/docs/r1.2.1/hdfs_user_guide.html hdfs的一些特征: 1.hadoop 包含hdfs 很适合分布式存储以及分布式处理,它是容错的,可伸缩的,并且容易扩展的.MapReduce 以他的简单和适用性为一系列分布式系统服务. 2.HDFS是一个高可配置的并且有很好的给每个应用的默认的配置.很多时候,配置只有在很大集群时才需要修改. 3.hadoop是使用java编写,可以在很多主流平台使用. 4.Hadoop支持使用…
需要给第三方提供hdfs用户,和上传文件的权限 1.需要先在linux 上创建一个普通用户: hn,并修改密码 sudo -u hdfs hadoop fs -mkdir /user/用户名 sudo -u hdfs hadoop fs -mkdir /user/hn sudo -u hdfs hadoop fs -chown 用户组:用户名 /user/用户名 sudo -u hdfs hadoop fs -chown hn:hdfs /user/hn 上传文件测试: hdfs dfs  -p…
用户指导 Hive 指导 Hive指导 概念 Hive是什么 Hive不是什么 获得和开始 数据单元 类型系统 内置操作符和方法 语言性能 用法和例子(在<下>里面) 概念 Hive是什么? Hive是一个以Apache Hadoop为基础的数据仓储基础设施.Hadoop为数据的存储和运行在商业机器上提供了可扩展和高容错的性能. Hive的设计目标是使得数据汇总更加简单和针对大容量数据的查询和分析.它提供SWL来使得用户可以更简单地查询.汇总和数据分析.同时,Hive的SQL为用户提供了多种地…
前言 由于项目数据安全的需要,这段时间看了下hadoop的distcp的命令使用,不断的纠结的问度娘,度娘告诉我的结果也让我很纠结,都是抄来抄去, 还好在牺牲大量的时间的基础上还终于搞出来了,顺便写这个随笔,记录下. 环境 目前我们是两套同版本的CDH集群,集群内的节点通信使用的私网,提供浮动ip对外通信,也就是说,两个集群间的私网是不互通的,只能通过浮动ip 进行通信. 操作 使用hadoop提供的distcp命令进行数据迁移 (数据源集群source和目标集群target版本相同) 迁移hd…
Hadoop版本:2.6.0 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4146296.html 背景 在HDFS中,通常是通过DataNode来读取数据的.但是,当客户端向DataNode请求读取文件时,DataNode就会从磁盘读取该文件并通过TCP socket将数据发送到客户端.所谓“短路”是指旁路DataNode来读取文件,也就是说,允许客户端直接读取文件.很明显,这种情况只在客户端与数据放…
当使用 hadoop fs -put localfile /user/xxx 时提示: put: Permission denied: user=root, access=WRITE, inode="/user/shijin":hdfs:supergroup:drwxr-xr-x 表明:权限不够.这里涉及到两个方面的权限.一个是本地文件系统中localfile 文件的权限,一个是HDFS上 /user/xxx目录的权限. 先看看 /user/xxx目录的权限:drwxr-xr-x  …
HDFS常用操作命令 启动hdfs #start-all.sh 查看hdfs的配置文件 #cat hdfs-site.sh #hadoop fs -put /soft/jdk / #HDFS上传文件命令 查看上传后的文件属性 #hadoop fs -ls / 进入存放datanode的block目录,然后列出block列表信息 #cd /opt/modules/hadoop-2.6.0/tmp/dfs/data/current/BP*/current/finalized #ls -lrt HDF…
启动hdfs#start-all.sh查看hdfs的配置文件#cat hdfs-site.sh#hadoop fs -put /soft/jdk /#HDFS上传文件命令查看上传后的文件属性#hadoop fs -ls /进入存放datanode的block目录,然后列出block列表信息#cd /opt/modules/hadoop-2.6.0/tmp/dfs/data/current/BP*/current/finalized#ls -lrtHDFS shell命令操作(其中,hadoop使…
hdfs可以将linux用户映射为hdfs用户,也就是说,你当前操作hdfs的用户身份就是你当前登录的linux用户 usermod -a -G hive admin  ---将admin用户加到hive组下 这样admin用户就可以操作/user/hive/warehouse文件夹了 hadoop hdfs的超级管理员用户是hdfs more  groups  | grep admin groups #将root组加入hdfs超级用户组下…
当使用 hadoop fs -put localfile /user/xxx 时提示: put: Permission denied: user=root, access=WRITE, inode="/user/shijin":hdfs:supergroup:drwxr-xr-x 表明:权限不够.这里涉及到两个方面的权限.一个是本地文件系统中localfile 文件的权限,一个是HDFS上 /user/xxx目录的权限. 先看看 /user/xxx目录的权限:drwxr-xr-x  …
产生问题原因: 环境hadoop2,cdh5创建 使用hadoop fs -mdkir /use/xxx创建文件路径时,出现权限问题 前提我们已经把当前用户zhangsan和root放到/etc/suders中. su root vi /etc/sudoers root ALL=(ALL) ALL zhangsan ALL=(ALL) NOPASSWD:ALL su zhangsan [zhangsan@cdh107 ~]$ hadoop fs -ls /user Found items drw…
hadoop-2.8.4 部署我就不说了 网上一大堆 hdfs-site.xml datanode 储存路径挂载需要修改如下: <property> <name>dfs.datanode.data.dir</name> <value>[DISK]file:///data/hdfs-disk/hadoop/dfs/data,[SSD]file:///data/hdfs-ssd/hadoop/dfs/data,[RAM_DISK]file:///data/hdf…
HDFS只是Hadoop最基本的一个服务,很多其他服务,都是基于HDFS展开的.所以部署一个HDFS集群,是很核心的一个动作,也是大数据平台的开始. 安装Hadoop集群,首先需要有Zookeeper才可以完成安装.如果没有Zookeeper,请先部署一套Zookeeper.另外,JDK以及物理主机的一些设置等.请参考: Hadoop集群(一) Zookeeper搭建 Hadoop集群(三) Hbase搭建 Hadoop集群(四) Hadoop升级 下面开始HDFS的安装 HDFS主机分配 1…
1.使用hdfs用户或者hadoop用户登录 2.在linux shell下执行命令 hadoop fs -put '本地文件名' hadoop fs - put '/home/hdfs/sample/sample.txt' hadoop fs -ls / 列出具体的文件名. hadoop fs  -get ‘/home/spark/data/*’ 从文件系统中获得数据到本地 hadoop fs -cat 查看文件内容 hadoop fs -rm -R  递归删除 hadoop fs -mv …
使用CDH 5.13.1部署了HADOOP集群之后,需要进行基准性能测试. 一.hibench 安装 1.安装位置要求. 因为是全量安装,其中有SPARK的测试(SPARK2.0). 安装位置在SPARK 服务所在的节点上面. 下载hibench编译好的包与manve的包 hibench全部编译 mvn -Dspark=2.1 -Dscala=2.11 clean package 注:hibench目录中运行 编译好的包,可以在整个集群通用.直接 复制环境变量与安装目录 2.配置环境变量 exp…
一.现象 三台机器 crxy99,crxy98,crxy97(crxy99是NameNode+DataNode,crxy98和crxy97是DataNode) 按正常命令启动HDFS之后,HDFS一直处于安全模式(造成启动Hive的时候失败,不能向HDFS上写数据),正常情况下是在启动的前30秒处于安全模式,之后就退出了. 可以采取强制退出安全模式的方式; 安全模式的相关命令: 获取安全模式的状态: hdfs dfsadmin -safemode get 安全模式打开 hdfs dfsadmin…
Overview HDFS Snapshots are read-only point-in-time copies of the file system. Snapshots can be taken on a subtree of the file system or the entire file system. Some common use cases of snapshots are data backup, protection against user errors and di…
注:文中涉及的文件路径或配置文件中属性名称是针对hadoop2.X系列,相对于之前版本,可能有改动. 附: HDFS用户指南官方介绍: http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html HDFS体系结构官方介绍: http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign.…
添加了一块硬盘,原来的DataNode已经把原有的硬盘占满:怎么办,想要把旧有的数据迁移到新的硬盘上面: 1. 在CDH中修改目录(在HDFS组件中搜索.dir),本例中,新加的硬盘挂载在/data上面,NameNode,DataNode,以及CheckPoint路径都前加一个“/data": 2. 重启HDFS,NameNode可能会出错,没有关系: 3. 关闭CDH的集群: 4. 切换到hdfs用户,将就有路径下的/dfs拷贝到/data下面:如果不是则拷贝完毕后,要把dfs下面所有的文件权…
一.导数据 1.import和export Sqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出,其中主要使用了import和export这两个工具.这两个工具非常强大, 提供了很多选项帮助我们完成数据的迁移和同步.比如,下面两个潜在的需求: 1.业务数据存放在关系数据库中,如果数据量达到一定规模后需要对其进行分析或同统计,单纯使用关系数据库可能会成为瓶颈, 这时可以将数据从业务数据库数据导入(import)到Hadoop平台进行离线分析. 2.对大规模的数据在Hadoop平台…
这个功能的重点就是在如何判断应用是第一次启动的. 其实很简单 我们只需要在一个类里面写好用户引导页面  基本上都是使用UIScrollView 来实现, 新建一个继承于UIViewController的类 命名为 UserGuideViewController , 在UserGuideViewController.m 写 1 - (void)viewDidLoad 2 { 3     [super viewDidLoad]; 4     // Do any additional setup af…
Hadoop 分布式文件管理系统HDFS可以部署在廉价硬件之上,能够高容错. 可靠地存储海量数据(可以达到TB甚至PB级),它还可以和Yam中的MapReduce 编程模型很好地结合,为应用程序提供高吞吐量的数据访问,适用于大数据集应用程序. 1.定位 HDFS的定位是提供高容错.高扩展.高可靠的分布式存储服务, 并提供服务访问接口(如API接口.管理员接口). 为提高扩展性,HIDFS采用了master/slave架构来构建分布式存储集群, 这种架构很容易向集群中随意添或删除slave.HDF…
1 异常信息 Received error when attempting to archive files ([class org.apache.hadoop.hbase.backup.HFileArchiver$FileablePath, file:hdfs://hdp:9000/hbase/.tmp/data/WMBIGDATA/LAT_LNG_INDEX/310c60128e85a5a2d1ee3b9fc3e085db/0, class org.apache.hadoop.hbase.b…
1 自己搭建的是伪分布式环境,需要以非root用户启动Hadoop集群,之前root已经配置了ssh免密登录,但是自己切换到hdfs用户重新生成了一套ssh key, 但是切换到hdfs始终无法成功登录.总是要求输入密码. 解决办法 最后把 root用户目录下的ssh key文件,copy一份到hdfs用户下 然后,再次以hdfs用户ssh localhost就可以了.然后以hdfs用户重启Hadoop集群也可以了.…
一.安装hadoop 1.解压安装包重命名安装目录 [root@cluster2_host1 data]# tar -zxvf hadoop-2.7.1.tar.gz -C /usr/local/ [root@cluster2_host1 local]# mv hadoop-2.7.1/ hadoop 2.设置hadoop的环境变量 [root@cluster2_host1 bin]# vim /etc/profile export HADOOP_HOME=/usr/local/hadoop e…
使用 su 切换到用户 hdfs 时提示:This account is currently not available,使用 hdfs 用户登陆会直接退出 ssh 窗口. 此时可以尝试检查文件 /etc/passwd,例如直接使用 grep 查看 hdfs 用户的配置 cat /etc/passwd | grep hdfs,发现它的 shel l是 /sbin /nologin,需要将起改成 /bin/bash,保存退出,再次尝试登陆即可.…