引言:我们维护hadoop系统的时候,必不可少需要对HDFS分布式文件系统做操作,例如拷贝一个文件/目录,查看HDFS文件系统目录下的内容,删除HDFS文件系统中的内容(文件/目录),还有HDFS管理信息,单独启动停止 namenode  datanode  jobtracker  tasktracker等等一系列的操作。大家跟着做一遍呢!就会对HDFS的体系架构有更加深入的理解,不多说我们开始吧。
环境
操作系统:centos 6.0
hadoop版本:0.20.2
部署目录:/home/grid/hadoop-0.20.2
名称节点元数据位置:/home/grid/hadoop-0.20.2/tmp
数据节点数据位置:/home/grid/hadoop-0.20.2/data
master节点:h1
slave节点:h2 h4
master 和 slave 节点进程状态 ,现在进程都在启动着
[grid@h1 bin]$ jps        
5182 Jps
4600 NameNode
4791 JobTracker
4728 SecondaryNameNode
[grid@h2 ~]$ jps
4471 Jps
3935 DataNode
4012 TaskTracker
[grid@h4 ~]$ jps
4001 TaskTracker
4508 Jps
3924 DataNode
[grid@h1 grid]$ mkdir input                                               linux命令,创建一个input目录
[grid@h1 grid]$ ll
总用量 44
drwxr-xr-x. 14 grid hadoop 4096  9月  2 20:29 hadoop-0.20.2
drwxr-xr-x.  2 grid hadoop 4096  9月 16 19:56 input
drwxr-xr-x.  7 grid hadoop 4096 10月 22 2009 vmware-tools-distrib
drwxr-xr-x.  2 grid hadoop 4096  9月  1 13:55 公共的
drwxr-xr-x.  2 grid hadoop 4096  9月  1 13:55 模板
drwxr-xr-x.  2 grid hadoop 4096  9月  1 13:55 视频
drwxr-xr-x.  2 grid hadoop 4096  9月  1 13:55 图片
drwxr-xr-x.  2 grid hadoop 4096  9月  1 13:55 文档
drwxr-xr-x.  2 grid hadoop 4096  9月  1 13:55 下载
drwxr-xr-x.  2 grid hadoop 4096  9月  1 13:55 音乐
drwxr-xr-x.  3 grid hadoop 4096  9月  2 18:50 桌面
[grid@h1 grid]$ cd input/                                                 linux命令,进入目录
[grid@h1 input]$ echo "hello leonarding" > test1.txt                      linux命令,把字符串"hello leonarding"重定向到test1.txt
[grid@h1 input]$ echo "hello world" > test2.txt                           linux命令,把字符串"hello world"重定向到test2.txt
[grid@h1 input]$ cat test1.txt                                            linux命令,查看test1.txt文件内容
hello leonarding
[grid@h1 input]$ cat test2.txt                                            linux命令,查看test2.txt文件内容
hello world
[grid@h1 input]$ cd ../hadoop-0.20.2/                                     linux命令,进入hadoop-0.20.2目录
[grid@h1 input]$ cd /usr/java/jdk1.6.0_25/bin
[grid@h1 bin]$ jps                                                        直接输入jps=java进程统计
28037 NameNode                 名称节点
32455 Jps
28220 SecondaryNameNode        辅助名称节点
28259 JobTracker               作业跟踪器

1.把linux操作系统的input目录拷贝到hadoop文件系统中重命名为in目录
[grid@h1 hadoop-0.20.2]$ bin/hadoop dfs -put ../input in           把linux操作系统的input目录拷贝到hadoop文件系统中重命名为in目录12/09/16 20:18:20 INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad connect ack with firstBadLink 192.168.2.103:50010                                                没有关闭防火墙
12/09/16 20:18:20 INFO hdfs.DFSClient: Abandoning block blk_-2034091982680781464_102612/09/16 20:18:26 INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad connect ack withfirstBadLink192.168.2.103:5001012/09/16 20:18:26 INFO hdfs.DFSClient: Abandoning block blk_-3493343259834508347_102612/09/16 20:18:32 INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad connect ack with firstBadLink 192.168.2.103:50010
12/09/16 20:18:32 INFO hdfs.DFSClient: Abandoning block blk_4302532573839164645_1026
12/09/16 20:18:38 INFO hdfs.DFSClient: Exception in createBlockOutputStream java.net.NoRouteToHostException: No route to host12/09/16 20:18:38 INFO hdfs.DFSClient: Abandoning block blk_4602162403828631999_1026
12/09/16 20:18:44 WARN hdfs.DFSClient: DataStreamer Exception: java.io.IOException: Unable to create new block.at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.nextBlockOutputStream(DFSClient.java:2845) at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.access$2000(DFSClient.java:2102) at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream$DataStreamer.run(DFSClient.java:2288)12/09/16 20:18:44 WARN hdfs.DFSClient: Error Recovery for block blk_4602162403828631999_1026 bad datanode[0] nodes == null12/09/16 20:18:44 WARN hdfs.DFSClient: Could not get block locations. Source file "/user/grid/in/input/test2.txt" - Aborting...
put: No route to host12/09/16 20:18:44 ERROR hdfs.DFSClient: Exception closing file /user/grid/in/input/test2.txt : java.net.NoRouteToHostException: No route to hostjava.net.NoRouteToHostException: No route to host at sun.nio.ch.SocketChannelImpl.checkConnect(Natve Method) at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:567) at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:206) at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:404) at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.createBlockOutputStream(DFSClient.java:2870) at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.nextBlockOutputStream(DFSClient.java:2826) atorg.apache.hadoop.hdfs.DFSClient$DFSOutputStream.access$2000(DFSClient.java:2102) at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream$DataStreamer.run(DFSClient.java:2288)
小结:这是没有关闭Linux防火墙造成的,使用 service iptables stop/start  临时关闭/开启  chkconfig iptables off/on  永久关闭/开启防火墙命令来控制防火墙,关闭之后就可以顺利的进行下面操作了。

[grid@h1 grid]$ hadoop dfs -put abc.txt abc                               把linux操作系统东西拷贝到hadoop文件系统中并重命名abc
[grid@h1 grid]$ hadoop dfs -ls                                            abc文件已经在hadoop文件系统根目录下了
Found 3 items
-rw-r--r--   2 grid supergroup         44 2012-09-18 19:12 /user/grid/abc 随机存放到某一个节点
drwxr-xr-x   - grid supergroup          0 2012-09-17 19:44 /user/grid/in
drwxr-xr-x   - grid supergroup          0 2012-09-17 20:41 /user/grid/out

2.查看hadoop文件系统中根目录下in子目录中所有内容

[grid@h1 hadoop-0.20.2]$ bin/hadoop dfs -ls                                           查看hadoop文件系统根目录内容
Found 1 items
drwxr-xr-x   - grid supergroup          0 2012-09-17 19:44 /user/grid/in              只有一个in目录
[grid@h1 hadoop-0.20.2]$ bin/hadoop dfs -ls ./in/*                                    查看hadoop文件系统中根目录下in子目录内容
-rw-r--r--   2 grid supergroup         17 2012-09-17 19:44 /user/grid/in/test1.txt    有 2个 文件
-rw-r--r--   2 grid supergroup         12 2012-09-17 19:44 /user/grid/in/test2.txt
小结:Hadoop没有当前目录的概念,当然也不能进入in目录,更没有cd命令。所以查看时必须输入目录路径

3.测试map_reduce系统是否可以正常工作,map reduce 采用“就近分配节点”原则执行数据
jar包:/home/grid/hadoop-0.20.2/hadoop-0.20.2-examples.jar       安装hadoop时从源代码拷贝过来的,我们可以直接使用
[grid@h1 hadoop-0.20.2]$ bin/hadoop jar hadoop-0.20.2-examples.jar wordcount in out   把这个jar包里wordcount功能提交给map_reduce当做一个作业运行,测试map_reduce系统是否可以正常工作,in  输入数据目录(数据源) out 输出数据目录(即输出到哪里)
12/09/17 20:39:06 INFO input.FileInputFormat: Total input paths to process : 2
12/09/17 20:39:07 INFO mapred.JobClient: Running job: job_201209172027_0002        运行作业号“2012年9月17日1856不是时间”
12/09/17 20:39:08 INFO mapred.JobClient:  map 0% reduce 0%                         
12/09/17 20:40:34 INFO mapred.JobClient:  map 50% reduce 0%
12/09/17 20:40:49 INFO mapred.JobClient:  map 100% reduce 0%                       map  reduce进度
12/09/17 20:41:02 INFO mapred.JobClient:  map 100% reduce 100%
12/09/17 20:41:04 INFO mapred.JobClient: Job complete: job_201209172027_0002       作业完成
12/09/17 20:41:04 INFO mapred.JobClient: Counters: 17
12/09/17 20:41:04 INFO mapred.JobClient:   Job Counters                            作业计数器
12/09/17 20:41:04 INFO mapred.JobClient:     Launched reduce tasks=1               启动reduce任务1个
12/09/17 20:41:04 INFO mapred.JobClient:     Launched map tasks=3                  启动map任务3个
12/09/17 20:41:04 INFO mapred.JobClient:     Data-local map tasks=3
12/09/17 20:41:04 INFO mapred.JobClient:   FileSystemCounters                      文件系统计数器
12/09/17 20:41:04 INFO mapred.JobClient:     FILE_BYTES_READ=59
12/09/17 20:41:04 INFO mapred.JobClient:     HDFS_BYTES_READ=29
12/09/17 20:41:04 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=188
12/09/17 20:41:04 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=29
12/09/17 20:41:04 INFO mapred.JobClient:   Map-Reduce Framework                    map_reduce框架
12/09/17 20:41:04 INFO mapred.JobClient:     Reduce input groups=3                 reduce输入组3
12/09/17 20:41:04 INFO mapred.JobClient:     Combine output records=4              合并输出记录4
12/09/17 20:41:04 INFO mapred.JobClient:     Map input records=2                   map输入记录2
12/09/17 20:41:04 INFO mapred.JobClient:     Reduce shuffle bytes=65               reduce shuffle=预处理 减少计算量 算的更快
12/09/17 20:41:04 INFO mapred.JobClient:     Reduce output records=3               reduce输出记录3
12/09/17 20:41:04 INFO mapred.JobClient:     Spilled Records=8                     溢出记录8
12/09/17 20:41:04 INFO mapred.JobClient:     Map output bytes=45                   map输出字节45
12/09/17 20:41:04 INFO mapred.JobClient:     Combine input records=4               合并输入记录4
12/09/17 20:41:04 INFO mapred.JobClient:     Map output records=4                  map输出记录4
12/09/17 20:41:04 INFO mapred.JobClient:     Reduce input records=4                reduce输入记录4
浏览器:http://192.168.2.102:50030/jobtracker.jsp   这里有job更详细的信息 
小结:报错信息【org.apache.hadoop.util.DiskChecker$DiskErrorException: Could no find taskTracker/jobcache/job_201209171856_0001/attempt_201209171856_0001_m_000000_0/output/file.out.index in any of the configured local directories】  请执行stop-all.sh -> start-all.sh    重启hadoop所有进程

4.列出根目录下所有内容
[grid@h1 hadoop-0.20.2]$ bin/hadoop dfs -ls
Found 2 items
drwxr-xr-x   - grid supergroup          0 2012-09-17 19:44 /user/grid/in
drwxr-xr-x   - grid supergroup          0 2012-09-17 19:56 /user/grid/out
  列出根目录下out子目录所有内容
[grid@h1 hadoop-0.20.2]$ bin/hadoop dfs -ls ./out/
Found 2 items
drwxr-xr-x   - grid supergroup          0 2012-09-17 20:39 /user/grid/out/_logs
-rw-r--r--   2 grid supergroup         29 2012-09-17 20:40 /user/grid/out/part-r-00000

5.查看part-r-00000文件内容
[grid@h1 hadoop-0.20.2]$ bin/hadoop dfs -cat /user/grid/out/part-r-00000      必须写绝对路径,因为hadoop下没有当前目录概念
hello 2                     统计单词出现2次
leonarding 1             统计单词出现1次
world 1                     统计单词出现1次
小结:cat 对象必须是文件,不能对目录查看

6.删除hadoop文件系统文件和目录
必须选项 -rmr   不能-rm   use -rmr instead
[grid@h1 hadoop-0.20.2]$ bin/hadoop dfs -rmr /user/grid/in/input/test2.txt     删除hadoop文件系统里的test2.txt文件,一定要加目录路径
Deleted hdfs://h1:9000/user/grid/in/input/test2.txt
[grid@h1 hadoop-0.20.2]$ bin/hadoop dfs -rmr /user/grid/in/test2.txt           删除hadoop文件系统文件,一定要加目录路径
Deleted hdfs://h1:9000/user/grid/in/test2.txt
[grid@h1 hadoop-0.20.2]$ bin/hadoop dfs -rmr /user/grid/in                     删除in目录
Deleted hdfs://h1:9000/user/grid/in
h2  h4  的Linux操作系统上面看文件是不是已经被删除了,占用block已经被释放了
小结:删除HDFS文件系统内文件和目录时选项必须要写 -rmr  而不能 -rm哦

7.从Linux操作系统上看hadoop文件存放在哪里   数据只会存放在数据节点  h2  h4,而不会存放在名称节点 h1
rid@h4 current]$ pwd
/home/grid/hadoop-0.20.2/data/current
[grid@h4 current]$ ll                 h4节点
总用量 224
-rw-r--r--. 1 grid hadoop     17  9月 17 19:44 blk_1740766816993665795
-rw-r--r--. 1 grid hadoop     11  9月 17 19:44 blk_1740766816993665795_1013.meta
-rw-r--r--. 1 grid hadoop   9151  9月 17 20:41 blk_5787152218309601238
-rw-r--r--. 1 grid hadoop     79  9月 17 20:41 blk_5787152218309601238_1026.meta
-rw-r--r--. 1 grid hadoop 142466  9月 17 20:35 blk_-5912167526685784374
-rw-r--r--. 1 grid hadoop   1123  9月 17 20:35 blk_-5912167526685784374_1020.meta
-rw-r--r--. 1 grid hadoop      4  9月 17 20:28 blk_618795584037082806
-rw-r--r--. 1 grid hadoop     11  9月 17 20:28 blk_618795584037082806_1019.meta
-rw-r--r--. 1 grid hadoop     29  9月 17 20:40 blk_-6836333776136840432
-rw-r--r--. 1 grid hadoop     11  9月 17 20:40 blk_-6836333776136840432_1026.meta
-rw-r--r--. 1 grid hadoop     12  9月 17 19:44 blk_7008012568223069759
-rw-r--r--. 1 grid hadoop     11  9月 17 19:44 blk_7008012568223069759_1012.meta
-rw-r--r--. 1 grid hadoop  16737  9月 17 20:39 blk_8327174067432266416
-rw-r--r--. 1 grid hadoop    139  9月 17 20:39 blk_8327174067432266416_1025.meta
-rw-r--r--. 1 grid hadoop   1734  9月 18 07:51 dncp_block_verification.log.curr
-rw-r--r--. 1 grid hadoop    158  9月 17 20:27 VERSION
[grid@h2 current]$ ll                 h2节点
总用量 224
-rw-r--r--. 1 grid hadoop     17  9月 17 19:44 blk_1740766816993665795
-rw-r--r--. 1 grid hadoop     11  9月 17 19:44 blk_1740766816993665795_1013.meta
-rw-r--r--. 1 grid hadoop   9151  9月 17 20:41 blk_5787152218309601238
-rw-r--r--. 1 grid hadoop     79  9月 17 20:41 blk_5787152218309601238_1026.meta
-rw-r--r--. 1 grid hadoop 142466  9月 17 20:35 blk_-5912167526685784374
-rw-r--r--. 1 grid hadoop   1123  9月 17 20:35 blk_-5912167526685784374_1020.meta
-rw-r--r--. 1 grid hadoop      4  9月 17 20:28 blk_618795584037082806
-rw-r--r--. 1 grid hadoop     11  9月 17 20:28 blk_618795584037082806_1019.meta
-rw-r--r--. 1 grid hadoop     29  9月 17 20:40 blk_-6836333776136840432
-rw-r--r--. 1 grid hadoop     11  9月 17 20:40 blk_-6836333776136840432_1026.meta
-rw-r--r--. 1 grid hadoop     12  9月 17 19:44 blk_7008012568223069759
-rw-r--r--. 1 grid hadoop     11  9月 17 19:44 blk_7008012568223069759_1012.meta
-rw-r--r--. 1 grid hadoop  16737  9月 17 20:39 blk_8327174067432266416
-rw-r--r--. 1 grid hadoop    139  9月 17 20:39 blk_8327174067432266416_1025.meta
-rw-r--r--. 1 grid hadoop   1541  9月 18 07:51 dncp_block_verification.log.curr
-rw-r--r--. 1 grid hadoop    158  9月 17 20:27 VERSION
小结:hadoop数据只在datanode节点保存(h2 h4)不在namenode保存,由于我设置了 数据块复制2份,那么在h2 h4 里面文件都是一模一样的(冗余防错)hdfs_site.xml -> dfs.data.dir指定数据节点存放数据位置 /home/grid/hadoop-0.20.2/data/
hadoop一个文件是由数据块组成,容量最大不超过64M,是由数据和元数据组成。
datanode文件采用一次性写入多次读,不需修改,可以删除在重新写入
NAMENODE介绍
namenode节点中保存是映像文件和事务日志,即元数据,如果元数据被破坏了,那么我们整个HDFS系统就崩溃了
映像文件:存放文件系统命名空间 ,例如 文件映像  文件属性
事务日志:存放HDFS元数据记录
什么是元数据:记录每个文件数据块在各个datanode上位置和副本(文件数据块都放在哪个节点上,副本有几个),元数据也可以复制多个副本,只在namenode里添加副本,缺点就是副本越多,空间利用率越小,安全性越大,速度越慢
namenode冗余:namenode是HDFS文件系统总控节点,但它是一个单点,如果出现故障也需要手动切换到secondarynamenode SNN
namenode不参与实际数据传输,只负责元数据查询
namenode元数据位置:
[grid@h1 current]$ pwd
/home/grid/hadoop-0.20.2/tmp/dfs/name/current
[grid@h1 current]$ ll
总用量 16
-rw-r--r--. 1 grid hadoop    4  9月 18 08:58 edits      事务日志
-rw-r--r--. 1 grid hadoop 2130  9月 18 08:58 fsimage    映像文件
-rw-r--r--. 1 grid hadoop    8  9月 18 08:58 fstime     事务日志
-rw-r--r--. 1 grid hadoop  101  9月 18 08:58 VERSIO

8.hadoop文件系统的管理报告,即HDFS基本统计信息
[grid@h4 ~]$ hadoop dfsadmin -report            h4 节点
Configured Capacity: 19865944064 (18.5 GB)      分配总容量
Present Capacity: 8934457344 (8.32 GB)          
DFS Remaining: 8933957632 (8.32 GB)             DFS剩余容量
DFS Used: 499712 (488 KB)                       DFS已使用容量
DFS Used%: 0.01%                                DFS已使用百分比
Under replicated blocks: 1                      复制成功块数
Blocks with corrupt replicas: 0                 复制失败块数
Missing blocks: 0                               丢失块数
-------------------------------------------------
Datanodes available: 2 (2 total, 0 dead)        数据节点有效
Name: 192.168.2.103:50010                       h2数据节点ip和端口
Decommission Status : Normal                    状态正常
Configured Capacity: 9932972032 (9.25 GB)       配置总容量
DFS Used: 249856 (244 KB)                       DFS使用量
Non DFS Used: 5350871040 (4.98 GB)              linux容量非DFS使用的
DFS Remaining: 4581851136(4.27 GB)              DFS剩余容量
DFS Used%: 0%                                   DFS已使用百分比
DFS Remaining%: 46.13%                          DFS未用百分比
Last contact: Tue Sep 18 19:34:32 CST 2012      最后的联接

Name: 192.168.2.105:50010                       h2数据节点ip和端口
Decommission Status : Normal                    状态正常
Configured Capacity: 9932972032 (9.25 GB)       配置总容量
DFS Used: 249856 (244 KB)                       DFS使用量
Non DFS Used: 5580615680 (5.2 GB)               linux容量非DFS使用的
DFS Remaining: 4352106496(4.05 GB)              DFS剩余容量
DFS Used%: 0%                                   DFS已使用百分比
DFS Remaining%: 43.81%                          DFS未用百分比
Last contact: Tue Sep 18 19:34:32 CST 2012      最后的联接

9.单独启动停止 namenode  datanode  jobtracker  tasktracker
单独启动/停止 namenode      start-dfs.sh/stop-dfs.sh
单独启动/停止 datanode      hadoop-daemon.sh start datanode/hadoop-daemon.sh stop datanode
单独启动/停止 jobtracker    hadoop-daemon.sh start tasktracker/hadoop-daemon.sh stop tasktracker
单独启动/停止 tasktracker   start-mapred.sh/stop-mapred.sh
举例
[grid@h4 bin]$ pwd
/home/grid/hadoop-0.20.2/bin
[grid@h4 bin]$ jps
27736 Jps
17119 DataNode
17230 TaskTracker
[grid@h4 bin]$ hadoop-daemon.sh stop tasktracker         停止tasktracker
stopping tasktracker
[grid@h4 bin]$ jps
27783 Jps
17119 DataNode
[grid@h4 bin]$ hadoop-daemon.sh start tasktracker        启动tasktracker
starting tasktracker, logging to /home/grid/hadoop-0.20.2/bin/../logs/hadoop-grid-tasktracker-h4.out
[grid@h4 bin]$ jps
27829 TaskTracker                                        已经重新启动,pid都改变了
17119 DataNode
27868 Jps
[grid@h4 bin]$ pwd
/home/grid/hadoop-0.20.2/bin

10.均衡负载
[grid@h4 bin]$ start-balancer.sh
starting balancer, logging to /home/grid/hadoop-0.20.2/bin/../logs/hadoop-grid-balancer-h4.out
场合:新增节点 或 节点故障  把所有数据块重新均衡负载到各各节点上,包括新增节点。例如 几个G数据,均衡负载十几分钟

Hadoop HDFS分布式文件系统 常用命令汇总的更多相关文章

  1. 我理解中的Hadoop HDFS分布式文件系统

    一,什么是分布式文件系统,分布式文件系统能干什么 在学习一个文件系统时,首先我先想到的是,学习它能为我们提供什么样的服务,它的价值在哪里,为什么要去学它.以这样的方式去理解它之后在日后的深入学习中才能 ...

  2. hadoop知识点总结(二)hdfs分布式文件系统

    1, hdfs设计:减少硬件错误的危害,流式数据访问,大规模数据集,简单的一致性模型 2,特点: 1)移动计算的代价比移动数据的代价低 在异构的软硬件平台间的可移植性 2)局限性 不适合低延迟性数据访 ...

  3. Hadoop基础-HDFS分布式文件系统的存储

    Hadoop基础-HDFS分布式文件系统的存储 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HDFS数据块 1>.磁盘中的数据块 每个磁盘都有默认的数据块大小,这个磁盘 ...

  4. 【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)

    1. HDFS概述 Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪 ...

  5. 大数据基础总结---HDFS分布式文件系统

    HDFS分布式文件系统 文件系统的基本概述 文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易. 文件名:在文件系统中,文件名是用于定位存储位置. 元数据(Metad ...

  6. Hadoop HDFS分布式文件系统设计要点与架构

      Hadoop HDFS分布式文件系统设计要点与架构     Hadoop简介:一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群 ...

  7. 【转】Hadoop HDFS分布式环境搭建

    原文地址  http://blog.sina.com.cn/s/blog_7060fb5a0101cson.html Hadoop HDFS分布式环境搭建 最近选择给大家介绍Hadoop HDFS系统 ...

  8. 认识HDFS分布式文件系统

    1.设计基础目标 (1) 错误是常态,需要使用数据冗余  (2)流式数据访问.数据批量读而不是随机速写,不支持OLTP,hadoop擅长数据分析而不是事物处理.  (3)文件采用一次性写多次读的模型, ...

  9. Oozie命令行常用命令汇总[转]

    Oozie命令行常用命令汇总 有时候脚本跑多了就不愿意在OozieWeb端去看脚本的运行情况了.还好Oozie提供了很多命令行命令.能通过命令行直接检索自己想看到的脚本信息.在这里简单进行一下总结.一 ...

随机推荐

  1. jsp页面中的EL表达式不被解析的问题

    原因:问题在web.xml配置文件上,web.xml声明部分一般分为如下版本的xsd, web-app_2_2.xsd web-app_2_3.xsd web-app_2_4.xsd web-app_ ...

  2. PHP将CMYK颜色值和RGB颜色相互转换的例子

    PHP将CMYK颜色值和RGB颜色相互转换的例子 function hex2rgb($hex) { $color = str_replace('#','',$hex); $rgb = array('r ...

  3. Atitit js canvas的图像处理类库attilax总结与事业

    Atitit js canvas的图像处理类库attilax总结与事业 1.1. 脸部识别JavaScript类库Tracking.js1 1.2. AlloyImage特性1 1.3. CamanJ ...

  4. Atitit 图像处理之编程之类库调用的接口api cli gui ws rest  attilax大总结.docx

    Atitit 图像处理之编程之类库调用的接口api cli gui ws rest  attilax大总结.docx 1. 为什么需要接口调用??1 1.1. 为了方便集成复用模块类库1 1.2. 嫁 ...

  5. 【Unity】4.5 树木创建器

    分类:Unity.C#.VS2015 创建日期:2016-04-11 一.简介 在地形编辑器一节中,已经告诉了你如何使用已经创建好的树来形成大片树林.这一节告诉你在 Unity 5.3.4中如何利用[ ...

  6. 编写一个C语言函数,要求输入一个url,输出该url是首页、目录页或者其他url

    编写一个C语言函数,要求输入一个url,输出该url是首页.目录页或者其他url 首页.目录页或者其他url 如下形式叫做首页: militia.info/ www.apcnc.com.cn/ htt ...

  7. hdu 3371 Connect the Cities(最小生成树)

    题目:http://acm.hdu.edu.cn/showproblem.php?pid=3371 984ms风险飘过~~~ /************************************ ...

  8. HTML5学习笔记(二十二):DOM

    DOM即文档对象模型(Document Object Model),其定义了访问和操作 HTML 文档的标准方法. DOM 将 HTML 文档表达为树结构,如下: 通过DOM,开发人员可以动态的添加. ...

  9. Flink的keyby延时源码

    public class RecordWriter<T extends IOReadableWritable> { ==FullBuffer /** * This is used to s ...

  10. (原创)c++11改进我们的模式之改进代理模式,实现通用的AOP框架

    c++11 boost技术交流群:296561497,欢迎大家来交流技术. 本次要讲的时候如何改进代理模式,具体来说是动态代理模式,动态代理模式一般实现AOP框架,不懂AOP的童鞋看这里.我前面的博文 ...