Hadoop文件的基本操作

Hadoop提供了大量的API对文件系统中的文件进行操作，主要包括：

（1)读取文件

（2)写文件

（3)读取文件属性

（4)列出文件

（5)删除文件

1､读取文件

以下示例中，将hdfs中的一个文件读取出来，并输出到标准输出流中。

package org.jediael.hadoopdemo.fsdemo;

import java.io.IOException;

import java.net.URI;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IOUtils;

public class FileSystemDoubleCat {

	public static void main(String[] args) throws IOException {

		String fileName = args[0];

		Configuration conf = new Configuration();

		FileSystem fs = FileSystem.get(URI.create(fileName), conf);

		FSDataInputStream in = null;

		try {

			in = fs.open(new Path(fileName));

			IOUtils.copyBytes(in, System.out, 4096, false);

			in.seek(0);

			IOUtils.copyBytes(in, System.out, 4096, false);

		} finally {

			in.close();

		}

	}

}

（1)其中FSDataInputStream实现了Seekable接口，可以对文件进行随机定位，但注意，seek()的代价较高，如无必要，尽量少使用。

2､文件复制

package org.jediael.hadoopdemo.fsdemo;

import java.io.BufferedInputStream;

import java.io.FileInputStream;

import java.io.IOException;

import java.io.InputStream;

import java.io.OutputStream;

import java.net.URI;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IOUtils;

public class FileCopy {

	public static void main(String[] args) throws IOException {

		String sourceFile = args[0];

		String destFile = args[1];

		InputStream in = null;

		OutputStream out = null;

		try {

			//1､准备输入流

			in = new BufferedInputStream(new FileInputStream(sourceFile));

			//2､准备输出流

			Configuration conf = new Configuration();

			FileSystem fs = FileSystem.get(URI.create(destFile), conf);

			out = fs.create(new Path(destFile));

			//3､复制

			IOUtils.copyBytes(in, out, 4096, false);

		} finally {

			in.close();

			out.close();

		}

	}

}

3、获取文件属性

文件属性以FileStatus对象进行封装，使用FileSystem对象的getFileStatus()方法，可以获取到文件的FileStatus对象。

package org.jediael.hadoopdemo.fsdemo;

import java.io.IOException;

import java.net.URI;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileStatus;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

public class FileStatusDemo {

	public static void main(String[] args) throws IOException {

		String fileName = args[0];

		Configuration conf = new Configuration();

		FileSystem fs = FileSystem.get(URI.create(fileName), conf);

		//获取FileSystem对象。

		FileStatus status = fs.getFileStatus(new Path(fileName));

		System.out.println(status.getOwner()+" "+status.getModificationTime());

	}

}

4、列出某个目录下的文件

使用FileSystem的ListStatus方法，可以获取到某个目录下所有文件的FileStatus对象。

package org.jediael.hadoopdemo.fsdemo;

import java.io.IOException;

import java.net.URI;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileStatus;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.FileUtil;

import org.apache.hadoop.fs.Path;

public class ListStatusDemo {

	public static void main(String[] args) throws IOException {

		String dir = args[0];

		Configuration conf = new Configuration();

		FileSystem fs = FileSystem.get(URI.create(dir), conf);

		FileStatus[] stats =  fs.listStatus(new Path(dir));

		Path[] paths = FileUtil.stat2Paths(stats);

		for(Path path : paths){

			System.out.println(path);

		}

	}

}

Hadoop文件的基本操作的更多相关文章

Hadoop文件的基本操作分类： A1_HADOOP 2014-12-05 11:36 392人阅读评论(0) 收藏
Hadoop提供了大量的API对文件系统中的文件进行操作,主要包括: (1)读取文件 (2)写文件 (3)读取文件属性 (4)列出文件 (5)删除文件 1､读取文件以下示例中,将hdfs中的一个文件 ...
HDFS文件的基本操作
HDFS文件的基本操作: package wjn; import java.io.BufferedInputStream; import java.io.BufferedReader; import ...
Python之文件的基本操作
在python中,对文件的基本操作一共有如下四种: 1.打开文件 file_obj = open("文件路径","模式") 常用的打开文件模式有: r:以只读方 ...
Python学习之路基础篇--08Python基础+ 文件的基本操作和注册小作业
1 文件的基本操作 #1. 打开文件的模式有(默认为文本模式): r ,只读模式[默认模式,文件必须存在,不存在则抛出异常] w,只写模式[不可读:不存在则创建:存在则清空内容] a, 只追加写模式[ ...
Python基础之文件的基本操作
概述:文件的基本操作1.open 打开文件 f = open("xxx",mode="r",encoding="utf-8") #常用形式 ...
python基础学习Day8 文件的基本操作
1.文件的基本操作初识 f = open('a.text', 'r', encoding='utf-8')data = f.read()print(data)f.close() 2.读 r r+b ...
马士兵hadoop第二课：hdfs集群集中管理和hadoop文件操作
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
Linux下文件的基本操作
文件的基本操作新建和删除文件夹命令#mkdir /file 在当前目录创建file文件夹命令#rmdir /file 删除当前目录下file文件夹复制和移动文件命令#cp text/file ...
马士兵hadoop第二课：hdfs集群集中管理和hadoop文件操作（转）
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...

随机推荐

jquery1.9学习笔记之选择器(基本元素三)
标签选择器("element") 描述: 选择所有与给出标签名相匹配的元素. 同功能的JS原生方法:getElementByTagName() 例子: 查找每个div元素. &l ...
linux中screen命令的用法
http://www.9usb.net/201002/linux-screen-mingling.html 作为linux服务器管理员,经常要使用ssh登陆到远程linux机器上做一些耗时的操作.也许 ...
vim 折叠代码技巧汇总
以下命令输入的方式: 如zo命令,先按z键,松开后按o键即可展开折叠. 一.打开.关闭折叠 zo 展开折叠,只展开最外层的折叠. zO 对所在范围内所有嵌套的折叠点展开,包括嵌套折叠. zc 折叠,只 ...
cf D. Sereja ans Anagrams
http://codeforces.com/contest/368/problem/D #include <cstdio> #include <cstring> #includ ...
硬盘安装windows7
微软已经发表声明 Windows XP 操作系统将于2014年4月8日停止提供补丁和安全更新,提醒用户尽快升级现有的XP操作系统.Windows XP曾在2001年10月25日正式发布的,已经走过了十 ...
玩Linux桌面发现一个最佳的组合配置
其实前段时间玩Arch,其实不难,主要是太浪费时间配置折腾了,学到有用的东西太少,不能让我快速进入编程工作的状态,(真不知道有些人用Gentoo和Arch都能用出优越感了,就因为难安装和配置??)但是 ...
tyvj1039忠诚2
描述 Description 老管家是一个聪明能干的人.他为财主工作了整整10年,财主为了让自已账目更加清楚.要求管家每天记k次账,由于管家聪明能干,因而管家总是让财主十分满意.但是由于一些人的挑拨, ...
CSDN第四届在线编程大赛2014初赛:带通配符的数
题目要求: 输入参数:参数A,含有任意个数的?的数值字符串,如:12?4,?代表一位任意数参数B,不含?的数值字符串,长度与参数A一致输出结果:参数A比参数B大的可能数值个数 ...
Codeforces Round #272 (Div. 1) Problem C. Dreamoon and Strings
C. Dreamoon and Strings time limit per test 1 second memory limit per test 256 megabytes input stand ...
[WPF] 将普通的Library工程，改造成WPF Custom Control 的Library
1. 添加References PresentationCore PresentationFramework System.Xaml WindowsBase2. 修改AssemblyInfo.xsus ...

Hadoop文件的基本操作

Hadoop文件的基本操作的更多相关文章

随机推荐

热门专题