hdfs遍历文件方法

import org.apache.commons.lang.StringUtils;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.*;

import java.io.IOException;

import java.net.URI;

import java.net.URISyntaxException;

class HelloWord {

public static void main(String[] args){

Hdfs();

}

//方法1：

public static void Hdfs(){

try{

Configuration conf = new Configuration();

conf.set("fs.defaultFS","hdfs://10.8.6.126:8020");

FileSystem fs = null;

//fs = FileSystem.get(new URI("hdfs://10.8.6.126:8020"),conf); //这两种方式都可以配置hdfs ip

fs = FileSystem.get(conf);

RemoteIterator<LocatedFileStatus> lt = fs.listFiles(new Path("hdfs://10.8.6.126:8020/ada/lyy/App"), true);

while (lt.hasNext()) {

LocatedFileStatus file = lt.next();

if(file.isFile())

{

Path path = file.getPath();

System.out.println("文件:["+path.toString()+"]");

System.out.println("文件名:["+path.getName.toString()+"]"); //只是文件名，没有路径信息

}else{

Path path = file.getPath();

System.out.println("目录:["+path.toString()+"]");

}

catch( IOException e){

System.out.println(e.getStackTrace());

}

//方法2：

public static void Hdfs(){

try{

Configuration conf = new Configuration();

conf.set("fs.defaultFS","hdfs://10.8.6.126:8020");

FileSystem fs = null;

//fs = FileSystem.get(new URI("hdfs://10.8.6.126:8020"),conf); //这两种方式都可以配置hdfs ip

fs = FileSystem.get(conf);

Path path = new Path("/shell");

//通过fs的listStatus方法获取一个指定path的所有文件信息(status)，因此我们需要传入一个hdfs的路径，返回的是一个filStatus数组

FileStatus[] fileStatuses = fs.listStatus(path);

for (FileStatus fileStatus : fileStatuses) {

//判断当前迭代对象是否是目录

boolean isDir = fileStatus.isDirectory();

//获取当前文件的绝对路径

String fullPath = fileStatus.getPath().toString();

System.out.println("isDir:" + isDir + ",Path:" + fullPath);

}

同时读取本地和hdfs目录：

public class TestHdfs{

public static void main(String[] args) {

//读取配置文件

Configuration conf=new Configuration();

//String path = "hdfs://10.8.6.126:8020/ada/lyy/data/NaiveBayesModel.model";

String path = "file:///home/liyanyan/cluster/NaiveBayesModel.model";

String classfile = "";

//读取配置文件

FileStatus[] listFile = null;

FileSystem fs = null;

try {

if(path.startsWith("hdfs:")){

conf.set("fs.defaultFS",path.substring(0,path.indexOf('/', path.indexOf(':') + 3)));

fs = FileSystem.get(conf);

}else if(path.startsWith("file:")){

fs=FileSystem.getLocal(conf);

//获取文件目录

}

listFile =fs.listStatus(new Path(path+"/metadata"), new RegxRejectPathFilter("^[._]+\\w+.*$"));

if(listFile.length != 1){

}else{

classfile = listFile[0].getPath().toString();

}

}catch(IOException e){

e.printStackTrace();

}

System.out.println("classfile = "+classfile.replaceFirst("file:","file://"));

}

private static class RegxRejectPathFilter implements PathFilter {

private final String regex;

public RegxRejectPathFilter(String regex) {

this.regex=regex;

}

@Override

public boolean accept(Path path) {

// TODO 自动生成的方法存根

boolean flag=path.getName().toString().matches(regex);

return !flag;

}

hdfs遍历文件方法的更多相关文章

一句python，一句R︱模块导入与查看、数据读写出入、数据查看函数、数据类型、遍历文件
先学了R,最近刚刚上手python,所以想着将python和R结合起来互相对比来更好理解python.最好就是一句python,对应写一句R. pandas中有类似R中的read.table的功能,而 ...
python os.walk()遍历文件夹
转自 http://alanland.iteye.com/blog/612459 via @alanland 今天第一次进行文件遍历,自己递归写的时候还调试了好久,(主要因为分隔符号的问题),后来发 ...
python中遍历文件的3个方法
转自: http://www.jb51.net/article/54640.htm 用python进行文件遍历有多种方法,这里列举并说明一下. os.path.walk() 这是一个传统的用法. wa ...
linux c遍历文件夹和文件查找的方法
linux c遍历文件夹的方法比较简单,使用c来实现 #include <iostream> #include <stdio.h> #include <sys/types ...
遍历文件创建XML对象方法 python解析XML文件提取坐标计存入文件
XML文件??? xml即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. 里面的标签都是可以随心所欲的按照他的命名规则来定义的,文件名为roi.xm ...
python，遍历文件的方法
在做验证码识别时,识别时需要和库里的图片对比,找到最接近的那个图片,然后就行到了用与图片一致的字符命名,获取文件的名称,去将图片的名称读出来作为验证码.以下是我通过网上的资料总结的三种文件遍历的方式, ...
HDFS 读取、写入、遍历文件夹获取文件全路径、append
版权声明:本文为博主原创文章,未经博主同意不得转载.安金龙的博客. https://blog.csdn.net/smile0198/article/details/37573081 1.从HDFS中 ...
PHP使用glob方法遍历文件夹下所有文件
PHP使用glob方法遍历文件夹下所有文件遍历文件夹下所有文件,一般可以使用opendir 与 readdir 方法来遍历.<pre><?php$path = dirname(__ ...
HDFS设计思路，HDFS使用，查看集群状态，HDFS，HDFS上传文件，HDFS下载文件，yarn web管理界面信息查看，运行一个mapreduce程序，mapreduce的demo
26 集群使用初步 HDFS的设计思路 l 设计思想分而治之:将大文件.大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析: l 在大数据系统中作用: 为各类分布式 ...

随机推荐

DataFrame概念与创建
一概念 Pandas是一个开源的Python数据分析库.Pandas把结构化数据分为了三类: Series,1维序列,可视作为没有column名的.只有一个column的DataFrame: Dat ...
Oracle AWR与警报系统一
管理自动工作负荷知识库 Oracle收集大量有关性能和活动的统计信息.这些信息在内存中积累,并定期写入数据库:写入到构成自动工作负荷知识库(Automatic Workload Repository, ...
volatile关键字到底做了什么？
话不多说,直接贴代码 class Singleton { private static volatile Singleton instance; private Singleton(){} //双重判 ...
阿里云CentOS7部署ASP.NET Core
本文主要介绍了阿里云CentOS7下如何成功的发布ASP.Core应用并使用nginx进行代理, 并对所踩的坑加以记录; 环境.工具.准备工作服务器:阿里云64位CentOS 7.4.1708版本; ...
笔记：HTML5中input元素新增的type值
在HTML5中,input元素的type值增加了不少,使input的功能强大了很多. 但在各大浏览器中并不是所有的type值都支持. 以下是比较有用.并且浏览器支持的稍好一些的值: type=colo ...
Ubuntu16.04安装CDH5.14.2
一.安装cloudera manager(下文简称cm) (一).环境及软件准备: 1.环境:Ubuntu16.04 desktop x 3 台 ip分别为:10.132.226.121,10.132 ...
CDH升级 5.7.5 --> 5.13.3（tar包方式）
博客园首发,转载请注明出处:https://www.cnblogs.com/tzxxh/p/9123231.html 一.准备 1.关闭cdh中的服务 hdfs.yarn等所有服务:关闭 cm-ser ...
ACM1008：Elevator
Problem Description The highest building in our city has only one elevator. A request list is made u ...
scala (6) Map
在scala中Map分为可变长(mutable)和不可变长(imtable) /** * 不可变长map 长度一旦初始化,就不能在进行更改 */ // 通过对偶元组的方式创建map val map = ...
20155222 2016-2017-2 《Java程序设计》实验二
1 测试 public class MyUtil{ public static String percentage2fivegrade(int grade){ //如果成绩小于60,转成"不 ...

hdfs遍历文件方法

hdfs遍历文件方法的更多相关文章

随机推荐

热门专题