scala 操作hdfs

获取hdfs文件下所有文件getAllFiles 遍历 spark读取


1 package com.spark.demo

 import java.io.IOException

 import java.net.URI

 import org.apache.hadoop.conf.Configuration

 import org.apache.hadoop.fs._

 object HdfsUtil {

     val conf: Configuration = new Configuration()

     var fs: FileSystem = null

     var files: RemoteIterator[LocatedFileStatus] = null

     def getFiles(HDFSPath: String) = {

       try {

         fs = FileSystem.get( new URI( HDFSPath ), conf )

       } catch {

         case e: IOException => {

           e.printStackTrace

         }

       }

       files

     }

     def getFiles(HDFSPath: String, targetPath: String) = {

       try {

         fs = FileSystem.get( new URI( HDFSPath ), conf )

         // 返回指定路径下所有的文件

         files = fs.listFiles( new Path( targetPath ), false )

       } catch {

         case e: IOException => {

           e.printStackTrace

         }

       }

       files

     }

     def mkdir(finalPath: String) = {

       fs.create( new Path( finalPath ) )

     }

     def rename(oldPath: String, finalPath: String) = {

       fs.rename( new Path( oldPath ), new Path( finalPath ) )

     }

     def exist(existPath: String): Boolean = {

       fs.exists( new Path( existPath ) )

     }

     def delete(deletePath: String) = {

       fs.delete( new Path( deletePath ), true )

     }

     def read(readPath: String) = {

       fs.open( new Path( readPath ) )

     }

    def  getAllFiles(path:String): Array[FileStatus] ={

    val fs = FileSystem.get(URI.create(path), conf)

    val files= fs.listStatus(new Path(path))

    for(file<-files){

      println( file.getPath.getName)

      println(file.getPath.toString)

      }

       files

  }

   def main(args: Array[String]): Unit = {

     getAllFiles("hdfs://10.10.4.1:8020/ibc/datalogs/apachelogs/archive/2018")

   }

     def close() = {

       try {

         if (fs != null) {

           fs.close()

         }

       } catch {

         case e: IOException => {

           e.printStackTrace

         }

       }

     }

 }

scala 操作hdfs的更多相关文章

geotrellis使用（五）使用scala操作Accumulo
要想搞明白Geotrellis的数据处理情况,首先要弄清楚数据的存放,Geotrellis将数据存放在Accumulo中. Accumulo是一个分布式的Key Value型NOSQL数据库,官网为( ...
java操作hdfs实例
环境:window7+eclipse+vmware虚拟机+搭建好的hadoop环境(master.slave01.slave02) 内容:主要是在windows环境下,利用eclipse如何来操作hd ...
Hadoop操作hdfs的命令【转载】
本文系转载,原文地址被黑了,故无法贴出原始链接. Hadoop操作HDFS命令如下所示: hadoop fs 查看Hadoop HDFS支持的所有命令 hadoop fs –ls 列出目录及文件信息 ...
使用javaAPI操作hdfs
欢迎到https://github.com/huabingood/everyDayLanguagePractise查看源码. 一.构建环境在hadoop的安装包中的share目录中有hadoop所有 ...
Scala操作Hbase空指针异常java.lang.NullPointerException处理
Hbase版本:Hortonworks Hbase 1.1.2 问题描述:使用Scala操作Hbase时,发生空指针异常(java.lang.RuntimeException: java.lang.N ...
关于操作HDFS的一个问题
近日写程序定时任务调Hadoop MR程序,然后生成报表,发送邮件,当时起了两个任务A和B,调MR程序之前,会操作hdfs(读写都有),任务A每天一点跑,任务B每十分钟跑一次,B任务不会调用MR程序, ...
使用Java API操作HDFS文件系统
使用Junit封装HFDS import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org ...
使用Eclipse来操作HDFS的文件
一.常用类 1.Configuration Hadoop配置文件的管理类,该类的对象封装了客户端或者服务器的配置(配置集群时,所有的xml文件根节点都是configuration) 创建一个Confi ...
Hadoop Java API操作HDFS文件系统（Mac）
1.下载Hadoop的压缩包 tar.gz https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/stable/ 2.关联jar包在 ...

随机推荐

手把手教你用 Git(转)
转自:http://blog.jobbole.com/78960/ 一:Git是什么? Git是目前世界上最先进的分布式版本控制系统. 二:SVN与Git的最主要的区别? SVN是集中式版本控制系统, ...
GatewayWorker 分布初试
参考官网分布说明 http://doc2.workerman.net/326144 准备:两台内网服务器A1,A2 A1服务器写PHP脚本前端访问 <?php // 注意这里使用A2服务器的内网 ...
Day5 函数递归，匿名、内置行数，模块和包，开发规范
一.递归与二分法一.递归 1.递归调用的定义递归调用:在调用一个函数的过程中,直接或间接地调用了函数本身 2.递归分为两类:直接与间接 #直接 def func(): print('from fu ...
论文阅读-使用隐马模型进行NER
Named Entity Recognition in Biomedical Texts using an HMM Model 2004年,引用79 1.摘要 Although there exis ...
pycharm tips
批量更改变量名,就在该变量名上shift+f6 ../data 两个点,就是上一级目录,一个点就是当前目录 unhashable type: 'list' 使用set进行去重 a = [1,2,2,3 ...
react-router v4 使用 history 控制路由跳转
问题当我们使用react-router v3的时候,我们想跳转路由,我们一般这样处理我们从react-router导出browserHistory. 我们使用browserHistory.push ...
js快速排序算法解析
数组的快速排序算法,和并归排序步骤基本类似. 都是先拆分,后合并.并归排序是:拆分容易,合并难. 快速排序是:拆分难,合并容易要理解快速排序,首先要理解拆分逻辑要素:找一个基准点,通过操作使得数列 ...
数据分析与挖掘 - R语言：多元线性回归
一个简单的例子!环境:CentOS6.5Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. 线性回归主要用来做预测模型. 1.准备数据集: X Y 0.10 42.0 0.1 ...
Hadoop2.6的DataNode启动不了
2016-05-04 18:14:51,990 INFO org.apache.hadoop.ipc.Server: IPC Server Responder: starting 2016-05-04 ...
leetcode 343 整数拆分
1.这个题拿到之后没有什么思路,此时就应该考虑暴力法.然而每次不知道要拆成几份,没办法用循环,所以想到用递归. 如图所示进行递归,显然有很多重复的计算,所以用自底向上的动态规划. 2.还有一个问题就是 ...

scala 操作hdfs

获取hdfs文件下所有文件getAllFiles 遍历 spark读取

scala 操作hdfs的更多相关文章

随机推荐

热门专题