spark调用hdfsAPI

spark 调用 hdfs API 查询文件名字、删除文件：

获取HDFS上面某个路径下的所有文件的名字

import org.apache.hadoop.conf.Configuration

import org.apache.hadoop.fs.{FileUtil, Path}

val configuration = new Configuration()

val output = new Path(filePath)

val hdfs = output.getFileSystem(configuration)

val fs = hdfs.listStatus(output)

val fileName = FileUtil.stat2Paths(fs)

hdfs.close()

删除HDFS上面某个文件

import org.apache.hadoop.conf.Configuration

import org.apache.hadoop.fs.Path

val configuration = new Configuration()

val output = new Path(fileName)

val hdfs = output.getFileSystem(configuration)

hdfs.delete(output, true)

hdfs.close()

spark调用hdfsAPI的更多相关文章

Spark调用Linux命令实现解压和压缩功能
一.应用场景在Spark程序中调用Linux命令,实现一些程序难以实现的功能,例如:发送模拟邮件.文件打包或解压等等二.代码实现 package big.data.analyse.linux im ...
scala spark 调用hivecontext
import org.apache.spark.rdd.RDD def save(data: RDD[ModelReplay], modelKey: String, dt: String): Unit ...
Spark 2.6.1 源代码在 eclipse 的配置
本文地址:http://www.cnblogs.com/jying/p/3671767.html 这么个问题又耗费了偶一天时间,真是羞愧.. 上午从官网svn地址下载最新的 spark 包,总是下载失 ...
Scala 深入浅出实战经典第48讲：Scala类型约束代码实战及其在Spark中的应用源码解析
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...
zhihu spark集群,书籍,论文
spark集群中的节点可以只处理自身独立数据库里的数据,然后汇总吗? 修改我将spark搭建在两台机器上,其中一台既是master又是slave,另一台是slave,两台机器上均装有独立的mongo ...
基于spark实现并行化Apriori算法
详细代码我已上传到github:click me 一. 实验要求在 Spark2.3 平台上实现 Apriori 频繁项集挖掘的并行化算法.要求程序利用 Spark 进行并行计算. ...
Spark SQL -- Hive
使用Saprk SQL 操作Hive的数据前提准备: 1.启动Hdfs,hive的数据存储在hdfs中; 2.启动hive -service metastore,元数据存储在远端,可以远程访问; 3 ...
Spark记录-spark编程介绍
Spark核心编程 Spark 核心是整个项目的基础.它提供了分布式任务调度,调度和基本的 I/O 功能.Spark 使用一种称为RDD(弹性分布式数据集)一个专门的基础数据结构,是整个机器分区数据的 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十五）Spark编写UDF、UDAF、Agg函数
Spark Sql提供了丰富的内置函数让开发者来使用,但实际开发业务场景可能很复杂,内置函数不能够满足业务需求,因此spark sql提供了可扩展的内置函数. UDF:是普通函数,输入一个或多个参数, ...

随机推荐

hbase参数配置和说明
版本:0.94-cdh4.2.1 hbase-site.xml配置 hbase.tmp.dir 本地文件系统tmp目录,一般配置成local模式的设置一下,但是最好还是需要设置一下,因为很多文件都会默 ...
关于<软件>的定义
百度百科: 软件是一系列按照特定顺序组织的计算机数据和指令的集合.一般来讲软件被划分为系统软件.应用软件和介于这两者之间的中间件. 国标中的定义: 与计算机系统操作有关的计算机程序.规程.规则,以及可 ...
mysql 创建存储过程创建1000w测试数据表
存储过程:The stored procedure 结构 CREATE [DEFINER = { user | CURRENT_USER }] PROCEDURE stored_procedure_n ...
java基础之IO流及递归理解
一.IO流(简单理解是input/output流,数据流内存到磁盘或者从磁盘到内存等) 二.File类(就是操作文件和文件夹的) 1.FIleFile类构造方法注意:通过构造方法创建的file对象是 ...
go 统计目录大小
文件大小获取 // 这里获取的是 FileInfo 对象 fi, _ := os.Stat(filepath) FileInfo 定义如下: type FileInfo interface { Nam ...
Pytorch多GPU训练
Pytorch多GPU训练临近放假, 服务器上的GPU好多空闲, 博主顺便研究了一下如何用多卡同时训练原理多卡训练的基本过程首先把模型加载到一个主设备把模型只读复制到多个设备把大的batc ...
Vue（二十九）页面加载过慢问题
1.使用按需加载 2.路由懒加载
java的3大特性
java的3大特性 1.继承: * 继承是从已有类得到继承信息创建新类的过程. * 提供继承信息的类被称为父类(超类.基类):得到继承信息的类被称为子类(派生类). * 继承让变化中的软件系统有定的延 ...
A_B_Good Bye 2018_cf
A. New Year and the Christmas Ornament time limit per test 1 second memory limit per test 256 megaby ...
31 ArcGIS中后缀一览表(持续更新中……)

spark调用hdfsAPI

获取HDFS上面某个路径下的所有文件的名字

删除HDFS上面某个文件

spark调用hdfsAPI的更多相关文章

随机推荐

热门专题