Hadoop API：遍历文件分区目录，并根据目录下的数据进行并行提交spark任务

hadoop api提供了一些遍历文件的api,通过该api可以实现遍历文件目录：

import java.io.FileNotFoundException;

import java.io.IOException;

import java.net.URI;

import java.util.ArrayList;

import java.util.Arrays;

import java.util.List;

import java.util.concurrent.CountDownLatch;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileStatus;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

public class BatchSubmitMain {

    public static void main(String[] args) throws Exception {

        String mrTableName = args[0];

        String fglibTableName = args[1];

        Configuration conf = new Configuration();

        /*

         * <property> <name>fs.defaultFS</name> <value>hdfs://hcluster</value>

         * </property>

         */

        conf.set("fs.defaultFS", "hdfs://hcluster");

        FileSystem fileSystem = FileSystem.get(conf);

        String mrFilePath = "/myuser/hivedb/" + mrTableName;

        String fglibFilePath = "/myuser/hivedb/" + fglibTableName;

        System.out.println(mrFilePath);

        List<String> mrObjectIdItems = getObjectIdItems(fileSystem, mrFilePath);

        System.out.println(fglibFilePath);

        List<String> fglibObjectIdItems = getObjectIdItems(fileSystem, fglibFilePath);

        List<String> objectIdItems = new ArrayList<>();

        for (String mrObjectId : mrObjectIdItems) {

            for (String fglibObjectId : fglibObjectIdItems) {

                if (mrObjectId == fglibObjectId) {

                    objectIdItems.add(mrObjectId);

                }

            }

        }

        String submitShPath = "/app/myaccount/service/submitsparkjob.sh";

        CountDownLatch threadSignal = new CountDownLatch(objectIdItems.size());

        for (int ii = 0; ii < objectIdItems.size(); ii++) {

            String objectId = objectIdItems.get(ii);

            Thread thread = new ImportThread(objectId, submitShPath, threadSignal);

            thread.start();

        }

        threadSignal.await();

        System.out.println(Thread.currentThread().getName() + "complete");

    }

    private static List<String> getObjectIdItems(FileSystem fileSystem, String filePath) throws FileNotFoundException, IOException {

        List<String> objectItems = new ArrayList<>();

        Path path = new Path(filePath);

        // 获取文件列表

        FileStatus[] files = fileSystem.listStatus(path);

        // 展示文件信息

        for (int i = 0; i < files.length; i++) {

            try {

                if (files[i].isDirectory()) {

                    String[] fileItems = files[i].getPath().getName().split("/");

                    String objectId = fileItems[fileItems.length - 1].replace("objectid=", "");

                    objectItems.add(objectId);

                    System.out.println(objectId);

                }

            } catch (Exception e) {

                e.printStackTrace();

            }

        }

        return objectItems;

    }

    /**

     * @param hdfs

     *            FileSystem 对象

     * @param path

     *            文件路径

     */

    public static void iteratorShowFiles(FileSystem hdfs, Path path) {

        try {

            if (hdfs == null || path == null) {

                return;

            }

            // 获取文件列表

            FileStatus[] files = hdfs.listStatus(path);

            // 展示文件信息

            for (int i = 0; i < files.length; i++) {

                try {

                    if (files[i].isDirectory()) {

                        System.out.print(">>>" + files[i].getPath() + ", dir owner:" + files[i].getOwner());

                        // 递归调用

                        iteratorShowFiles(hdfs, files[i].getPath());

                    } else if (files[i].isFile()) {

                        System.out.print(" " + files[i].getPath() + ",length:" + files[i].getLen() + ", owner:" + files[i].getOwner());

                    }

                } catch (Exception e) {

                    e.printStackTrace();

                }

            }

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

}

并行执行sh的线程：

import java.util.concurrent.CountDownLatch;

public class ImportThread extends Thread {

    private final JavaShellInvoker javaShellInvoker = new JavaShellInvoker();

    private CountDownLatch countDownLatch;

    private String objectId;

    private String submitShPath;

    public ImportThread(String objectId, String submitShPath, CountDownLatch countDownLatch) {

        this.objectId = objectId;

        this.submitShPath = submitShPath;

        this.countDownLatch = countDownLatch;

    }

    @Override

    public void run() {

        System.out.println(Thread.currentThread().getName() + "start... " + this.submitShPath + " " + this.objectId.toString());// 打印开始标记

        try {

            int result = this.javaShellInvoker.executeShell("mrraster", this.submitShPath, this.objectId);

            if (result != 0) {

                System.out.println(Thread.currentThread().getName() + " result type is error");

            }

        } catch (Exception e) {

            e.printStackTrace();

            System.out.println(Thread.currentThread().getName() + "-error:" + e.getMessage());

        }

        this.countDownLatch.countDown();// 计时器减1

        System.out.println(Thread.currentThread().getName() + " complete,last " + this.countDownLatch.getCount() + " threads");// 打印结束标记

    }

}

执行sh的java代码：

import java.io.File;

import java.text.SimpleDateFormat;

import java.util.Date;

public class JavaShellInvoker {

    private static final String executeShellLogFile = "./executeShell_%s_%s.log";

    public int executeShell(String shellCommandType, String shellCommand, String args) throws Exception {

        int success = 0;

        args = (args == null) ? "" : args;

        String now = new SimpleDateFormat("yyyy-MM-dd").format(new Date());

        File logFile = new File(String.format(executeShellLogFile, shellCommandType, now));

        ProcessBuilder pb = new ProcessBuilder("sh", shellCommand, args);

        pb.redirectOutput(ProcessBuilder.Redirect.appendTo(logFile));

        pb.redirectError(ProcessBuilder.Redirect.appendTo(logFile));

        Process pid = null;

        try {

            pid = pb.start();

            success = pid.waitFor();

        } catch (Exception ex) {

            success = 2;

            System.out.println("executeShell-error:" + ex.getMessage());

            throw ex;

        } finally {

            if (pid.isAlive()) {

                success = pid.exitValue();

                pid.destroy();

            }

        }

        return success;

    }

}

submitsparkjob.sh

#!/bin/sh

source ../login.sh

spark-submit --master yarn-cluster --class MySparkJobMainClass --driver-class-path /app/myaccount/service/jars/ojdbc7.jar --jars /app/myaccount/service/jars/ojdbc7.jar --num-executors

 20 --driver-memory 6g --executor-cores 1 --executor-memory 8g MySparkJobJar.jar $1

执行BatchSubmit.jar的命令：

hadoop jar BatchSubmit.jar

Hadoop API：遍历文件分区目录，并根据目录下的数据进行并行提交spark任务的更多相关文章

遍历文件夹及其子文件夹下的.pdf文件，并解压文件夹下所有的压缩包
List<PDFPATH> pdfpath = new List<PDFPATH>(); List<string> ziplist = new List<st ...
BAT 遍历文件夹和子文件夹下所有文件
echo off & color 0A ::指定起始文件夹 set DIR="%cd%" echo DIR=%DIR% :: 参数 /R 表示需要遍历子文件夹,去掉表示不遍 ...
windowsAPI遍历文件夹（速度高于递归）
#region API 遍历文件夹及其子文件夹和子文件 #region 声明WIN32API函数以及结构 ************************************** [DllImpo ...
C++下遍历文件夹
编写程序遍历文件夹及其子文件夹下所有文件,并输出到标准输出流或者文件流. 1. 先考虑在单层目录下,遍历所有文件.以C:\WINDOWS为例: 用到数据结构_finddata_t,文件信息结构体的指针 ...
使用Hadoop API 压缩HDFS文件
下篇解压缩:使用Hadoop API 解压缩 HDFS文件起因: 集群磁盘剩余空间不足. 删除了存储在HDFS上的,一定时间之前的中间结果,发现并不能释放太多空间,查看计算业务,发现,每天的日志存在 ...
MFC拖拽、选择目录、遍历文件
1.选择目录 void CDecryptFileDlg::OnBnClickedSel() { std::wstring selectedDir; WCHAR szDir[MAX_PATH]; Zer ...
使用Hadoop API 解压缩 HDFS文件
接上篇:使用Hadoop API 压缩HDFS文件压缩完了,当然需要解压缩了. 直接上代码: private static void getFile(String filePath) throws ...
基于 java 【Web安全】文件上传漏洞及目录遍历攻击
前言:web安全之文件上传漏洞,顺带讲一下目录遍历攻击.本文基于 java 写了一个示例. 原理在上网的过程中,我们经常会将一些如图片.压缩包之类的文件上传到远端服务器进行保存.文件上传攻击指的是恶 ...
MFC_选择目录对话框_选择文件对话框_指定目录遍历文件
选择目录对话框 void C资源共享吧视频广告清理工具Dlg::OnBnClickedCls() { // 清空编辑框内容 m_Edit.SetWindowTextW(L""); ...

随机推荐

走近webpack（1）--多入口及devServer的使用
上一篇文章留下了一些问题,如果你没看过上一篇文章,可以在我的博客里查找,或者直接从这篇文章开始也是没问题的. const path = require('path'); module.exports= ...
Algorithm --> 最长回文子串
1.中心扩展中心扩展就是把给定的字符串的每一个字母当做中心,向两边扩展,这样来找最长的子回文串.算法复杂度为O(N^2). 但是要考虑两种情况: 1.像aba,这样长度为奇数. 2.想abba,这样 ...
生产者/消费者问题的多种Java实现方式
实质上,很多后台服务程序并发控制的基本原理都可以归纳为生产者/消费者模式,而这是恰恰是在本科操作系统课堂上老师反复讲解,而我们却视而不见不以为然的.在博文<一种面向作业流(工作流)的轻量级可复用 ...
初始CSS3
初始CSS31.1.什么是CSSCSS全程为层叠样式表(Cascading Style Sheet),通常又称为风格样式表(Style Sheet)它是用来进行网页风格设计的.1.CSS在网页中的应用 ...
读论文系列：Object Detection NIPS2015 Faster RCNN
转载请注明作者:梦里茶 Faster RCNN在Fast RCNN上更进一步,将Region Proposal也用神经网络来做,如果说Fast RCNN的最大贡献是ROI pooling layer和 ...
随机四则运算的出题程序java
一.设计思想 1.功能较多必须有菜单选择项,将一个大程序分为若干个功能模块的小程序,逐个实现2.针对题目避免重复时先将已生成的算式保存,然后将下一条生成的式子进行判断是否已生成,如果生成则返回循环语句 ...
学号：201621123032 《Java程序设计》第1周学习总结
1:本周学习总结 JDK,JRE,JVM三者的含义和关系.JDK是java开发工具包,包含了java的运行环境,java工具和类文库.例如java.javac.jar....可以把 .java编译成. ...
zookeeper 入门系列-理论基础 – zab 协议
上一章讨论了paxos算法,把paxos推到一个很高的位置.但是,paxos有没有什么问题呢?实际上,paxos还是有其自身的缺点的: 1. 活锁问题.在base-paxos算法中,不存在leader ...
Python基础学习篇章二
一. Python如何运行程序 1. 在交互模式下编写代码最简单的运行Python程序的方法是在Python交互命令行中输入程序.当然有很多方法可以开始这样的命令行,比如IDE,系统终端.如果你已经 ...
java异常常见面试问题
java异常常见面试问题一.java异常的理解异常主要是处理编译期不能捕获的错误.出现问题时能继续顺利执行下去,而不导致程序终止,确保程序的健壮性. 处理过程:产生异常状态时,如果当前的conte ...

Hadoop API：遍历文件分区目录，并根据目录下的数据进行并行提交spark任务

Hadoop API：遍历文件分区目录，并根据目录下的数据进行并行提交spark任务的更多相关文章

随机推荐

热门专题