通过java api统计hive库下的所有表的文件个数、文件大小

更新hadoop fs 命令实现：

[ss@db csv]$ hadoop fs -count /my_rc/my_hive_db/*

18/01/14 15:40:19 INFO hdfs.PeerCache: SocketCache disabled.

           3            2                  0 /my_rc/my_hive_db/.hive-staging_hive_2017-08-19_16-52-39_153_7217997288202811839-170149

           2            0                  0 /my_rc/my_hive_db/.hive-staging_hive_2018-01-03_15-23-10_240_5147839610865108930-52517

           1            0                  0 /my_rc/my_hive_db/BusinessGtUser

           4            1             321008 /my_rc/my_hive_db/ZJ2_SenseSta

           1            1                143 /my_rc/my_hive_db/anthgain

           1            1              27228 /my_rc/my_hive_db/anthgainpoint

           1            1                 70 /my_rc/my_hive_db/antvgain

           1            1              27429 /my_rc/my_hive_db/antvgainpoint

通过hadoop fs -du 或者 hadoop fs -count只能统计指定的某个hdfs路径(hive表目录)的总文件个数及文件的大小，但是通过hadoop命令没有办法实现批量处理hive中多个表一次进行统计，如果一次性统计多个hive表目录的文件个数、文件总大小只能通过java程序使用hadoop api实现。

package com.my.hdfsopt;

import java.io.FileNotFoundException;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileStatus;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

public class HdfsPathMonitor {

    // submit shell

    /*

     * main类的路径不需要指定，否则会被认为是参数传递进入。

     * yarn jar /app/m_user1/service/Hangzhou_HdfsFileMananger.jar /hive_tenant_account/hivedbname/

     */

    public static void main(String[] args) throws Exception {

        System.out.println("the args is " + String.join(",", args));

        String dirPath = args[0];

        Configuration conf = new Configuration();

        /*

         * <property> <name>fs.defaultFS</name> <value>hdfs://mycluster</value>

         * </property>

         */

        conf.set("fs.defaultFS", "hdfs://mycluster");

        FileSystem fileSystem = FileSystem.get(conf);

        Path path = new Path(dirPath);

        // 获取文件列表

        FileStatus[] files = fileSystem.listStatus(path);

        if (files == null || files.length == 0) {

            throw new FileNotFoundException("Cannot access " + dirPath + ": No such file or directory.");

        }

        System.out.println("dirpath \t total file size \t total file count");

        for (int i = 0; i < files.length; i++) {

            String pathStr = files[i].getPath().toString();

            FileSystem fs = files[i].getPath().getFileSystem(conf);

            long totalSize = fs.getContentSummary(files[i].getPath()).getLength();

            long totalFileCount = listAll(conf, files[i].getPath());

            fs.close();

            System.out.println(("".equals(pathStr) ? "." : pathStr) + "\t" + totalSize + "\t" + totalFileCount);

        }

    }

    /**

     * @Title: listAll @Description: 列出目录下所有文件 @return void 返回类型 @throws

     */

    public static Long listAll(Configuration conf, Path path) throws IOException {

        long totalFileCount = 0;

        FileSystem fs = FileSystem.get(conf);

        if (fs.exists(path)) {

            FileStatus[] stats = fs.listStatus(path);

            for (int i = 0; i < stats.length; ++i) {

                if (!stats[i].isDir()) {

                    // regular file

                    // System.out.println(stats[i].getPath().toString());

                    totalFileCount++;

                } else {

                    // dir

                    // System.out.println(stats[i].getPath().toString());

                    totalFileCount += listAll(conf, stats[i].getPath());

                }

            }

        }

        fs.close();

        return totalFileCount;

    }

}

执行命令：

yarn jar /app/m_user1/tommyduan_service/Hangzhou_HdfsFileMananger.jar /hive_tenant_account/hivedbname/

执行结果：

通过java api统计hive库下的所有表的文件个数、文件大小的更多相关文章

mysql下批量清空某个库下的所有表(库不要删除，保留空库)
总所周知,mysql下要想删除某个库下的某张表,只需要切换到该库下,执行语句"drop table tablename"即可删除!但若是该库下有成百上千张表,要是再这样一次次执行d ...
mysql5.7 mysql库下面的user表没有password字段无法修改密码
如题所述,mysql5.7 mysql库下面的user表没有password字段无法修改密码, 5.7版本已经不再使用password来作为密码的字段了而改成了authentication_st ...
Java API操作HA方式下的Hadoop
通过java api连接Hadoop集群时,如果集群支持HA方式,那么可以通过如下方式设置来自动切换到活动的master节点上.其中,ClusterName 是可以任意指定的,跟集群配置无关,dfs. ...
MySQL数据库中统计一个库中的所有表的行数？
今天公司两个远端的数据库主从同步有点问题,查看下wordpress库下所有表的表的条目? mysql> use information_schema;Database changedmysql& ...
Centos下查看当前目录大小及文件个数
查看目录及其包含的文件的大小 du -ch directory 查看当前目录下文件的个数 ls -l | grep "^-" | wc -l 查看当前目录下以.jpg为后缀文件的个 ...
统计hive库表在具体下所有分区大小
1 查询具体表分区大小,以字节展示 hadoop fs -du /user/hive/warehouse/treasury.db/dm_user_excercise > dm_user_exce ...
使用hive客户端java api读写hive集群上的信息
上文介绍了hdfs集群信息的读取方式,本文说hive 1.先解决依赖 <properties> <hive.version>1.2.1</hive.version> ...
Spark：java api读取hdfs目录下多个文件
需求: 由于一个大文件,在spark中加载性能比较差.于是把一个大文件拆分为多个小文件后上传到hdfs,然而在spark2.2下如何加载某个目录下多个文件呢? public class SparkJo ...
windows上使用metastore client java api链接hive metastore问题
https://github.com/sdravida/hadoop2.6_Win_x64 下载winutils.exe 添加到path中

随机推荐

Android 零散知识点整理
Android 零散知识点整理为什么Android的更新试图操作必须在主线程中进行? 这是因为Android系统中的视图组件并不是线程安全的.通常应该让主线程负责创建.显示和更新UI,启动子线程,停 ...
spring jpa 自定义查询数据库的某个字段
spring jpa 提供的查询很强大, 就看你会不会用了. 先上代码, 后面在解释吧 1. 想查单个表的某个字段在repository中 @Query(value = "select i ...
笔记：JDBC 数据库
数据库 URL 在连接数据库时,我们必须使用各种与数据库类型相关的参数,例如主机名.端口号和数据库名称等,JDBC使用了一种与普通URL相类似的语法来描述数据库,JDBC URL 一般语法为: jdb ...
pureftpd支持php实现图片上传
安装好php后,可安装pureftp工具这里我给出一个rpm包可直接安装配置:http://pan.baidu.com/s/1i5OhS3r(包括启动脚本在内) FTP测试:安装ftp客户端,用户名 ...
【最全】经典排序算法（C语言）
算法复杂度比较: 算法分类一.直接插入排序一个插入排序是另一种简单排序,它的思路是:每次从未排好的序列中选出第一个元素插入到已排好的序列中. 它的算法步骤可以大致归纳如下: 从未排好的序列中拿出首 ...
[poj2185]Milking Grid_KMP
Milking Grid poj-2185 题目大意:给出一个字符矩阵,求最小覆盖矩阵(可以残余). 注释:$1\le R\le 10^5$,$1\le C \le 75$ 想法:和bzoj1355不 ...
Laravel 中缓存驱动的速度比较
缓存是web开发中重要的一部分,我相信很多人和我一样,经常忽略这个问题. 随着工作经验的累积,我已经意识到缓存是多么的重要,这里我通过 Scotch 来解释一下它的重要性. 通过观察发现,Scotch ...
初学MySQL基础知识笔记--01
本人初入博客园,第一次写博客,在今后的时间里会一点点的提高自己博客的水平,以及博客的排版等. 在今天,我学习了一下MySQL数据库的基本知识,相信关于MySQL的资料网上会有很多,所以我就不在这里复制 ...
C语言程序设计（基础）- 第3周作业
一.PTA编程题目完成PTA第三周作业中4个题目: 1.7-9 A乘以B 要求:输入的两个整数:A是你学号前两位数字,B是你学号后两位数字 2.7-10 求整数均值要求:输入的整数是:你的身高.体 ...
bug终结者团队作业第四、五周
bug终结者团队作业第四.五周博客编辑者:20162322朱娅霖本周学习任务: 团队协作完成<需求规格说明书> 工作流程第四周团队成员各自完成蓝墨云班课中<需求规格说明书& ...

通过java api统计hive库下的所有表的文件个数、文件大小

通过java api统计hive库下的所有表的文件个数、文件大小的更多相关文章

随机推荐

热门专题