垃圾数据清理,简单的说,就是删除不需要的那些数据,释放存储空间 最常用的就是delete命令.truncate命令,甚至是删除表空间重建,具体操作都很简单,不是本文的重点 下面,总结几个垃圾数据清理常见的几个问题 1.查找数据量最大的表 可以直接执行下面的SQL语句 select t.table_name, t.num_rows, t.blocks, t.empty_blocks from user_tables t where t.num_rows is not null order by t
关于这次总结还是要从一个bug说起....... 场景描述:项目的基本处理流程为:从文件系统读取每隔一分钟上传的日志并由Spark Streaming进行计算消费,最后将结果写入InfluxDB中,然后在监控系统中进行展示,监控.这里的spark版本为2.2.1. Bug:程序开发完成之后,每个batch处理时间在15~20s左右,上线之后一直在跑,监控系统中数据也没有什么异常,sparkui中只关注了任务处理时间,其他并没有在意.后来程序运行了2天18个小时之后,监控系统发出报警NO DATA
由于分区表数据增加:没做清除操作:导致表空间告急.需要清理很久之前的数据:释放空间.步骤如下 一,查看哪个表占的空间 SELECT t.segment_name, SUM(t.bytes / 1024 / 1024) FROM user_segments t GROUP BY t.segment_name ORDER BY SUM(t.bytes / 1024 / 1024) DESC 二.查看每个子分区的记录 SELECT a.table_name,a.partition_name FROM