1. 任务背景 近日有个项目任务,要求读取压缩在Zip中的百科HTML文件,经分析发现,提供的Zip文件有如下特点(=>指代对应解决方案): (1) 压缩为分卷文件 => 只需将解压缩在同一目录中的一个分卷zip即可解压缩出整个文件 (2) 压缩文件中又包含不同的两个文件夹,且各包含n个小zip文件,小zip文件中包含目录及对应的HTML文本文件 采用第一方案:依次解压缩各小zip文件,存放在一个目录中,然后上传到HDFS中 存在问题:每个小zip都包含上万个小文件,按照第一方案解压缩,耗费的…