Spark读取HDFS中的Zip文件

1. 任务背景

近日有个项目任务，要求读取压缩在Zip中的百科HTML文件，经分析发现，提供的Zip文件有如下特点(=>指代对应解决方案)：

(1) 压缩为分卷文件 => 只需将解压缩在同一目录中的一个分卷zip即可解压缩出整个文件

(2) 压缩文件中又包含不同的两个文件夹，且各包含n个小zip文件，小zip文件中包含目录及对应的HTML文本文件

采用第一方案：依次解压缩各小zip文件，存放在一个目录中，然后上传到HDFS中

存在问题：每个小zip都包含上万个小文件，按照第一方案解压缩，耗费的时间太太太多了

(3) 解析的zip存在多文件的情况

(4) 数据总量共计50W

2. 优化方案

直接上传小zip文件，然后让Spark直接从zip文件中读取HTML文本，再使用jsoup解析，并存储至elasticsearch中。

实现过程中有一处需要注意！ => 解析zip会遍历的ZipEntry，会识别文件夹和文件夹下的文件，即文件夹和文件在ZipEntry中被当成同类对象来对待。

例1：本地解析zip压缩文件demo

import java.io.{BufferedInputStream, BufferedReader, FileInputStream, InputStreamReader}
import java.util.zip.{ZipFile, ZipInputStream}
 
import net.sf.json.JSONObject
import org.jsoup.Jsoup
 
import scala.collection.mutable
 
object Test {
 
  def testZip(): Unit = {
    val baseDir = "part2/"
    val path = s"$baseDir\\06.zip"
    val zf = new ZipFile(path)
    val in = new BufferedInputStream(new FileInputStream(path))
    val zin = new ZipInputStream(in)
    var zipEn = zin.getNextEntry
    var count = 0
    try {
      while (zipEn != null) {
        if (!zipEn.isDirectory) {
          val buff = new BufferedReader(new InputStreamReader(zf.getInputStream(zipEn)))
          val sb = new StringBuilder()
          var line = buff.readLine()
          while (line != null) {
            count = count + 1
            if (line.nonEmpty) {
              sb.append(line.trim)
            }
            line = buff.readLine()
          }
          val id = zipEn.getName.substring(zipEn.getName.indexOf("/") + 1, zipEn.getName.indexOf("."))
          val doc = Jsoup.parse(sb.toString())
 
          val title = doc.select(".lemmaWgt-lemmaTitle-title h1").text()
          val sb1 = new mutable.StringBuilder()
          val eles = doc.select(".para")
          for (i <- 0 until eles.size()) {
            sb1.append(eles.get(i).text().trim).append("\t")
          }
 
          val json = new JSONObject()
          json.put("id", id)
          json.put("title", title)
          json.put("content", sb1.toString().trim)
          println(json)
          buff.close()
        }
        zipEn = zin.getNextEntry
      }
      zin.closeEntry()
    } catch {
      case _ =>
    }
    println(count)
  }
 
}

例2：Spark读取HDFS中的含有多文件的zip文件

def parseBaike(): Unit ={
    val baseDir = "/work/ws/temp/baike"
    val sc = new SparkContext(new SparkConf().setAppName("parseBaike"))
    val rdd = sc.binaryFiles(s"$baseDir/data/*.zip", 40)
        .flatMap{
          case (zipFilePath: String, content: PortableDataStream) => {
            val zis = new ZipInputStream(content.open())
            Stream.continually(zis.getNextEntry)
              .takeWhile(_ != null)
              .flatMap(zipEn => {
                if(zipEn.isDirectory) None
                else{
                  // 基于文件名获取百科词条的id信息
                  val id = zipEn.getName.substring(zipEn.getName.indexOf("/")+1, zipEn.getName.indexOf("."))
                  val html = scala.io.Source.fromInputStream(zis, "UTF-8").getLines.mkString("")
                  if(html.nonEmpty){
                    val doc = Jsoup.parse(html)
                    // 解析百科中的词条名称
                    val title = doc.select(".lemmaWgt-lemmaTitle-title h1").text()
                    // 获取词条HTML中的全部正文内容
                    val sb = new mutable.StringBuilder()
                    val eles = doc.select(".para")
                    for(i <- 0 until eles.size()){
                      sb.append(eles.get(i).text().trim).append("\t")
                    }
                    if(title.trim.nonEmpty && sb.toString.trim.nonEmpty){
                      val json = new JSONObject()
                      json.put("id", id)
                      json.put("title", title)
                      json.put("content", sb.toString().trim)
                      Some(json)
                    }else None
                  }else None
                }
              })
          }
        }
    rdd.cache()
    rdd.saveAsTextFile(HDFSFileUtil.clean(s"$baseDir/result/json"))
    rdd.foreach(f => {
      // 保存在Es中
      ESHelper.saveToEs("baike", "baike", f, "id")
    })
    rdd.unpersist()
    sc.stop()
  }

　　注意：如上代码仅供参考，并隐去了部分业务相关代码，如HDFS和Es工具类，如若需要，可留言沟通交流！

3. 参考

(1) https://stackoverflow.com/questions/28569788/how-to-open-stream-zip-files-through-spark

(2) https://stackoverflow.com/questions/32080475/how-to-read-a-zip-containing-multiple-files-in-apache-spark?r=SearchResults