1. 任务背景

近日有个项目任务,要求读取压缩在Zip中的百科HTML文件,经分析发现,提供的Zip文件有如下特点(=>指代对应解决方案):

(1) 压缩为分卷文件 => 只需将解压缩在同一目录中的一个分卷zip即可解压缩出整个文件

(2) 压缩文件中又包含不同的两个文件夹,且各包含n个小zip文件,小zip文件中包含目录及对应的HTML文本文件

采用第一方案:依次解压缩各小zip文件,存放在一个目录中,然后上传到HDFS中

存在问题:每个小zip都包含上万个小文件,按照第一方案解压缩,耗费的时间太太太多了

(3) 解析的zip存在多文件的情况

(4) 数据总量共计50W

2. 优化方案

直接上传小zip文件,然后让Spark直接从zip文件中读取HTML文本,再使用jsoup解析,并存储至elasticsearch中。

实现过程中有一处需要注意! => 解析zip会遍历的ZipEntry,会识别文件夹和文件夹下的文件,即文件夹和文件在ZipEntry中被当成同类对象来对待。

例1:本地解析zip压缩文件demo

import java.io.{BufferedInputStream, BufferedReader, FileInputStream, InputStreamReader}
import java.util.zip.{ZipFile, ZipInputStream} import net.sf.json.JSONObject
import org.jsoup.Jsoup import scala.collection.mutable object Test { def testZip(): Unit = {
val baseDir = "part2/"
val path = s"$baseDir\\06.zip"
val zf = new ZipFile(path)
val in = new BufferedInputStream(new FileInputStream(path))
val zin = new ZipInputStream(in)
var zipEn = zin.getNextEntry
var count = 0
try {
while (zipEn != null) {
if (!zipEn.isDirectory) {
val buff = new BufferedReader(new InputStreamReader(zf.getInputStream(zipEn)))
val sb = new StringBuilder()
var line = buff.readLine()
while (line != null) {
count = count + 1
if (line.nonEmpty) {
sb.append(line.trim)
}
line = buff.readLine()
}
val id = zipEn.getName.substring(zipEn.getName.indexOf("/") + 1, zipEn.getName.indexOf("."))
val doc = Jsoup.parse(sb.toString()) val title = doc.select(".lemmaWgt-lemmaTitle-title h1").text()
val sb1 = new mutable.StringBuilder()
val eles = doc.select(".para")
for (i <- 0 until eles.size()) {
sb1.append(eles.get(i).text().trim).append("\t")
} val json = new JSONObject()
json.put("id", id)
json.put("title", title)
json.put("content", sb1.toString().trim)
println(json)
buff.close()
}
zipEn = zin.getNextEntry
}
zin.closeEntry()
} catch {
case _ =>
}
println(count)
} }

例2:Spark读取HDFS中的含有多文件的zip文件

def parseBaike(): Unit ={
val baseDir = "/work/ws/temp/baike"
val sc = new SparkContext(new SparkConf().setAppName("parseBaike"))
val rdd = sc.binaryFiles(s"$baseDir/data/*.zip", 40)
.flatMap{
case (zipFilePath: String, content: PortableDataStream) => {
val zis = new ZipInputStream(content.open())
Stream.continually(zis.getNextEntry)
.takeWhile(_ != null)
.flatMap(zipEn => {
if(zipEn.isDirectory) None
else{
// 基于文件名获取百科词条的id信息
val id = zipEn.getName.substring(zipEn.getName.indexOf("/")+1, zipEn.getName.indexOf("."))
val html = scala.io.Source.fromInputStream(zis, "UTF-8").getLines.mkString("")
if(html.nonEmpty){
val doc = Jsoup.parse(html)
// 解析百科中的词条名称
val title = doc.select(".lemmaWgt-lemmaTitle-title h1").text()
// 获取词条HTML中的全部正文内容
val sb = new mutable.StringBuilder()
val eles = doc.select(".para")
for(i <- 0 until eles.size()){
sb.append(eles.get(i).text().trim).append("\t")
}
if(title.trim.nonEmpty && sb.toString.trim.nonEmpty){
val json = new JSONObject()
json.put("id", id)
json.put("title", title)
json.put("content", sb.toString().trim)
Some(json)
}else None
}else None
}
})
}
}
rdd.cache()
rdd.saveAsTextFile(HDFSFileUtil.clean(s"$baseDir/result/json"))
rdd.foreach(f => {
// 保存在Es中
ESHelper.saveToEs("baike", "baike", f, "id")
})
rdd.unpersist()
sc.stop()
}

  注意:如上代码仅供参考,并隐去了部分业务相关代码,如HDFS和Es工具类,如若需要,可留言沟通交流!

3. 参考

(1)  https://stackoverflow.com/questions/28569788/how-to-open-stream-zip-files-through-spark

(2) https://stackoverflow.com/questions/32080475/how-to-read-a-zip-containing-multiple-files-in-apache-spark?r=SearchResults

Spark读取HDFS中的Zip文件的更多相关文章

  1. Spark读取HDFS文件,任务本地化(NODE_LOCAL)

    Spark也有数据本地化的概念(Data Locality),这和MapReduce的Local Task差不多,如果读取HDFS文件,Spark则会根据数据的存储位置,分配离数据存储最近的Execu ...

  2. python读取hdfs上的parquet文件方式

    在使用python做大数据和机器学习处理过程中,首先需要读取hdfs数据,对于常用格式数据一般比较容易读取,parquet略微特殊.从hdfs上使用python获取parquet格式数据的方法(当然也 ...

  3. 基于Python——实现解压文件夹中的.zip文件

    [背景]当一个文件夹里存好好多.zip文件需要解压时,手动一个个解压再给文件重命名是一件很麻烦的事情,基于此,今天介绍一种使用python实现批量解压文件夹中的压缩文件并给文件重命名的方法—— [代码 ...

  4. 点滴积累【C#】---C#实现上传word以流形式保存到数据库和读取数据库中的word文件。

    本文修改来源:http://www.cnblogs.com/zmgdpg/archive/2005/03/31/129758.html 效果: 数据库: 思路: 首先保存word到数据库:获取上传文件 ...

  5. Spark读取HDFS文件,文件格式为GB2312,转换为UTF-8

    package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.hadoop.conf.Configur ...

  6. spark读取hdfs上的文件和写入数据到hdfs上面

    def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.set("spark.master" ...

  7. Spark 读取HDFS csv文件并写入hive

    package com.grady import org.apache.spark.SparkConf import org.apache.spark.sql.{Row, SaveMode, Spar ...

  8. Spark读取Hbase中的数据

    大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1).调用parallelize函数直接从集合中获取数据,并存入RDD中:Java版本如下: JavaRDD<Inte ...

  9. spark读取hdfs数据本地性异常

    在分布式计算中,为了提高计算速度,数据本地性是其中重要的一环. 不过有时候它同样也会带来一些问题. 一.问题描述 在分布式计算中,大多数情况下要做到移动计算而非移动数据,所以数据本地性尤其重要,因此我 ...

随机推荐

  1. GPU Debugger

    https://gpuopen.com/presentations/2019/digital-dragons-2019-make-your-game-friendly.pdf https://grap ...

  2. pandas.DataFrame.where和mask 解读

    1.前言背景 没怎么用过df.where 都是直接使用loc.apply等方法去解决. 可能是某些功能还没有超出loc和apply的适用范围. 2.进入df.where和df.mask DataFra ...

  3. rsync 同步操作

    同步:增量拷贝,只传输变化过的数据 rsync   [ 选项]  源目录/目标目录 -a :归档模式  相当于 -rlptgoD -v:显示详细操作信息 -z:传输过程中启用压缩/解压 --delet ...

  4. android&ios区别

    转自(只讲干货的老张) 面试中经常提问到一个点,就是做手机测试绕不去的点,那就是Android和ios的区别.这篇文章只做一些比较重要的点讲一下,太深入部分就不讲了,毕竟我做的是测试,而Android ...

  5. CI环境搭建-创建git

    添加如下配置:  上图说的需每次启动的即下面这个文件: 默认用户名.密码是admin/admin  创建代码仓库:  选择版本库:  使用方法: 1,创建一个文件夹  选择版本库地址:  也可以通过c ...

  6. shell拷贝文件到另一台机器

    #!/bin/bash data=$(date "+%Y-%m-%d %H:%M:%S") ip='192.168.10.14' password='fan' gitBak='/v ...

  7. PHP mysqli_next_result() 函数

    定义和用法 mysqli_next_result() 函数为 mysqli_multi_query() 准备下一个结果集. 语法 mysqli_next_result(connection);   执 ...

  8. php+文件分块上传

    PHP用超级全局变量数组$_FILES来记录文件上传相关信息的. 1.file_uploads=on/off 是否允许通过http方式上传文件 2.max_execution_time=30 允许脚本 ...

  9. Comet OJ - Contest #11 D isaster 重构树+倍增+dfs序+线段树

    发现对于任意一条边,起决定性作用的是节点编号更大的点. 于是,对于每一条边,按照节点编号较大值作为边权,按照最小生成树的方式插入即可. 最后用线段树维护 dfs 序做一个区间查询即可. Code: # ...

  10. 【csp模拟赛5】购物(shopping.cpp)--常规

    多项式,因为每次的x相同,所以把a和b相加就行了,然后找对称轴,找离对称轴最近的整数点,然而我却写了个暴力,没看x #include <iostream> #include <cst ...