SparkStreaming 监控文件目录

SparkStream 监控文件目录时，只能监控文件内是否添加新的文件，如果文件名没有改变只是文件内容改变，那么不会检测出有文件进行了添加。

object SparkStreaming_TextFile {

  def main(args: Array[String]): Unit = {
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)

    val conf = new SparkConf().setMaster("spark://hmaster:7077")
      .setAppName(this.getClass.getSimpleName)
      .set("spark.executor.memory", "2g")
      .set("spark.cores.max", "8")
      .setJars(Array("E:\\ScalaSpace\\Spark_Streaming\\out\\artifacts\\Spark_Streaming.jar"))
    val context = new SparkContext(conf)

    //step1 create streaming context
    val ssc = new StreamingContext(context,Seconds(10))

    //step2 监控特定目录
    val lines = ssc.textFileStream("hdfs://hmaster:9000/zh/logs/")

    val words = lines.flatMap(_.split(" ")).map(x => (x,1)).reduceByKey(_ + _)
    words.print()

    ssc.start()
    ssc.awaitTermination()
  }
}

def fileStream[
  K: ClassTag,
  V: ClassTag,
  F <: NewInputFormat[K, V]: ClassTag
] (directory: String, filter: Path => Boolean, newFilesOnly: Boolean): InputDStream[(K, V)] = {
  new FileInputDStream[K, V, F](this, directory, filter, newFilesOnly)
}

//注意这里一定要给x设置类型，否则总是报错。

val dataStream = ssc.fileStream[LongWritable, Text, TextInputFormat](directory,(x : Path)  => {
  println(x.getName)
  x.getName.contains(".txt")
},true)

如下图所示，这也是为什么spark中已经存在的文件不能够再次读取的原因。

当文件名存在时，spark将会记录文件，并不会更新它的时间，故而时间的过滤不满足。

/** If given key is already in this map, returns associated value.
 *
 *  Otherwise, computes value from given expression `op`, stores with key
 *  in map and returns that value.
 *  @param  key the key to test
 *  @param  op  the computation yielding the value to associate with `key`, if
 *              `key` is previously unbound.
 *  @return     the value associated with key (either previously or as a result
 *              of executing the method).
 */
def getOrElseUpdate(key: A, op: => B): B =
  get(key) match {
    case Some(v) => v
    case None => val d = op; this(key) = d; d
  }

From WizNote

SparkStreaming 监控文件目录的更多相关文章

Flume实时监控目录sink到hdfs，再用sparkStreaming监控hdfs的这个目录，对数据进行计算
目标:Flume实时监控目录sink到hdfs,再用sparkStreaming监控hdfs的这个目录,对数据进行计算 1.flume的配置,配置spoolDirSource_hdfsSink.pro ...
inotifywait实时监控文件目录
一.inotify简介 inotify 是一种强大的.细粒度的.异步文件系统监控机制,它满足各种各样的文件监控需要,可以监控文件系统的访问属性.读写属性.权限属性.创建删除.移动等操作,也可以监控文件 ...
C＃实现对文件目录的实时监控
本文主要描述如何通过C#实现实时监控文件目录下的变化,包括文件和目录的添加,删除,修改和重命名等操作. 首先,我们需要对.net提供的FileSystemWatcher类有所了解.我有些懒,找了MSD ...
大数据系统之监控系统(二)Flume的扩展
一些需求是原生Flume无法满足的,因此,基于开源的Flume我们增加了许多功能. EventDeserializer的缺陷 Flume的每一个source对应的deserializer必须实现接口E ...
C#使用FileSystemWatcher控件实现的文件监控功能示例
本文实例讲述了C#使用FileSystemWatcher控件实现的文件监控功能.分享给大家供大家参考,具体如下: FileSystemWatcher 可以使用FileSystemWatcher组件监视 ...
第1节 flume：7、flume的监控文件夹，实现数据收集到hdfs上
1.2.2 采集案例 1.采集目录到HDFS 需求分析结构示意图: 采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去根据需求,首先定义以下3大 ...
linux定时备份mysql并同步到其它服务器
数据在任何一家公司里面都是最核心的资产,定期备份则是为了保证数据库出现问题的时候能够及时回滚到最近的备份点,将损失缩小到最小这篇文章将会两部分来说明:1.mysql的定期备份:2.同步到其它服务器 ...
通过rsync+inotify实现数据的实时备份
我讲到过利用rsync实现数据的镜像和备份,但是要实现数据的实时备份,单独靠rsync还不能实现,本文就讲述下如何实现数据的实时备份. 一.rsync的优点与不足与传统的cp.tar备份方式相比,r ...
Rsync+Inotify-tools实现数据实时同步
inotify是一种强大的,细粒度的,异步文件系统时间监控机制,它可以替代crond实现与rsync的触发式文件同步,从而监控文件系统中添加,删除,修改,移动等细粒事件,从LINUX 2.6.13起, ...

随机推荐

Java读取文件-BufferedReader/FileReader/InputStreamReader/FileInputStream的关系和区别
一.Java读取和存储文件数据流 Java读取文件,实际是将文件中的字节流转换成字符流输出到屏幕的过程这里面涉及到两个类:InputStreamReader和OutputStreamWriter ...
tf.trainable_variables()
https://blog.csdn.net/shwan_ma/article/details/78879620 一般来说,打印tensorflow变量的函数有两个:tf.trainable_varia ...
侯捷STL课程及源码剖析学习3: 深度探索容器list
一.容器概览上图为 GI STL 2.9的各种容器.图中以内缩方式来表达基层与衍生层的关系.所谓的衍生,并非继承(inheritance)关系,而是内含(containment)关系.例如 heap ...
WebForm从客户端中检测到有潜在危险的Request.Form 值的处理办法
从客户端中检测到有潜在危险的 Request.Form 值由于在.net中,Request时出现有HTML或Javascript等字符串时,系统会认为是危险性值.立马报错上面的错误. 如:在网页的Te ...
844. Backspace String Compare判断删除后的结果是否相等
［抄题］: Given two strings S and T, return if they are equal when both are typed into empty text editor ...
客户端无法重新使用 SPID 为 63 的会话，该会话已被重置用于连接
客户端无法重新使用 SPID 为 %d 的会话,该会话已被重置用于连接池.失败 ID 为 %d. 此错误可能是由于先前的操作失败引起的.请查看错误日志,找出在显示此错误消息之前刚发生的失败操作. 20 ...
RecyclerView的点击事件添加-------接口回调的形式添加
package com.example.recyclerviewdemo; import android.support.v7.widget.RecyclerView; import android. ...
php 多进程父进程的阻塞与非阻塞
php中进程的阻塞,主要是父进程等待子进程退出. 1.php代码如下: <?php //定义进程数量 define('FORK_NUMS', 5); //用于保存进程pid $pids = ar ...
Aspose.Words二基础
1.目录样式 doc.Styles[Aspose.Words.StyleIdentifier.Toc1].Font.Size = 14; doc.Styles[Aspose.Words.StyleId ...
BCHABC/BCHSV的矛盾所在
BCHABC: 将BCH以后发展智能合约: 消息方面: 吴忌寒:BCH分叉不可避免未来可能继续分叉近日,吴忌寒在北大光华管理学院的区块链培训课程上发表演讲表示,在这种言论自由地环境下,我认为分裂就 ...

SparkStreaming 监控文件目录

SparkStreaming 监控文件目录的更多相关文章

随机推荐

热门专题