Storm监控文件夹变化统计文件单词数量

监控指定文件夹，读取文件（新文件动态读取）里的内容，统计单词的数量。

FileSpout.java，监控文件夹，读取新文件内容

package com.test.stormtest.wordcount;

import java.io.File;

import java.io.IOException;

import java.util.Collection;

import java.util.List;

import java.util.Map;

import org.apache.commons.io.FileUtils;

import backtype.storm.spout.SpoutOutputCollector;

import backtype.storm.task.TopologyContext;

import backtype.storm.topology.OutputFieldsDeclarer;

import backtype.storm.topology.base.BaseRichSpout;

import backtype.storm.tuple.Fields;

import backtype.storm.tuple.Values;

public class FileSpout extends BaseRichSpout {

private static final long serialVersionUID = 1L;

private SpoutOutputCollector collector;

private File target = new File("F:" + File.separator + "test");

private Collection<File> cacheFiles = null;

public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {

this.collector = collector;

//启动的时候，将文件夹内的所有文件的内容发射出去

cacheFiles = FileUtils.listFiles(target, null, true);

for (File file : cacheFiles) {

emitFileConent(file);

}

public void nextTuple() {

try {

Thread.sleep(5000);

} catch (InterruptedException e1) {

e1.printStackTrace();

}

//监控新文件，将新文件的内容发射出去

Collection<File> files = FileUtils.listFiles(target, null, true);

for (File file : files) {

if(!cacheFiles.contains(file)) {

emitFileConent(file);

}

cacheFiles = files;

}

public void declareOutputFields(OutputFieldsDeclarer declarer) {

declarer.declare(new Fields("line"));

}

//将文件内容按行发射出去

private void emitFileConent(File file) {

try {

List<String> lines = FileUtils.readLines(file);

for (String line : lines) {

this.collector.emit(new Values(line));

}

} catch (IOException e) {

e.printStackTrace();

}

SplitBolt.java，将行拆分成单词

package com.test.stormtest.wordcount;

import java.util.Map;

import backtype.storm.task.OutputCollector;

import backtype.storm.task.TopologyContext;

import backtype.storm.topology.OutputFieldsDeclarer;

import backtype.storm.topology.base.BaseRichBolt;

import backtype.storm.tuple.Fields;

import backtype.storm.tuple.Tuple;

import backtype.storm.tuple.Values;

public class SplitBolt extends BaseRichBolt {

private static final long serialVersionUID = 1L;

private OutputCollector collector = null;

public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {

this.collector = collector;

}

public void execute(Tuple input) {

String line = input.getStringByField("line");

String[] words = line.split(" ");

for (String word : words) {

this.collector.emit(new Values(word));

}

public void declareOutputFields(OutputFieldsDeclarer declarer) {

declarer.declare(new Fields("word"));

}

SumBolt.java 统计单词数量

package com.test.stormtest.wordcount;

import java.util.HashMap;

import java.util.Map;

import java.util.Map.Entry;

import java.util.Set;

import backtype.storm.task.OutputCollector;

import backtype.storm.task.TopologyContext;

import backtype.storm.topology.OutputFieldsDeclarer;

import backtype.storm.topology.base.BaseRichBolt;

import backtype.storm.tuple.Tuple;

public class SumBolt extends BaseRichBolt{

private static final long serialVersionUID = 1L;

private Map<String, Long> countMap = null;

public void prepare(Map stormConf, TopologyContext context,

OutputCollector collector) {

countMap = new HashMap<String, Long>();

}

public void execute(Tuple input) {

String word = input.getStringByField("word");

Long count = countMap.get(word);

if(count == null) {

count = 0L;

}

countMap.put(word, ++count);

System.out.println("-----------------------------------------------");

Set<Entry<String, Long>> entries = countMap.entrySet();

for (Entry<String, Long> entry : entries) {

System.out.println(entry.getKey() + ": " + entry.getValue());

}

public void declareOutputFields(OutputFieldsDeclarer declarer) {

}

WordCountTopology.java 驱动类，本地模式提交topology

package com.test.stormtest.wordcount;

import backtype.storm.Config;

import backtype.storm.LocalCluster;

import backtype.storm.topology.TopologyBuilder;

import backtype.storm.tuple.Fields;

import backtype.storm.utils.Utils;

public class WordCountTopology {

public static void main(String[] args) {

TopologyBuilder builder = new TopologyBuilder();

builder.setSpout("filespout", new FileSpout());

builder.setBolt("splitbolt", new SplitBolt()).shuffleGrouping("filespout");

builder.setBolt("sumtblot", new SumBolt()).fieldsGrouping("splitbolt", newFields("word"));

LocalCluster cluster = new LocalCluster();

Config config = new Config();

config.setDebug(true);

cluster.submitTopology("wordcount", config, builder.createTopology());

Utils.sleep(20000);

cluster.killTopology("wordcount");

cluster.shutdown();

}

Storm监控文件夹变化统计文件单词数量的更多相关文章

java基础 File与递归练习使用文件过滤器筛选将指定文件夹下的小于200K的小文件获取并打印按层次打印(包括所有子文件夹的文件) 多层文件夹情况统计文件和文件夹的数量统计已知类型的数量未知类型的数量
package com.swift.kuozhan; import java.io.File; import java.io.FileFilter; /*使用文件过滤器筛选将指定文件夹下的小于200K ...
java监控指定路径下文件及文件夹变化
之前用jdk7的WatchService API(java.nio.file包)来做目录下的子文件监控,后改为使用commons-io包.主要有下面几点不同:1. WatchService是采用扫描式 ...
Java NIO.2 使用Path接口来监听文件、文件夹变化
Java7对NIO进行了大的改进,新增了许多功能: 对文件系统的访问提供了全面的支持提供了基于异步Channel的IO 这些新增的IO功能简称为 NIO.2,依然在java.nio包下. 早期的Ja ...
python （9）统计文件夹下的所有文件夹数目、统计文件夹下所有文件数目、遍历文件夹下的文件
命令:os 用到的:os.walk os.listdir 写的爬虫爬的数据,但是又不知道进行到哪了,于是就写了个脚本来统计文件的个数 #统计 /home/dir/ 下的文件夹个数 import o ...
【转】【Linux】Linux下统计当前文件夹下的文件个数、目录个数
[转][Linux]Linux下统计当前文件夹下的文件个数.目录个数统计当前文件夹下文件的个数,包括子文件夹里的 ls -lR|grep "^-"|wc -l 统计文件夹下目录的 ...
键盘录入一个文件夹路径,统计该文件夹(包含子文件夹)中每种类型的文件及个数,注意:用文件类型(后缀名,不包含.(点),如："java","txt")作为key, 用个数作为value,放入到map集合中,遍历map集合
package cn.it.zuoye5; import java.io.File;import java.util.HashMap;import java.util.Iterator;import ...
python 实现统计ftp服务器指定目录下文件夹数目、文件数目及所有文件大小
本次主要为满足应用方核对上传到ftp服务器的文件是否缺漏. 主要要求:指定目录下,文件夹数目/文件数目/所有文件大小,类似Windows如下功能: 模块介绍: from ftplib import F ...
nodejs 监听文件夹变化的模块
使用Node.JS监听文件夹变化 fs.watch 其中Node.JS的文件系统也可侦听某个目录的改变, 如fs.watch 其中fs.watch的最大缺点就是不支持子文件夹的侦听,并且在很多情况 ...
java基础 File 递归删除文件夹中所有文件文件夹目录(包含子目录)下的.java文件复制到e:/abc文件夹中, 并统计java文件的个数
File 递归删除文件夹中所有文件文件夹 package com.swift.kuozhan; import java.io.File; import java.util.Scanner; /*键盘录 ...

随机推荐

Linux实用指令
Linux实用指令 Rpm&Yum 一种用于互联网下载包的打包和安装工具,它包含某些Linux分发版中,它生产具有 .rpm 扩展名的文件.RPM 是 RedHat Package Man ...
(转)用Python写堡垒机项目
原文:https://blog.csdn.net/ywq935/article/details/78816860 前言堡垒机是一种运维安全审计系统.主要的功能是对运维人员的运维操作进行审计和权限控制 ...
Java之IO(十二)CharArrayReader和CharArrayWriter
转载请注明源出处:http://www.cnblogs.com/lighten/p/7082668.html 1.前言本章介绍字符数组流,作用和ByteArrayInputStream字节数组流相同 ...
phpstorm之自定义代码碎片（tab键自动填充代码）
打开phpstorm 的设置界面(快捷键ctrl+alt+s) 比如上面的form表单,需要在生成以后自动跳转到“名称”的位置,然后更改,可以如下修改
HUE配置文件hue.ini 的hdfs_clusters模块详解（图文详解）（分HA集群和非HA集群）
不多说,直接上干货! 我的集群机器情况是 bigdatamaster(192.168.80.10).bigdataslave1(192.168.80.11)和bigdataslave2(192.168 ...
AttrContext
info属性类型为AttrContext或AttrContextEnv.主要看AtrContext即可.定义了如下关键参数: /** Contains information specific to ...
tensorflow语法笔记
1.如何理解 tf.reduce_max或者 tf.reduce_mean中对Tensor和高维矩阵的坐标轴axis的选择的操作 tf.reduce_mean( input_tensor, axis= ...
Linux 搭建Hadoop集群错误锦集
一.Hadoop集群配置好后,执行start-dfs.sh后报错,一堆permission denied zf sbin $ ./start-dfs.sh Starting namenodes on ...
获得Spring容器
1. WebApplicationContext wac = ContextLoader.getCurrentWebApplicationCon; 2. ClassPathXmlApplication ...
CSS选择器详解（一）常用选择器
目录类型选择器类选择器 ID选择器伪类伪元素类型选择器通过类型选择器可以选择某一类型的html标签,并对其使用样式. 语法: selector {property1: value; pro ...

Storm监控文件夹变化 统计文件单词数量

Storm监控文件夹变化 统计文件单词数量的更多相关文章

随机推荐

热门专题

Storm监控文件夹变化统计文件单词数量

Storm监控文件夹变化统计文件单词数量的更多相关文章