计数 直接上代码 public class LocalStormSumTopology { public static void main(String[] agrs) { //Topology是通过build模式创建出来的 //storm中的所有作业都是通过topology来指定的 TopologyBuilder builder = new TopologyBuilder(); //在设置bolt到topology时,需要设置该bolt的上游的spout或者bolt的id,这样topology…
词频统计 1.需求:读取指定目录的数据,并且实现单词计数功能 2.实现方案: Spout用于读取指定文件夹(目录),读取文件,将文件的每一行发射到Bolt SplitBolt用于接收Spout发射过来的数据,并拆分,发射到CountBolt CountBolt接收SplitBolt发送的每一个单词,进行单词计数操作 3.拓扑设计: DataSourceSpout + SplitBolt + CountBolt 代码如下: package com.csylh; import org.apache.…
#瓦登尔湖词频统计: import string path = 'D:/python3/Walden.txt' with open(path,'r',encoding= 'utf-8') as text: words = [raw_word.strip(string.punctuation).lower() for raw_word in text.read().split()] words_index = set(words) counts_dict = {index:words.count(…
这里将用c#写一个关于词频统计的命令行程序. 预计时间分配:输入处理3h.词条排序打印2h.测试3h. 实际时间分配:输入处理1h.词条排序打印2h.测试3h.程序改进优化6h. 下面将讲解程序的完成过程: 首先是输入处理部分,我们需要递归地扫描文章中的单词,首先此程序中单词的定义如下: A word: a string with at least 3 English alphabet letters, then followed by optional alphanumerical chara…
本文档随时可能修改,并且没有另行通知. 请确保每一次在开始修改你的代码前,读标题中的日期,如果晚于你上次阅读, 请重读一次. 老五在寝室吹牛他熟读过<鲁滨逊漂流记>,在女生面前吹牛热爱<呼啸山庄> <简爱>和<飘>,在你面前说通读了<战争与和平>.但是,他的四级至今没 过.你们几个私下商量,这几本大作的单词量怎么可能低于四级,大家听说你学 习<构建之法>,一致推举你写个程序名字叫wf,统计英文作品的单词量并给出 每个单词出现的次数,准…
队友 胡展瑞 031602215 作业页面 GitHub 具体分工 111500206 赵畅:负责WordCount的升级,添加新的命令行参数支持(自定义输入输出文件,权重词频统计,词组统计等所有新功能设计) 031602215 胡展瑞:负责爬虫的设计,resutlt.txt的格式化,以及附加题的所有设计(批量下载pdf.可视化WordCount以及历年情况分析对比.作者联系图). PSP表格.学习记录表 PSP PSP2.1 Personal Software Process Stages 预…
第一次个人作业——词频统计 第一次做这种大作业,明显感觉陌生,各种规范和技能也是第一次使用,希望自己好运. 目录:一.基本要求 二.需求分析及时间估计 三.实现思路及过程 四.测试用例.时间性能分析及改进方法 五.经验总结 一.基本要求 1. 统计文件的字符数(只需要统计Ascii码,汉字不用考虑,换行符不用考虑,'\0'不用考虑)(ascii码大小在[32,126]之间) 2. 统计文件的单词总数 3. 统计文件的总行数(任何字符构成的行,都需要统计)(不要只看换行符的数量,要小心最后一行没有…
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/jiq408694711/article/details/34181439 前面已经在我的Ubuntu单机上面搭建好了伪分布模式的HBase环境,当中包含了Hadoop的执行环境. 详见我的这篇博文:http://blog.csdn.net/jiyiqinlovexx/article/details/29208703 我的目的主要是学习HBase,下一步打算学习的是将HBase作为Hadoop作业的…
这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753. 1.列表,元组,字典,集合分别如何增删改查及遍历. 列表操作如下所示: #列表 string = 'list' #字符串->列表 list1 = list(string) # ['l', 'i', 's', 't'] #列表->字符串 string1 = ''.join(list1) #list #列表的增删改查 list1 = list('this…
上了一天的课,现在终于可以静下来更新我的博客了.       越来越发现,写博客是一种享受.来看看这次小林老师的“作战任务”.                词频统计 单词: 包含有4个或4个以上的字母 单词由分隔符分开 如果一个字符串包含_非_字母数字,则不是单词 单词大小写不敏感,例如 “file”.“FILE”和“File”可以看作同一个单词 单词必须是字母开头,“file123”是单词,“123file”不是单词                 简单理一下思路:            …