词频统计 SPEC 20160911】的更多相关文章

本文档随时可能修改,并且没有另行通知. 请确保每一次在开始修改你的代码前,读标题中的日期,如果晚于你上次阅读, 请重读一次. 老五在寝室吹牛他熟读过<鲁滨逊漂流记>,在女生面前吹牛热爱<呼啸山庄> <简爱>和<飘>,在你面前说通读了<战争与和平>.但是,他的四级至今没 过.你们几个私下商量,这几本大作的单词量怎么可能低于四级,大家听说你学 习<构建之法>,一致推举你写个程序名字叫wf,统计英文作品的单词量并给出 每个单词出现的次数,准…
功能1 小文件输入,为表明程序能跑,结果真实而不是迫害老五,请他亲自键盘在控制台下输入命令. #include<stdio.h> #include<string.h> #include<iostream> #include<fstream> #include<string> #include<map> #include <iomanip> using namespace std; int main() { FILE *fp…
词频统计: 对每个功能预计时间: 功能 预计(min) 实际(min) 数据流读入 20 40 正则规范字符串 15 20 排序 30 45 输出 20 30 其他   25 词频统计psp 日期 类型 任务 开始时间 结束时间 被打断时间 实际 计划 9.11 分析需求 看词频统计spec 10:30 10:50 5 15 10 9.12 具体设计 设计词频分析流程包括 (读入文件流.去掉文章中非单词.按词频value降序排列.输出) 10:00 11:00 10 50 40 9.12 具体编…
队友 胡展瑞 031602215 作业页面 GitHub 具体分工 111500206 赵畅:负责WordCount的升级,添加新的命令行参数支持(自定义输入输出文件,权重词频统计,词组统计等所有新功能设计) 031602215 胡展瑞:负责爬虫的设计,resutlt.txt的格式化,以及附加题的所有设计(批量下载pdf.可视化WordCount以及历年情况分析对比.作者联系图). PSP表格.学习记录表 PSP PSP2.1 Personal Software Process Stages 预…
目录 摘要 算法关键 红黑树 稳定排序 代码框架 .h文件: .cpp文件 频率统计器的实现 接口设计与实现 接口设计 核心功能词频统计器流程 效果 单元测试 性能分析 性能分析图 问题发现 解决方案 异常处理 PSP表格记录 感想 基于sketch在大数据下的词频统计设计 引言 背景 解决方案 总结 参考文献: Github项目地址 摘要 本词频统计器包括行数统计.字符数统计.单词数统计.词频统计功能.基于红8黑树算法和稳定排序实现,其中红黑树算法为本词频统计器提供良好的效率.提供性能下限保证…
一.Github地址      课程项目要求    队友博客 二.具体分工 031602225 林煌伟 :负责C++部分主要功能函数的编写,算法的设计以及改进优化 031602230 卢恺翔 : 爬虫实现以及附加功能,代码框架设计,接口封装 三.psp表格 & 学习进度条 psp表格 PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟) Planning 计划 60 60 · Estimate · 估计这个任务需要多少时间 30 30…
本周根据杨老师的spec对英语文章词频统计进行了改进 1.需求分析: 对英文文章中的英文单词进行词频统计并按照有大到小的顺序输出, 2.算法思想: (1)构建一个类用于存放英文单词及其出现的次数 class WordAndNum{ public String word; public int num; } (2)从txt中获取字符串 BufferedReader in=new BufferedReader(new FileReader("D:\\test.txt")); String…
github地址 :https://github.com/NSDie/personal-project 一.计划表 PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟) Planning 计划 · Estimate · 估计这个任务需要多少时间 400 690 Development 开发 · Analysis · 需求分析 (包括学习新技术) 20 15 · Design Spec · 生成设计文档 20 0 · Design Re…
上了一天的课,现在终于可以静下来更新我的博客了.       越来越发现,写博客是一种享受.来看看这次小林老师的“作战任务”.                词频统计 单词: 包含有4个或4个以上的字母 单词由分隔符分开 如果一个字符串包含_非_字母数字,则不是单词 单词大小写不敏感,例如 “file”.“FILE”和“File”可以看作同一个单词 单词必须是字母开头,“file123”是单词,“123file”不是单词                 简单理一下思路:            …
原需求 1.读取文件,文件内包可含英文字符,及常见标点,空格级换行符. 2.统计英文单词在本文件的出现次数 3.将统计结果排序 4.显示排序结果 新需求: 1.小文件输入. 为表明程序能跑 2.支持命令行输入英文作品的文件名 3. 支持命令行输入存储有英文作品文件的目录名,批量统计 4. 从控制台读入英文单篇作品,重定向输出 代码实现: 在原代码的基础上稍做了修改,使之可以批量读取文件夹下的所有文件,所以加了一个mode来判断是单个文件输入还是文件夹输入,来不及整理程序,所以现在程序有点丑.这次…