【week2】 词频统计第一次更新】的更多相关文章

词频统计: 对每个功能预计时间: 功能 预计(min) 实际(min) 数据流读入 20 40 正则规范字符串 15 20 排序 30 45 输出 20 30 其他   25 词频统计psp 日期 类型 任务 开始时间 结束时间 被打断时间 实际 计划 9.11 分析需求 看词频统计spec 10:30 10:50 5 15 10 9.12 具体设计 设计词频分析流程包括 (读入文件流.去掉文章中非单词.按词频value降序排列.输出) 10:00 11:00 10 50 40 9.12 具体编…
第一次个人作业——词频统计 第一次做这种大作业,明显感觉陌生,各种规范和技能也是第一次使用,希望自己好运. 目录:一.基本要求 二.需求分析及时间估计 三.实现思路及过程 四.测试用例.时间性能分析及改进方法 五.经验总结 一.基本要求 1. 统计文件的字符数(只需要统计Ascii码,汉字不用考虑,换行符不用考虑,'\0'不用考虑)(ascii码大小在[32,126]之间) 2. 统计文件的单词总数 3. 统计文件的总行数(任何字符构成的行,都需要统计)(不要只看换行符的数量,要小心最后一行没有…
一.预计工程设计时间 明确要求: 15min: 查阅资料: 1h: 学习C++基础知识与特性: 4-5h: 主函数编写及输入输出部分: 0.5h: 文件的遍历: 1h: 编写两种模式的词频统计函数: 1.5h: 单词排序部分: 0.5h: 程序调试与测试: 1-2h: 程序优化:2h: 预计总共时间:12-13h: 二.实际工程完成时间 明确要求: 15min: 查阅资料: 1.5h: 学习C++基础知识与特性: 7h: 主函数编写及输入输出部分: 0.5h: 文件的遍历: 0.5h: 编写两种…
需求概要 原需求 1.读取文件,文件内包可含英文字符,及常见标点,空格级换行符. 2.统计英文单词在本文件的出现次数 3.将统计结果排序 4.显示排序结果 新需求: 1.小文件输入. 为表明程序能跑 2.支持命令行输入英文作品的文件名 3. 支持命令行输入存储有英文作品文件的目录名,批量统计. 4. 从控制台读入英文单篇作品 程序输入: 1.控制台输入文本 2.英文文本文件 3.英文目录,目录下包含单个或多个英文文本文件 程序输出: 1.英文单词在本文件或控制台输入中的出现的次数,按出现次数排序…
一.作为杨老师的学生第一次听杨老师讲课,印象最深的就是:工程中所有步骤之间是乘法,如果任何一步为0,工程就做不出来了.以前所有老师讲到的都是不要太在乎结果,努力的过程很重要,但是这在软件工程中不合适了.没有结果的项目就是一个失败的项目,即便你为此付出了诸多努力,但一步走错满盘皆输. 二.回到正题,这次作业题目二选一:词频统计.四则运算.题目一出来的时候跟齐某同学稍微讨论了一下,词频统计思路清晰但是有一些问题,单词的过去式.过去分词.将来时.单复数形式是否需要区分及如何区分:缩写如don‘t是否需…
词频统计更新 实现功能:从控制台输入文件路径,并统计单词总数及不重复的单词数,并输出所有单词词频,同时排序. 头文件 #include <stdio.h> #include <stdlib.h> #include <string.h> 定义宏 #define WORD_LENGTH 250 定义结构体及全局变量 typedef struct Node { char word[WORD_LENGTH]; int time; struct Node *next; }word…
截止日期 2018年3月29日23:59 要求 1. 对源文件(*.txt,*.cpp,*.h,*.cs,*.html,*.js,*.java,*.py,*.php等,文件夹内的所有文件)统计字符数.单词数.行数.词频,统计结果以指定格式输出到默认文件中,以及其他扩展功能,并能够快速地处理多个文件. 2. 使用性能测试工具进行分析,找到性能的瓶颈并改进 3. 对代码进行质量分析,消除所有警告 http://msdn.microsoft.com/en-us/library/dd264897.asp…
java效能分析可以使用JProfiler 词频统计处理的文件为WarAndPeace,大小3282KB约3.3MB,输出结果到文件 在程序本身内开始和结束分别加入时间戳,差值平均为480-490ms. 结果如下: 1.统计概要 2.CPU运行曲线:程序运行高峰可以达到21.44%,原因可能的添加不同单词到map中之前对字符处理导致的,第二高峰可能是按词频序排序导致 3.内存占用情况:char数组占用较大,其原因也是读入文件进行处理必须的.String和StringBuffer,StringBu…
上了一天的课,现在终于可以静下来更新我的博客了.       越来越发现,写博客是一种享受.来看看这次小林老师的“作战任务”.                词频统计 单词: 包含有4个或4个以上的字母 单词由分隔符分开 如果一个字符串包含_非_字母数字,则不是单词 单词大小写不敏感,例如 “file”.“FILE”和“File”可以看作同一个单词 单词必须是字母开头,“file123”是单词,“123file”不是单词                 简单理一下思路:            …
任务需求 统计HDFS上文件的wordcount,并将统计结果输出到HDFS 功能拆解 读取HDFS文件 业务处理(词频统计) 缓存处理结果 将结果输出到HDFS 数据准备 事先往HDFS上传需要进行词频统计的文件word.txt.word2.txt(可以是多个)... 假设目录是/user/hadoop/input/... 框架搭建 先把具体的功能框架搭建出来,再进行细节方面的编写. import org.apache.hadoop.conf.Configuration; import org…