【week3】词频统计 单元测试】的更多相关文章

使用Eclipse 集成的Junit进行单元测试.单元测试的核心包括断言.注解. 测试代码如下: @BeforeClass // 针对所有测试,只执行一次,且必须为static void public static void setUpBeforeClass() throws Exception { System.out.println("in BeforeClass================"); } @AfterClass // 针对所有测试,只执行一次,且必须为static…
前言:本次测试过程中发现了几个未知字符,这里将其转化为十六进制码对其加以区分. 1)保存统计结果的Result文件中显示如图: 2)将其复制到eclipse环境下的切分方法StringTokenizer中却没有显示: 复制前: 复制后: 前后看似没有任何变化: 3)改动后的统计结果: 因此为了检测这个字符做了一个将其转化为十六进制码的小程序: String t = "\0"; String s = "\0"; byte[] bbb = t.getBytes(); i…
测试项目 博客文章地址:[http://www.cnblogs.com/jx8zjs/p/5862269.html] 工程地址:https://coding.net/u/jx8zjs/p/wordCount/git ssh://git@git.coding.net:jx8zjs/wordCount.git 测试用例: 1. My English is very very pool 2.地址 [http://www.gutenberg.org/files/2600/2600-0.txt] 待测单元…
截止日期 2018年3月29日23:59 要求 1. 对源文件(*.txt,*.cpp,*.h,*.cs,*.html,*.js,*.java,*.py,*.php等,文件夹内的所有文件)统计字符数.单词数.行数.词频,统计结果以指定格式输出到默认文件中,以及其他扩展功能,并能够快速地处理多个文件. 2. 使用性能测试工具进行分析,找到性能的瓶颈并改进 3. 对代码进行质量分析,消除所有警告 http://msdn.microsoft.com/en-us/library/dd264897.asp…
队友 胡展瑞 031602215 作业页面 GitHub 具体分工 111500206 赵畅:负责WordCount的升级,添加新的命令行参数支持(自定义输入输出文件,权重词频统计,词组统计等所有新功能设计) 031602215 胡展瑞:负责爬虫的设计,resutlt.txt的格式化,以及附加题的所有设计(批量下载pdf.可视化WordCount以及历年情况分析对比.作者联系图). PSP表格.学习记录表 PSP PSP2.1 Personal Software Process Stages 预…
目录 摘要 算法关键 红黑树 稳定排序 代码框架 .h文件: .cpp文件 频率统计器的实现 接口设计与实现 接口设计 核心功能词频统计器流程 效果 单元测试 性能分析 性能分析图 问题发现 解决方案 异常处理 PSP表格记录 感想 基于sketch在大数据下的词频统计设计 引言 背景 解决方案 总结 参考文献: Github项目地址 摘要 本词频统计器包括行数统计.字符数统计.单词数统计.词频统计功能.基于红8黑树算法和稳定排序实现,其中红黑树算法为本词频统计器提供良好的效率.提供性能下限保证…
一.Github地址      课程项目要求    队友博客 二.具体分工 031602225 林煌伟 :负责C++部分主要功能函数的编写,算法的设计以及改进优化 031602230 卢恺翔 : 爬虫实现以及附加功能,代码框架设计,接口封装 三.psp表格 & 学习进度条 psp表格 PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟) Planning 计划 60 60 · Estimate · 估计这个任务需要多少时间 30 30…
github地址 :https://github.com/NSDie/personal-project 一.计划表 PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟) Planning 计划 · Estimate · 估计这个任务需要多少时间 400 690 Development 开发 · Analysis · 需求分析 (包括学习新技术) 20 15 · Design Spec · 生成设计文档 20 0 · Design Re…
一. 背景 ​ 最近顶哥为了完成学历提升学业中的小作业,做了一个词频统计的.exe小程序.因为当时做的时候网上的比较少,因此顶哥决定把自己拙略的作品发出来给需要的人提供一种思路,希望各位看官不要dis才好.最后附上源码链接,感兴趣的朋友可以继续优化哦. 二. 先看效果 双击运行,下拉框选择源文件来源,支持本地和网络资源,如图:    本地源文件示例 网络源文件示例 三. 主要代码 1.pom文件 <dependencies> <!-- 分词器 --> <dependency&…
作业详细要求:http://www.cnblogs.com/denghp83/p/8627840.html 基本功能 1. 统计文件的字符数(只需要统计Ascii码,汉字不用考虑,换行符不用考虑,'\0'不用考虑)(ascii码大小在[32,126]之间) 2. 统计文件的单词总数 3. 统计文件的总行数(任何字符构成的行,都需要统计)(不要只看换行符的数量,要小心最后一行没有换行符的情形)(空行算一行) 4. 统计文件中各单词的出现次数,输出频率最高的10个. 5. 对给定文件夹及其递归子文件…