C语言词频统计设计】的更多相关文章

项目需求: 1.设计一个词频统计小软件,对给定的英文文章进行单词频率的统计. 2.文章中相应的标点不计入统计. 3.将统计结果以从大到小的排序方式输出. 设计: 1.因为功能相对简单,采用C语言直接进行编写. 2.项目包含的统计功能利用定义的结构体分别对单词和次数进行统计. 3.以字符串的形式读取单词,并对其中的每个字符进行标点分析. 4.统计完成后采用冒泡排序的方式对次数进行排序. 5.将整个统计结果循环输出. 部分核心代码: 结构体定义: 定义一个结构体来存放读取的单词与其统计的次数. ty…
目录 摘要 算法关键 红黑树 稳定排序 代码框架 .h文件: .cpp文件 频率统计器的实现 接口设计与实现 接口设计 核心功能词频统计器流程 效果 单元测试 性能分析 性能分析图 问题发现 解决方案 异常处理 PSP表格记录 感想 基于sketch在大数据下的词频统计设计 引言 背景 解决方案 总结 参考文献: Github项目地址 摘要 本词频统计器包括行数统计.字符数统计.单词数统计.词频统计功能.基于红8黑树算法和稳定排序实现,其中红黑树算法为本词频统计器提供良好的效率.提供性能下限保证…
一.作为杨老师的学生第一次听杨老师讲课,印象最深的就是:工程中所有步骤之间是乘法,如果任何一步为0,工程就做不出来了.以前所有老师讲到的都是不要太在乎结果,努力的过程很重要,但是这在软件工程中不合适了.没有结果的项目就是一个失败的项目,即便你为此付出了诸多努力,但一步走错满盘皆输. 二.回到正题,这次作业题目二选一:词频统计.四则运算.题目一出来的时候跟齐某同学稍微讨论了一下,词频统计思路清晰但是有一些问题,单词的过去式.过去分词.将来时.单复数形式是否需要区分及如何区分:缩写如don‘t是否需…
需求: 1.设计一个词频统计软件,统计给定英文文章的单词频率. 2.文章中包含的标点不计入统计. 3.将统计结果以从大到小的排序方式输出. 设计: 1.因为是跨专业0.0···并不会c++和java,只能用仅学过的C语言进行编写,还是挺费劲的. 2.定义一个包含单词和频率两个成员的结构体来统计词频(进行了动态分配内存,可以处理较大文本). 3.使用fopen函数读取指定的文档. 4.使用fgetc函数获取字符,再根据取得的字符是否是字母进行不同的处理. 5.采用快速排序法对统计结果进行排序. 5…
需求: 1.设计一个词频统计的程序. 2.英语文章中包含的英语标点符号不计入统计. 3.将统计结果按照单词的出现频率由大到小进行排序. 设计: 1.基本功能和用法会在程序中进行提示. 2.原理是利用分隔符分词存入列表,然后从列表读出存入字典,键为词,值存放词的数量. 代码如图所示: 1.导入程序所需模块. 2.定义readfile类,实现去除文章中标点符号的功能. 3.定义一个getstr类,对结果输出格式进行定义. 4.构造程序主函数. 测试用例: 测试用例我选择了马丁.路德.金的演讲稿. 部…
词频统计 (个人项目) 要求 (1). 实现一个控制台程序,给定一段英文字符串,统计其中各个英文单词(4字符以上含4字符)的出现频率. 附加要求:读入一段文本文件,统计该文本文件中单词的频率. (2). 性能分析: 对C++代码运行VS的性能分析工具,找出性能问题并进行优化. 对Java程序运行性能分析工具 NetBeans IDE 6.0,找出性能问题并进行优化. 开发语言:C++ 各个模块时间(预估/实际)(本来预估3-4h可完成,但实际花了将近6-7h)   预估时间 实际时间 词频统计…
目录 C语言程序与设计:统计素数并求和 1.题目要求 2.分析 3.代码 C语言程序与设计:统计素数并求和 1.题目要求 输入两个正整数 m 和 n(1≤m≤n≤500),统计给定整数 m 和 n 区间 内素数的个数并对它们求和 2.分析 emmm,我太懒了,不写了 3.代码 #include<stdio.h> #include<math.h> void primenum(int m, int n); int main() { primenum(1, 10); return 0;…
原需求 1.读取文件,文件内包可含英文字符,及常见标点,空格级换行符. 2.统计英文单词在本文件的出现次数 3.将统计结果排序 4.显示排序结果 新需求: 1.小文件输入. 为表明程序能跑 2.支持命令行输入英文作品的文件名 3. 支持命令行输入存储有英文作品文件的目录名,批量统计 4. 从控制台读入英文单篇作品,重定向输出 代码实现: 在原代码的基础上稍做了修改,使之可以批量读取文件夹下的所有文件,所以加了一个mode来判断是单个文件输入还是文件夹输入,来不及整理程序,所以现在程序有点丑.这次…
上了一天的课,现在终于可以静下来更新我的博客了.       越来越发现,写博客是一种享受.来看看这次小林老师的“作战任务”.                词频统计 单词: 包含有4个或4个以上的字母 单词由分隔符分开 如果一个字符串包含_非_字母数字,则不是单词 单词大小写不敏感,例如 “file”.“FILE”和“File”可以看作同一个单词 单词必须是字母开头,“file123”是单词,“123file”不是单词                 简单理一下思路:            …
1) 博客开头给出自己的基本信息,格式建议如下: 学号2017****7128 姓名:肖文秀 词频统计及其效能分析仓库:https://gitee.com/aichenxi/word_frequency1 2) 程序分析,对程序中的四个函数做简要说明.要求附上每一段代码及对应的说明. process_file作用:打开文件,读取文件到缓冲区,关闭文件 # 读文件到缓冲区 def process_file(file_name): try: # 打开文件 file_read=open(file_na…