需求:

1.设计一个词频统计软件,统计给定英文文章的单词频率。

2.文章中包含的标点不计入统计。

3.将统计结果以从大到小的排序方式输出。

设计:

1.因为是跨专业0.0···并不会c++和java,只能用仅学过的C语言进行编写,还是挺费劲的。

2.定义一个包含单词和频率两个成员的结构体来统计词频(进行了动态分配内存,可以处理较大文本)。

3.使用fopen函数读取指定的文档。

4.使用fgetc函数获取字符,再根据取得的字符是否是字母进行不同的处理。

5.采用快速排序法对统计结果进行排序。

5.将整个统计结果循环输出。

部分代码:

结构体定义:

struct fre_word
{
int num;
char a[];
};

分配初始内存:

struct fre_word *w;
w=(struct fre_word *)malloc(*p*sizeof(struct fre_word));//给结构体分配初始内存

读取文本:

printf("输入读入文件的名字:");
scanf("%s", filename); //输入需要统计词频的文件名
if((fp=fopen(filename, "r"))==NULL)
{
printf("无法打开文件\n");
exit();
}

单词匹配:

/****************将单词出现次数设置为1****************************/
for(i=;i<;i++)
{
(w+i)->num=;
}
/****************单词匹配****************************************/
i=;
while(!feof(fp))//文件尚未读取完毕
{
ch=fgetc(fp);
(w+i)->a[j]='\0';
if(ch>=&&ch<=||ch>=&&ch<=) //ch若为字母则存入
{
(w+i)->a[j]=ch;
j++;
flag=; //设标志位判断是否存在连续标点或者空格
}
else if(!(ch>=&&ch<=||ch>=&&ch<=)&&flag==) //ch若不是字母且上一个字符为字母
{
i++;
j=;
flag=;
for(m=;m<i-;m++) //匹配单词,若已存在则num+1
{
if(stricmp((w+m)->a,(w+i-)->a)==)
{
(w+m)->num++;
i--;
}
}
}
/****************动态分配内存****************************************/
if(i==(p*)) //用i判断当前内存已满
{
p++;
w=(struct fre_word*)realloc(w,*p*(sizeof(struct fre_word)));
for(n=i;n<=*p;n++) //给新分配内存的结构体赋初值
(w+n)->num=; }
}

快速排序:

void quick(struct fre_word *f,int i,int j)
{
int m,n,temp,k;
char b[];
m=i;
n=j;
k=f[(i+j)/].num; //选取的参照
do
{
while(f[m].num>k&&m<j) m++; // 从左到右找比k小的元素
while(f[n].num<k&&n>i) n--; // 从右到左找比k大的元素
if(m<=n)
{ //若找到且满足条件,则交换
temp=f[m].num;
strcpy(b,f[m].a);
f[m].num=f[n].num;
strcpy(f[m].a,f[n].a);
f[n].num=temp;
strcpy(f[n].a,b);
m++;
n--;
}
}
while(m<=n);
if(m<j) quick(f,m,j); //运用递归
if(n>i) quick(f,i,n);
}

结果输出:

    for(n=;n<=i;n++)
{
printf("文档中出现的单词:");
printf("%-18s",(w+n)->a);
printf("其出现次数为:");
printf("%d\n",(w+n)->num);
}

测试用例:

看了之前同学的博客以及老师的评论,就使用了较长的文本进行测试,用的是奥巴马就职演讲稿。

部分测试结果:

c语言实现词频统计的更多相关文章

  1. C语言实现词频统计——第二版

    原需求 1.读取文件,文件内包可含英文字符,及常见标点,空格级换行符. 2.统计英文单词在本文件的出现次数 3.将统计结果排序 4.显示排序结果 新需求: 1.小文件输入. 为表明程序能跑 2.支持命 ...

  2. (改进)Python语言实现词频统计

    需求: 1.设计一个词频统计的程序. 2.英语文章中包含的英语标点符号不计入统计. 3.将统计结果按照单词的出现频率由大到小进行排序. 设计: 1.基本功能和用法会在程序中进行提示. 2.原理是利用分 ...

  3. C语言词频统计设计

    项目需求: 1.设计一个词频统计小软件,对给定的英文文章进行单词频率的统计. 2.文章中相应的标点不计入统计. 3.将统计结果以从大到小的排序方式输出. 设计: 1.因为功能相对简单,采用C语言直接进 ...

  4. 个人项目-词频统计(语言:C++)

    词频统计 (个人项目) 要求 (1). 实现一个控制台程序,给定一段英文字符串,统计其中各个英文单词(4字符以上含4字符)的出现频率. 附加要求:读入一段文本文件,统计该文本文件中单词的频率. (2) ...

  5. 作业3-个人项目<词频统计>

    上了一天的课,现在终于可以静下来更新我的博客了.       越来越发现,写博客是一种享受.来看看这次小林老师的“作战任务”.                词频统计 单词: 包含有4个或4个以上的字 ...

  6. python词频统计及其效能分析

    1) 博客开头给出自己的基本信息,格式建议如下: 学号2017****7128 姓名:肖文秀 词频统计及其效能分析仓库:https://gitee.com/aichenxi/word_frequenc ...

  7. HW—词频统计

    第一次个人作业——词频统计 第一次做这种大作业,明显感觉陌生,各种规范和技能也是第一次使用,希望自己好运. 目录:一.基本要求 二.需求分析及时间估计 三.实现思路及过程 四.测试用例.时间性能分析及 ...

  8. 1st 英文文章词频统计

    英文文章词频统计: 功能:统计一篇英文文章的单词总数及出现频数并输出,之后排序,输出频数前十的单词及其频数. 实现方法:使用C语言,用fopen函数读入txt文件,fscanf函数逐个读入单词,结构体 ...

  9. Hadoop的改进实验(中文分词词频统计及英文词频统计)(4/4)

    声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...

随机推荐

  1. 使自定义事件支持多绑定 js

    <script language="JavaScript" type="text/javascript"> <!-- //定义类class1 ...

  2. [Hibernate] - Study test project

    最近玩Hibernate的测试代码工程: http://files.cnblogs.com/HD/TestHibernate.7z

  3. Install Apache, PHP And MySQL On CentOS 7 (LAMP)

    This tutorial shows how you can install an Apache2 webserver on a CentOS 7.0 server with PHP5 suppor ...

  4. c++ 迭代器库

    来自http://zh.cppreference.com/w/cpp/iterator 迭代器库提供了5种迭代器的定义,同时还提供了迭代器特征.适配器及其相关的工具函数. 迭代器共有5种:InputI ...

  5. 单源最短路径——dijkstra算法

    dijkstra算法与prim算法的区别   1.先说说prim算法的思想: 众所周知,prim算法是一个最小生成树算法,它运用的是贪心原理(在这里不再证明),设置两个点集合,一个集合为要求的生成树的 ...

  6. JavaScript-日期格式化(一)

    /** * 日期格式化, * @param date 要格式化的日期 * @param pattern 进行格式化的模式 * 支持的模式字母有: * y:年, * M:年中的月份(1-12), * d ...

  7. ZooKeeper典型应用场景(转)

    ZooKeeper是一个高可用的分布式数据管理与系统协调框架.基于对Paxos算法的实现,使该框架保证了分布式环境中数据的强一致性,也正是基于这样的特性,使得ZooKeeper解决很多分布式问题.网上 ...

  8. Skip StyleCop Warnings.

    [SuppressMessage("Microsoft.StyleCop.CSharp.MaintainabilityRules", "SA1401:FieldsMust ...

  9. file_get_content和curl的性能比较

    今天在获取微信一张二维码图片时发现使用php中的file_get_content方式和curl方式竟然相差了50倍左右,直接晕倒!!!

  10. bug_ _小心android-support-v4.jar版本混乱造成的NoClassDefFoundError

    当你的项目出现以下红色提示的时候,要小心了, 因为很可能因为这个错误而导致解释不通的异常出现. Found 2 versions of android-support-v4.jar in the de ...