词频统计 List Array

c# 使用数组进行词频统计

1.先考虑要是使用的数据结构：

Array在在内存中是连续存储的，所以它的索引速度非常快，而且赋值与修改元素也很简单，但是数组存在一些不足的地方。在数组的两个数据间插入数据是很麻烦的，而且在声明数组的时候必须指定数组的长度，数组的长度过长，会造成内存浪费，过段会造成数据溢出的错误。如果在声明数组时我们不清楚数组的长度，就会变得很麻烦。

ArrayList对象的大小是按照其中存储的数据来动态扩充与收缩的。所以，在声明ArrayList对象时并不需要指定它的长度。但是ArrayList会把所有插入其中的数据当作为object类型来处理，在我们使用ArrayList处理数据时，很可能会报类型不匹配的错误，也就是ArrayList不是类型安全的。在存储或检索值类型时通常发生装箱和取消装箱操作，带来很大的性能耗损。

List<T>类是 ArrayList 类的泛型等效类。该类使用大小可按需动态增加的数组实现 IList<T> 泛型接口。不会强行对值类型进行装箱和拆箱，或对引用类型进行向下强制类型转换，是类型安全的。

2.Array 进行词频统计

要使用Array进行词频统计就需要提前规定一个大小够用的数组，确保不会越界。使用二维数组，一维存储单词另一维存放单词出现次数。

每次查询单词是否在数组（单词维度）中存在，若存在则获取到在数组中的位置下标，根据下标更新对应的单词出现次数。若存在将单词写入数组，次数为1。

效能分析结果图：

程序运行总时间16s

占用最多的函数项ArrayContains（）该函数用于判定单词是否已存在数组之中，若存在返回1及下标，若不存在返回0及数组为空的位置以便继续写入。

数组的赋值和修改都很简单，查找占用较多。

2.List<> 进行词频统计

使用List<T>来进行词频统计。定义类 Item包含下面两个属性
private int total;//单词出现次数
private string word;//单词

List<Item>无需设定长度，每次查询单词是否存在，若存在则获取到在List中位置，删除对应位置的数据Item，若不存在将单词写入，次数记为1.

效能分析结果图：

程序运行总时间130s

占用最多的函数项 IsExAndgetIndexAndValue(List<Item> itemList, string word)

该函数用于判定单词是否已存在List之中，若存在返回1、位置（index）及单词出现出次数（value）组成的int数组，若不存在返回0、0 、0组成的数组

根据是否存在确定下一步要进行的操作：①存在：删除对应位置Item，将新Item（word，value+1）写入

②不存在：写入Item（word，1）

3.HashTable 词频统计（博客：http://www.cnblogs.com/WeSure6/p/5257024.html）

效能分析结果（博客：http://www.cnblogs.com/WeSure6/p/5275715.html）

效能分析（代码部分调整：将一些功能写成独立函数）

程序运行总时间 3s

占用百分比较高的部分是对标点符号的替换(TxtToWords()函数部分)

其余为判断单词是否存在于HashTable中

4.总结

就程序运行总时间看，使用HashTable的程序运行时间最短只有3s，使用二维数组稍长16s，而使用List<T>最长130S（严重超出预期，有待思考，还未想明缘由）

CPU使用情况上，使用HashTable的程序优于使用二维数组优于List<>

*以上结论依据个人程序

词频统计 List Array的更多相关文章

【原创】大数据基础之词频统计Word Count
对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多简单: 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test ...
用Python实现一个词频统计(词云+图）
第一步:首先需要安装工具python 第二步:在电脑cmd后台下载安装如下工具: (有一些是安装好python电脑自带有哦) 有一些会出现一种情况就是安装不了词云展示库有下面解决方法,需看请复制链接 ...
利用python实现简单词频统计、构建词云
1.利用jieba分词,排除停用词stopword之后,对文章中的词进行词频统计,并用matplotlib进行直方图展示 # coding: utf-8 import codecs import ma ...
C# 词频统计东北师范大学软件项目管理第一次作业
一.作为杨老师的学生第一次听杨老师讲课,印象最深的就是:工程中所有步骤之间是乘法,如果任何一步为0,工程就做不出来了.以前所有老师讲到的都是不要太在乎结果,努力的过程很重要,但是这在软件工程中不合适了 ...
使用SparkSQL编写wordCount的词频统计
# 使用SparkSQL编写wordCount的词频统计 ## word.txt```hello hello scala sparkjava sql html java hellojack jack ...
【python】利用jieba中文分词进行词频统计
以下代码对鲁迅的<祝福>进行了词频统计: import io import jieba txt = io.open("zhufu.txt", "r" ...
Python之利用jieba库做词频统计且制作词云图
一.环境以及注意事项 1.windows10家庭版 python 3.7.1 2.需要使用到的库 wordcloud(词云),jieba(中文分词库),安装过程不展示 3.注意事项:由于wordclo ...
作业3-个人项目<词频统计>
上了一天的课,现在终于可以静下来更新我的博客了. 越来越发现,写博客是一种享受.来看看这次小林老师的“作战任务”. 词频统计单词: 包含有4个或4个以上的字 ...
C语言实现词频统计——第二版
原需求 1.读取文件,文件内包可含英文字符,及常见标点,空格级换行符. 2.统计英文单词在本文件的出现次数 3.将统计结果排序 4.显示排序结果新需求: 1.小文件输入. 为表明程序能跑 2.支持命 ...

随机推荐

Django电商项目---完成购物车页面day4
创建购物车项目App python manage.py startapp df_cart 初始化项目: manas/urls.py manas/settings.py 创建新文件:df_cart/ur ...
oracle经验记录
1.添加新User时必须要增加的角色权限:connect.dba.resource 2.添加表空间的语句 create tablespace DEMOSPACE datafile 'D:/test.d ...
拓普微小尺寸TFT液晶屏-高性价比
智能模块(Smart LCD)是专为工业显示应用而设计的TFT液晶显示模块. 模块自带主控IC.Flash存储器.实时嵌入式操作系统,客户主机可把要存储的数据(如背景图.图标等)存储到屏的flash中 ...
使用KVM虚拟机遇到的问题（持续更新）
1.qemu-kvm.kvm.qemu 和 qemu-system-x86_64四种命令的差别 qemu 和 qemu-system-x86_64:启动qemu虚拟机的命令,x86_64为64位系统时 ...
Java 浅拷贝，深拷贝
从Java 强引用.软引用,弱引用http://blog.csdn.net/jltxgcy/article/details/35558465一文中,我们看到把一个对象赋值给另一个对象,本质上 ...
js中return，return true,return false三者的用法及区别
return其实就是return undefined; 1.语法及返回方式 ①返回控制与函数结果语法为:return 表达式; 语句结果函数的执行,返回调用函数,而且把表达式的值作为函数结果返回出去 ...
Ros使用Arduino 1安装Arduino IDE
安装Arsuino IDE sudo apt-get install arduino 设置库文件路径在使用ROS的库文件时,必须在代码的开头包括: #include <ros.h> 接下 ...
Domain Adaptation （1）选题讲解
1 所选论文论文题目: <Unsupervised Domain Adaptation with Residual Transfer Networks> 论文信息: NIPS2016, ...
VsCode插件开发之入门示例
主要参考官网:https://code.visualstudio.com/api/get-started/your-first-extension 其实也就三步一.安装环境 npm install ...
nginx做负载均衡和tomcat简单集群
Nginx做负载均衡和TOMCAT简单集群 1.下载安装nginx及其依赖包 ...

词频统计 List Array

词频统计 List Array的更多相关文章

随机推荐

热门专题