DataTable数据检索的性能分析(转寒江独钓)
我们知道在.NET平台上有很多种数据存储,检索解决方案-ADO.NET Entity Framework,ASP.NET Dynamic Data,XML, NHibernate,LINQ to SQL 等等,但是由于一些原因,如平台限制,比如说必须基于.NET Framework2.0及以下平台;遗留的或者第三方数据接口采用的就是DataTable等等,仍然需要使用DataTable作为数据存储结构。另一方面DataTable比较容易使用,一些数据访问的接口可能直接采用了DataTable结构。在使用DataTable进行数据检索的时候,有一些需要注意的地方,这些地方会严重的影响对数据的检索效率。
本人最近工作中需要对大量的DataTable进行拼接。接口的数据是以DataSet然后里面放DataTable的方式提供的,暂不提是否合理,同时进行多个请求的时,服务端会返回一个DataSet,其中包含每个请求的结果DataTable,这些DataTable中有一列相当于”关键字”列。现在需要按照这个关键字,将这些DataTable中的列合并到一个DataTable,然后展现到界面上来。
最开始,我使用的是DataTable的Select方法来循环遍历拼接实现的,发现很慢,于是总结了一下对DataTable进行查询等操作的一些经验,和大家分享。
一 场景
为了简化问题,有两张DataTable,名为表A,表B,字段分别为
表A,存储股票的最高价信息, 表B存储股票最低价信息
SecurityCode High SecurityCode Low
000001.SZ 20 000001.SZ 18.5
000002.SZ 26 000002.SZ 56
现在需要,将这两张表拼接到一张表中,这张表有三列字段,SecurityCode High Low,之前采用的方法是,新建一张含有这三个字段的DataTable 表C,然后复制Security字段,然后遍历另外两张表,对其采用Select方法查找对应的SecurityCode,然后复制给C中对应字段。发现效率很慢,问题出现在Select方法上,于是需要进行优化。
二 DataTable的查询效率
DataTable提供了两个查询数据的接口,DataTable.Select和DataTable.Rows.Find方法。
DataTable的Select方法通过传入一系列条件,然后返回一个DataRow[ ]类型的数据,他需要遍历整个表,然后挨个匹配条件,然后返回所有匹配的值。很显然在策略上,之前的DataTable拼接采用Select方法存在问题,因为我们只需要查找匹配上的一条记录即可。
DataTable.Rows 的Find查找第一个匹配上的唯一一条记录。在指定了主键的基础上,查找会采用二叉树的方式查找,效率高。要创建主键,需要指定DataTable的PrimaryKey字段如下:
dtA.PrimaryKey = new DataColumn[] { dtA.Columns["SecurityCode"] };
当然,创建主键会增加时间消耗,这也分为在数据填充前创建和数据填充后创建。在数据量大的情况下,创建主键的消耗是需要考虑进去的。下面的图中显示了在填充数据之前创建主键,之后创建主键,以及创建Dictionary所需的时间。可以看到:
ArraySize |
PreIndex Creation Time |
PostIndex Creation Time |
Dictionary Creation Time |
10 |
0 |
0 |
0 |
50 |
0 |
0 |
0 |
100 |
1 |
0 |
0 |
500 |
6 |
1 |
0 |
1000 |
15 |
2 |
0 |
5000 |
107 |
16 |
2 |
10000 |
261 |
42 |
5 |
50000 |
1727 |
271 |
31 |
100000 |
3525 |
544 |
47 |
500000 |
20209 |
2895 |
240 |
1000000 |
43382 |
5919 |
517 |
作图如下:
从上图可以得到:
- 在填充数据之前创建主键,然后填充数据,比填充数据完之后创建主键消耗的时间要多。这是由于,创建主键后,再向其中添加数据,会导致需要重新生成索引,这和数据库中,不适合在频繁变动的字段上创建主键的原理是一样的。在我的笔记本 (Win7 32bit,CPU T6600 2.0GHZ,RAM 2GB)上,为100万条记录的DataTable创建索引大约需要5秒钟,所以在数据量大的情况下,需要考虑索引的创建时间。
- 创建DataTable然后创建主键与直接创建和该DataTable相同的Dictionary结构相比,创建Dictionary所需要的时间要少的多,而且几乎不随着记录条数规模的变大而变大。
创建完成之后,下面来测试几种情况下的DataTable的检索效率。为此,在建立主键和没有建立索引的条件下,测试了在不同规模下 DataTable.Select, DataTable.Rows.Find 的查询速度,由于在DataTable比较小的时候,时间不能很好的显示,所以测试采用的单位是StopWatch的Tick数。每个方法在数据规模不同的情况下,各执行了10次,然后取平均值,结果如下:
ArraySize | Dictionary Create | Dictionary Search | Table Select | Indexed Table Select | Table Rows Find | LINQ |
10 | 13 | 3 | 40 | 25 | 8 | 16 |
50 | 27 | 2 | 69 | 37 | 8 | 27 |
100 | 51 | 3 | 112 | 38 | 9 | 39 |
500 | 210 | 3 | 589 | 51 | 11 | 155 |
1000 | 461 | 4 | 1175 | 60 | 14 | 328 |
5000 | 2264 | 14 | 8412 | 85 | 17 | 1540 |
10000 | 6235 | 7 | 16806 | 99 | 20 | 3354 |
50000 | 23768 | 8 | 150133 | 138 | 26 | 15824 |
100000 | 49133 | 7 | 259794 | 147 | 26 | 31525 |
500000 | 252103 | 51 | 1547935 | 181 | 30 | 158317 |
1000000 | 494647 | 9 | 2736616 | 209 | 30 | 315716 |
作图如下:
可以看到:
- 在没有创建主键的条件下,对DataTable执行Select操作时比较低效的。在建立主键之后,仅对主键所在列执行Select操作,速度提高了很多,这种差距在数据量大的情况下尤其明显,在集合大小规模为1000时,该差异达到了近20倍。
- LINQ对DataTable的查询效率比DataTale.Select方法要高,但是仍然比DataTable.Rows.Find方法效率要低。
- 在对主键进行唯一性查找时,我们应该使用DataTable.Rows.Find操作,在DataTable建立主键,并且仅对主键进行操作的情况下,Find方法会比Select方法快3-6倍,这可能是由于Select方法需要对里面的过滤字符串进行解析及判断。因为Select方法可以接受多个条件的查询以及以一些比较复杂的表达式,处理及解析可能需要耗费一些时间。并且在一般条件下Select是完全搜索,即查找整个集合找到所有满足条件的记录。而Find方法则仅对主键字段进行检索,如果没有设置主键,那么调用Find方法就会报错。
- 采用Dictionary来代替DataTable结构来进行检索,能达到最快的速度,且几乎不受规模的影响,但是在数据量较大的情况下,将DataTable转换为对应的Dictionary结构可能需要花费时间,如果操作频繁,诸如在进行多个DataTable基于关键字进行拼接的情况下,对目标DataTable使用Dictionary<String,DataRow> 的方式进行存储,能够使用ContainsKey的基于Hash的方式对关键字进行查找,这能极大地提高效率。并且在DataTable列有重复字段,不能建立主键的情况下,可以采用Dictionary<string,List<DataRow>>能够解决DataTable无法创建主键,从而导致查找性能下降的问题。
三 实施效果
基于上面的分析,在实际中的工作中,替换了Select方法,创建了一个类型为Dictionary<String,DataRow>的包含目标合并后DataTable对象的所有行的结构C,其中关键字为SecurityCode,DataRow为包含SecurityCode,High,Low三列数据的行。在合并的时候,直接遍历表A的所有行,然后判断在C中是否包含该行中的SecurityCode,如果包含,取出,直接赋值。然后遍历表B。整个过程使得DataTable合并的效率至少提高了10倍。
四 结语
本文简要介绍了DataTable中检索数据的两种方法,DataTable.Select 和DataTable.Rows.Find方法。在测试方法的执行效率之前介绍了如何为DataTable设置主键,并比较了在数据填充之前和数据填充之后设置主键花费的时间,结果表明,在数据填充完成之后,设置主键要比在填充数据之前设置主键效率要高的多。设置主键之后,比较了在有无主键的情况下,DataTable.Select 方法在仅对主键字段进行过滤时的性能,结果表明,在仅对主键进行检索时,设置主键之后使用DataTable.Select 方法会比没有主键的情况下的检索速度会快非常多。在相同条件下,如果仅需要查找某一条记录,使用DataTable.Rows.Find会比DataTable.Select快很多。在某些需要频繁操作DataTable查询的时候,要避免在循环体内调用DataTable.Select方法,采用将DataTable转换为等价的Dictionary结构,能够有效解决由于键值重复导致不能创建主键的问题,并且Dicitonary的采用哈希表的方式查找能够极大地提高查询效率。
点击此处下载本文测试用例及代码,希望对您在对DataTable进行检索操作时,如何提高效率能够带来一点儿帮助。
注:个人认为若DataTable设值主键且仅查找主键,使用后设置主键方式比Dictionary速度要快。
DataTable数据检索的性能分析(转寒江独钓)的更多相关文章
- DataTable数据检索的性能分析[转]
原文链接 作者写得非常好,我学到了许多东西,这里只是转载! 我们知道在.NET平台上有很多种数据存储,检索解决方案-ADO.NET Entity Framework,ASP.NET Dynamic D ...
- KTHREAD 线程调度 SDT TEB SEH shellcode中DLL模块机制动态获取 《寒江独钓》内核学习笔记(5)
目录 . 相关阅读材料 . <加密与解密3> . [经典文章翻译]A_Crash_Course_on_the_Depths_of_Win32_Structured_Exception_Ha ...
- ETHREAD APC 《寒江独钓》内核学习笔记(4)
继续学习windows 中和线程有关系的数据结构: ETHREAD.KTHREAD.TEB 1. 相关阅读材料 <windows 内核原理与实现> --- 潘爱民 2. 数据结构分析 我们 ...
- EPROCESS 进程/线程优先级 句柄表 GDT LDT 页表 《寒江独钓》内核学习笔记(2)
在学习笔记(1)中,我们学习了IRP的数据结构的相关知识,接下来我们继续来学习内核中很重要的另一批数据结构: EPROCESS/KPROCESS/PEB.把它们放到一起是因为这三个数据结构及其外延和w ...
- IRP IO_STACK_LOCATION 《寒江独钓》内核学习笔记(1)
在学习内核过滤驱动的过程中,遇到了大量的涉及IRP操作的代码,这里有必要对IRP的数据结构和与之相关的API函数做一下笔记. 1. 相关阅读资料 <深入解析 windows 操作系统(第4版,中 ...
- 《寒江独钓_Windows内核安全编程》中修改类驱动分发函数
最近在阅读<寒江独钓_Windows内核安全编程>一书的过程中,发现修改类驱动分发函数这一技术点,书中只给出了具体思路和部分代码,没有完整的例子. 按照作者的思路和代码,将例子补充完整,发 ...
- KPROCESS IDT PEB Ldr 《寒江独钓》内核学习笔记(3)
继续上一篇(2)未完成的研究,我们接下来学习 KPROCESS这个数据结构. 1. 相关阅读材料 <深入理解计算机系统(原书第2版)> 二. KPROCESS KPROCESS,也叫内核进 ...
- SQL查询性能分析
http://blog.csdn.net/dba_huangzj/article/details/8300784 SQL查询性能的好坏直接影响到整个数据库的价值,对此,必须郑重对待. SQL Serv ...
- MySQL性能分析(转)
第一步:检查系统的状态 通过操作系统的一些工具检查系统的状态,比如CPU.内存.交换.磁盘的利用率.IO.网络,根据经验或与系统正常时的状态相比对,有时系统表面上看起来看空闲,这也可能不是一个正常的状 ...
随机推荐
- 【小白的CFD之旅】03 老蓝
第一次见到老蓝,小白都不太敢相信,对面那不修边幅的糟老头子会是自己要找的导师.嘴里叼着烟,牙都掉了好几颗,穿着还算整齐,这是小白对老蓝的第一印象,这印象并不太好,尤其是在小白发誓认真度过研究生三年时光 ...
- RSA加密算法的简单案例
RSA加密算法是目前最有影响力的公钥加密算法,它能够抵抗到目前为止已知的绝大多数密码攻击. 那关于RSA加密算法有哪些应用呢?以下举一个数据库身份验证的案例. 在使用数据集进行身份认证时,密码存在数据 ...
- 兼容可控硅调光的一款LED驱动电路记录
1.该款电路为兼容可控硅调光的LED驱动电路,采用OB3332为开关控制IC,拓扑方案为Buck: 2.FB1:磁珠的单位是欧姆,而不是亨利,这一点要特别注意.因为磁珠的单位是按照它在某一频率 产生的 ...
- Hibernate 分组查询 子查询 原生SQL
分组查询: 使用group by关键字对数据分组,使用having关键字对分组数据设定约束条件,从而完成对数据分组和统计 1.1 聚合函数:常被用来实现数据统计功能 ① count() 统计记录条数 ...
- XML介绍
XML [TOC] 1.XML简介 XML是Extend Markup Langue可扩展标签语言,标签由开发着自己定义 作用是: 1.描述带关系的数据(作为软件的配置文件):包含与被包含的关系 2. ...
- 第14章 集合框架(1)-List集合的各种类
1.概述 1.1.Java集合框架的由来 1.2.什么是集合框架? 1.3.为什么需要集合框架 1.4.常用的框架接口规范 2.Vector类 2.1.存储原理 2.2.构造方法 2.3.常用方法 3 ...
- 安装交叉编译的 GCC 时出现的错误
错误如下: ../.././libgcc/../config-ml.: enable_libstdc++_v3=yes: command not found make[]: Entering dire ...
- Iterator接口。集合输出
在集合中支持以下几种方式. iterator ListIterator foreach输出 emumeration输出. 集合输出的标准操作: 集合输出的时候必须形成以下的思路:只要碰到了集合输出的操 ...
- ASP.net 实现禁止用户重复登录
本文先为大家介绍如何利用缓存Cache方便地实现此功能. Cache与Session这二个状态对像的其中有一个不同之处,Cache是一个全局对象,作用的范围是整个应用程序,所有用户:而Session是 ...
- mysql重置密码
1.首先停止正在运行的MySQL进程 复制代码代码如下: >net stop mysql 如未加载为服务,可直接在进程管理器或者服务中进行关闭. 2.以安全模式启动MySQL 进入mysql目 ...