如何有效的遍历django的QuerySet

　　最近做了一个小的需求，在django模型中通过前台页面的表单的提交（post），后台对post的参数进行解析，通过models模型查询MySQL，将数据结构进行加工，返回到前台页面进行展示。由于对django中QuerySet特性的不熟悉，所以测试过程中发现了很多问题。

　　开始的阶段没有遇到什么问题，我们举例，在models有一张员工表employee，对应的表结构中，postion列表示员工职位，前台post过来的参数赋给position，加上入职时间、离职时间，查询操作通过models.filter(position=params)完成，获取的员工信息内容由QuerySet和当前展示页与每页展示的记录数进行简单的计算，返回给前台页面进行渲染展示。编码如下：

 def get_employees(position, start, end):

     return employee.objects.filter(alert_time__lt=end,alert_time__gt=start).filter(position__in=position)

 @login_required

 def show(request):

     if not validate(request):

         return render_to_response('none.html',

                                   context_instance=RequestContext(request, 'msg':'params error')

                                   )

     position = request.REQUEST.get('position')

     time_range = request.REQUEST.get('time')

     start, end = time_range[0], time_range[1]

     num_per_page, page_num = get_num(request)

     all_employees = get_employees(position, start, end)

 　　# 根据当前页与每页展示的记录数，取到正确的记录

     employees = employees_events[(page_num-1)*num_per_page:page_num*num_per_page]

     return render_to_response('show_employees.html',

                               context_instance=RequestContext(

                                   request,

                                   'employees': employees,

                                   'num_per_page': num_per_page,

                                   'page_num':page_num,

                                   'page_options' : [50, 100, 200]

                               )

                             )

　　运行之后可以正确的对所查询的员工信息进行展示，并且查询速度很快。employee表中存放着不同职位的员工信息，不同类型的详细内容也不相同，假设employees有一列名为infomation，存储的是员工的详细信息，infomation = {'age': 33, 'gender': 'male', 'nationality': 'German', 'degree': 'doctor', 'motto': 'just do it'}，现在的需求是要展示出分类更细的员工信息，前台页面除了post职位、入职离职时间外，还会对infomation中的内容进行筛选，这里以查询中国籍的设计师为例，在之前的代码基础上，需要做一些修改。员工信息表employee存放于MySQL中，而MySQL为ORM数据库，它并未提供类似mongodb一样更为强大的聚合函数，所以这里不能通过objects提供的方法进行filter，一次性将所需的数据获取出来，那么需要对type进行过滤后的数据，进行二次遍历，通过information来确定当前记录是否需要返回展示，在展示过程中，需要根据num_per_page和page_num计算出需要展示数据起始以及终止位置。

 def get_employees(position, start, end):

     return employee.objects.filter(alert_time__lt=end,alert_time__gt=start).filter(position__in=position)

 def filter_with_nation(all_employees, nationality, num_per_page, page_num):

     result = []

     pos = (page_num-1)*num_per_page

     cnt = 0

     start = False

     for employee in all_employees:

         info = json.loads(employee.information)

         if info.nationality != nationality:

             continue

         # 获取的数据可能并不是首页，所以需要先跳过前n-1页

         if cnt == pos:

             if start:

                 break

             cnt = 0

             pos = num_per_page

             start = True

         if start:

             result.append(employee)

     return employee

 @login_required

 def show(request):

     if not validate(request):

         return render_to_response('none.html',

                                   context_instance=RequestContext(request, 'msg':'params error')

                                   )

     position = request.REQUEST.get('position')

     time_range = request.REQUEST.get('time')

     start, end = time_range[0], time_range[1]

     num_per_page, page_num = get_num(request)

     all_employees = get_employees(position, start, end)

     nationality = request.REQUEST.get('nationality')

     employees = filter_with_nation(all_employees, num_per_page, page_num)

     return render_to_response('show_employees.html',

                               context_instance=RequestContext(

                                   request,

                                   'employees': employees,

                                   'num_per_page': num_per_page,

                                   'page_num':page_num,

                                   'page_options' : [50, 100, 200]

                               )

                             )

　　当编码完成之后，在数据employee表数据很小的情况下测试并未发现问题，而当数据量非常大，并且查询的数据很少时，代码运行非常耗时。我们设想，这是一家规模很大的跨国公司，同时人员的流动量也很大，所以employee表的数据量很庞大，而这里一些来自于小国家的员工并不多，比如需要查询国籍为梵蒂冈的员工时，前台页面进入了无尽的等待状态。同时，监控进程的内存信息，发现进程的内存一直在增长。毫无疑问，问题出现在filter_with_nation这个函数中，这里逐条遍历了employee中的数据，并且对每条数据进行了解析，这并不是高效的做法。

　　在网上查阅了相关资料，了解到：

1 Django的queryset是惰性的，使用filter语句进行查询，实际上并没有运行任何的要真正从数据库获得数据

2 只要你查询的时候才真正的操作数据库。会导致执行查询的操作有：对QuerySet进行遍历queryset，切片，序列化，对 QuerySet 应用 list()、len()方法，还有if语句

3 当第一次进入循环并且对QuerySet进行遍历时，Django从数据库中获取数据，在它返回任何可遍历的数据之前，会在内存中为每一条数据创建实例，而这有可能会导致内存溢出。

　　上面的原来很好的解释了代码所造成的现象。那么如何进行优化是个问题，网上有说到当QuerySet非常巨大时，为避免将它们一次装入内存，可以使用迭代器iterator()来处理，但对上面的代码进行修改，遍历时使用employee.iterator()，而结果和之前一样，内存持续增长，前台页面等待，对此的解释是：using iterator() will save you some memory by not storing the result of the cache internally (though not necessarily on PostgreSQL!); but will still retrieve the whole objects from the database。

　　这里我们知道不能一次性对QuerySet中所有的记录进行遍历，那么只能对QuerySet进行切片，每次取一个chunk_size的大小，遍历这部分数据，然后进行累加，当达到需要的数目时，返回满足的对象列表，这里修改下filter_with_nation函数：

 def filter_with_nation(all_employees, nationality, num_per_page, page_num):

     result = []

     pos = (page_num-1)*num_per_page

     cnt = 0

     start_pos = 0

     start = False

     while True:

         employees = all_employees[start_pos:start_pos+num_per_page]

         start_pos += num_per_page

         for employee in employees:

             info = json.loads(employee.infomation)

             if info.nationality != nationality:

                 continue

             if cnt == pos:

                 if start:

                     break

                 cnt = 0

                 pos = num_per_page

                 start = True

             if start:

                 result.append(opt)

             cnt += 1

         if cnt == num_per_page or not events:

             break

     return result

　　运行上述代码时，查询的速度更快，内存也没有明显的增长，得到效果不错的优化。这篇文章初衷在于记录自己对django中queryset的理解和使用，而对于文中的例子，其实正常业务中，如果需要记录员工详细的信息，最好对employee表进行扩充，或者建立一个字表，存放详细信息，而不是将所有信息存放入一个字段中，避免在查询时的二次解析。

　　参考：

　　http://www.oschina.net/translate/django-querysets

　　http://stackoverflow.com/questions/4222176/why-is-iterating-through-a-large-django-queryset-consuming-massive-amounts-of-me

如何有效的遍历django的QuerySet的更多相关文章

Django OMR QuerySet的特性/存在意义
QuerySet存在的意义主要在惰性机制和缓存两点 ---------->惰性机制: 所谓惰性机制:Publisher.objects.all()或者.filter()等都只是返回了一个Quer ...
django的queryset和objects对象
1. queryset是查询集,就是传到服务器上的url里面的内容.Django会对查询返回的结果集QerySet进行缓存,这里是为了提高查询效率. 也就是说,在你创建一个QuerySet对象的时候, ...
Django ORM Queryset 的缓存机制, 惰性查询简述
在Django的ORM中必须注意由于QuerySet的 cache导致的数据获取不正确的问题在哪些情况下不会出发QuerySet缓存? 隐式存储QuerySet(查询语句没有显示赋值给变量而直接进 ...
Django ORM queryset object 解释(子查询和join连表查询的结果)
#下面两种是基于QuerySet查询也就是说SQL中用的jion连表的方式查询books = models.UserInfo.objects.all() print(type(books)) --- ...
Django之QuerySet 创建对象
在前面的模型介绍中设置了3个对象,出版商(publisher),作者(Authro),书籍(book).首先我们在网页中添加各个对象信息填写的界面.填写后点击提交.将会传递给后端.传递方式采用post ...
Django之queryset API
1. QuerySet 创建对象的方法 >>> from blog.models import Blog >>> b = Blog(name='Beatles Bl ...
Django之QuerySet 查询
首先来看下如何查询.我们在网页中增加书名的查询链接后端的查询处理代码:这里由于authors是manytomanyfiled,因此我们这里用r.authors.all().first()来查询符合条 ...
django 补充 QuerySet数据类型
1 QuerySet数据类型特点: (1) 可切片 Entry.objects.all()[:5] (2) 可迭代 : articleLis ...
Python - Django - ORM QuerySet 方法补充
models.py: from django.db import models class Employee2(models.Model): name = models.CharField(max_l ...

随机推荐

HDU 1074 Doing Homework(像缩进DP）
Problem Description Ignatius has just come back school from the 30th ACM/ICPC. Now he has a lot of h ...
Linux内核分析（二）----内核模块简介|简单内核模块实现
原文:Linux内核分析(二)----内核模块简介|简单内核模块实现 Linux内核分析(二) 昨天我们开始了内核的分析,网上有很多人是用用源码直接分析,这样造成的问题是,大家觉得很枯燥很难理解,从某 ...
Linux/UNIX先进I/O
先进I/O 非阻塞IO 非阻塞I/O因此,我们可以称之为open.read和write这种I/O操作,而这些操作不会永久阻止.我们假设,该操作不能完成,然后调用立即返回一个错误.则表示该操作将继续作为 ...
hadoop 开始时间datanode一个错误 Problem connecting to server
刚刚配置hadoop,namenode常开,但datanode但保留了错误.但不启动: 2014-05-04 10:43:33,970 WARNorg.apache.hadoop.hdfs.serve ...
CentOS安装KVM步骤虚拟机，绝对实用！
KVM(Kernel-based Virtual Machine)速记.这是rhel5.4最新的虚拟化技术启动,现在只支持红帽64位rhel5.4在执行KVM,硬件必须支持同一时间VT技术,网上找 ...
Javascipt数组去重的几种方式
方法一 function unique(arr) { var retArr = []; for (var i = 0; i < arr.length; i++) { (retArr.indexO ...
nodejs中使用monk訪问mongodb
mongodb 安装mongodb 我认为还是用mannual install靠谱一点儿:http://docs.mongodb.org/manual/tutorial/install-mongodb ...
考试easy该，学习如何做？
我的两个学生(场和任)都讲了他们周末參加的一个认证考试不考大题考小题的事情.由感而发: 话说不用大题考,大概是不敢用大题考. 老师的教.和学生的学中.存在的一些问题得不到解决,整体讲,学生的学习效果没 ...
DirectX 9 UI三种设计学习笔记：文章4章Introducing DirectInput+文章5章Wrapping Direct3D
本文从哈利_创.转载请注明出处.有问题欢迎联系本人! 邮箱:2024958085@qq.com 上一期的地址: DX 9 UI设计学习笔记之二第4章 Introducin ...
LINUX2.4.x网络安全框架
在分析LINUX2.4.x网络安全的实现之前先简介一下它里面包括的几个重要概念:netfilter.iptables.match.target.nf_sockopt_ops.网络安全功能点的实现 ...

如何有效的遍历django的QuerySet

如何有效的遍历django的QuerySet的更多相关文章

随机推荐

热门专题