django-全文检索

全文检索不同于特定字段的模糊查询，使用全文检索的效率更高，并且能够对于中文进行分词处理

需要的第三方库：

haystack：django的一个包，可以方便地对model里面的内容进行索引、搜索，设计为支持whoosh,solr,Xapian,Elasticsearc四种全文检索引擎后端，属于一种全文检索的框架
whoosh：纯Python编写的全文搜索引擎，虽然性能比不上sphinx、xapian、Elasticsearc等，但是无二进制包，程序不会莫名其妙的崩溃，对于小型的站点，whoosh已经足够使用
jieba：一款免费的中文分词包

操作

首先pip安装包

pip install django-haystack

pip install whoosh

pip install jieba

设置settings

添加应用：

INSTALLED_APPS = (

    ...

    'haystack',

)

添加搜索引擎：

HAYSTACK_CONNECTIONS = {

    'default': {

        'ENGINE': 'haystack.backends.whoosh_cn_backend.WhooshEngine',

        'PATH': os.path.join(BASE_DIR, 'whoosh_index'),

    }

}

#自动生成索引

HAYSTACK_SIGNAL_PROCESSOR = 'haystack.signals.RealtimeSignalProcessor'

#每一页显示多少数据

HAYSTACK_SEARCH_RESULTS_PER_PAGE = 18

添加url：

urlpatterns = [

    ...

    url(r'^search/', include('haystack.urls')),

]

在应用目录下建立search_indexes.py

# coding=utf-8

from haystack import indexes

from models import GoodsInfo

class GoodsInfoIndex(indexes.SearchIndex, indexes.Indexable):

    text = indexes.CharField(document=True, use_template=True)

    def get_model(self):

        return GoodsInfo

    def index_queryset(self, using=None):

        return self.get_model().objects.all()

在目录“templates/search/indexes/应用名称/”下创建“模型类名称_text.txt”文件

#goodsinfo_text.txt，这里列出了要对哪些列的内容进行检索,模型类中的某些字段

{{ object.gName }}

{{ object.gSubName }}

{{ object.gDes }}

在目录“templates/search/”下建立search.html

<!DOCTYPE html>

<html>

<head>

    <title></title>

</head>

<body>

{% if query %}

    <h3>搜索结果如下：</h3>

    {% for result in page.object_list %}

        <a href="/{{ result.object.id }}/">{{ result.object.gName }}</a><br/>

    {% empty %}

        <p>没找到</p>

    {% endfor %}

    {% if page.has_previous or page.has_next %}

        <div>

            {% if page.has_previous %}<a href="?q={{ query }}&amp;page={{ page.previous_page_number }}">{% endif %}&laquo; 上一页{% if page.has_previous %}</a>{% endif %}

        |

            {% if page.has_next %}<a href="?q={{ query }}&amp;page={{ page.next_page_number }}">{% endif %}下一页 &raquo;{% if page.has_next %}</a>{% endif %}

        </div>

    {% endif %}

{% endif %}

</body>

</html>

建立ChineseAnalyzer.py文件

保存在haystack的安装文件夹下，路径如“/home/python/.virtualenvs/django_py2/lib/python2.7/site-packages/haystack/backends”

import jieba

from whoosh.analysis import Tokenizer, Token

class ChineseTokenizer(Tokenizer):

    def __call__(self, value, positions=False, chars=False,

                 keeporiginal=False, removestops=True,

                 start_pos=0, start_char=0, mode='', **kwargs):

        t = Token(positions, chars, removestops=removestops, mode=mode,

                  **kwargs)

        seglist = jieba.cut(value, cut_all=True)

        for w in seglist:

            t.original = t.text = w

            t.boost = 1.0

            if positions:

                t.pos = start_pos + value.find(w)

            if chars:

                t.startchar = start_char + value.find(w)

                t.endchar = start_char + value.find(w) + len(w)

            yield t

def ChineseAnalyzer():

    return ChineseTokenizer()

复制whoosh_backend.py文件，改名为whoosh_cn_backend.py

from .ChineseAnalyzer import ChineseAnalyzer

查找

analyzer=StemmingAnalyzer()

改为

analyzer=ChineseAnalyzer()

生成索引

初始化索引：

python manage.py rebuild_index

在模板中创建搜索栏

<form method='get' action="/search/" target="_blank">

    <input type="text" name="q">

    <input type="submit" value="查询">

</form>

关于全文索引使用的固定参数一些说明：

我们打开haystack第三方包中的urls文件

haystack

    ----urls.py        

# encoding: utf-8

from __future__ import absolute_import, division, print_function, unicode_literals

from django.conf.urls import url

from haystack.views import SearchView

urlpatterns = [

    url(r'^$', SearchView(), name='haystack_search'),

]

然后进入haystack.views 文件

#这里将搜索显示的数据默认为20个
RESULTS_PER_PAGE = getattr(settings, 'HAYSTACK_SEARCH_RESULTS_PER_PAGE', 20)


#在search文件下的search

template = 'search/search.html'

extra_context = {}

query = ''

results = EmptySearchQuerySet()

request = None

form = None

results_per_page = RESULTS_PER_PAGE

更多详情请看

haystack.views.py

# encoding: utf-8

from __future__ import absolute_import, division, print_function, unicode_literals

from django.conf import settings

from django.core.paginator import InvalidPage, Paginator

from django.http import Http404

from django.shortcuts import render

from haystack.forms import FacetedSearchForm, ModelSearchForm

from haystack.query import EmptySearchQuerySet

RESULTS_PER_PAGE = getattr(settings, 'HAYSTACK_SEARCH_RESULTS_PER_PAGE', 20)

class SearchView(object):

    template = 'search/search.html'

    extra_context = {}

    query = ''

    results = EmptySearchQuerySet()

    request = None

    form = None

    results_per_page = RESULTS_PER_PAGE

    def __init__(self, template=None, load_all=True, form_class=None, searchqueryset=None, results_per_page=None):

        self.load_all = load_all

        self.form_class = form_class

        self.searchqueryset = searchqueryset

        if form_class is None:

            self.form_class = ModelSearchForm

        if not results_per_page is None:

            self.results_per_page = results_per_page

        if template:

            self.template = template

    def __call__(self, request):

        """

        Generates the actual response to the search.

        Relies on internal, overridable methods to construct the response.

        """

        self.request = request

        self.form = self.build_form()

        self.query = self.get_query()

        self.results = self.get_results()

        return self.create_response()

    def build_form(self, form_kwargs=None):

        """

        Instantiates the form the class should use to process the search query.

        """

        data = None

        kwargs = {

            'load_all': self.load_all,

        }

        if form_kwargs:

            kwargs.update(form_kwargs)

        if len(self.request.GET):

            data = self.request.GET

        if self.searchqueryset is not None:

            kwargs['searchqueryset'] = self.searchqueryset

        return self.form_class(data, **kwargs)

    def get_query(self):

        """

        Returns the query provided by the user.

        Returns an empty string if the query is invalid.

        """

        if self.form.is_valid():

            return self.form.cleaned_data['q']

        return ''

    def get_results(self):

        """

        Fetches the results via the form.

        Returns an empty list if there's no query to search with.

        """

        return self.form.search()

    def build_page(self):

        """

        Paginates the results appropriately.

        In case someone does not want to use Django's built-in pagination, it

        should be a simple matter to override this method to do what they would

        like.

        """

        try:

            page_no = int(self.request.GET.get('page', 1))

        except (TypeError, ValueError):

            raise Http404("Not a valid number for page.")

        if page_no < 1:

            raise Http404("Pages should be 1 or greater.")

        start_offset = (page_no - 1) * self.results_per_page

        self.results[start_offset:start_offset + self.results_per_page]

        paginator = Paginator(self.results, self.results_per_page)

        try:

            page = paginator.page(page_no)

        except InvalidPage:

            raise Http404("No such page!")

        return (paginator, page)

    def extra_context(self):

        """

        Allows the addition of more context variables as needed.

        Must return a dictionary.

        """

        return {}

    def get_context(self):

        (paginator, page) = self.build_page()

        context = {

            'query': self.query,

            'form': self.form,

            'page': page,

            'paginator': paginator,

            'suggestion': None,

        }

        if hasattr(self.results, 'query') and self.results.query.backend.include_spelling:

            context['suggestion'] = self.form.get_suggestion()

        context.update(self.extra_context())

        return context

    def create_response(self):

        """

        Generates the actual HttpResponse to send back to the user.

        """

        context = self.get_context()

        return render(self.request, self.template, context)

def search_view_factory(view_class=SearchView, *args, **kwargs):

    def search_view(request):

        return view_class(*args, **kwargs)(request)

    return search_view

class FacetedSearchView(SearchView):

    def __init__(self, *args, **kwargs):

        # Needed to switch out the default form class.

        if kwargs.get('form_class') is None:

            kwargs['form_class'] = FacetedSearchForm

        super(FacetedSearchView, self).__init__(*args, **kwargs)

    def build_form(self, form_kwargs=None):

        if form_kwargs is None:

            form_kwargs = {}

        # This way the form can always receive a list containing zero or more

        # facet expressions:

        form_kwargs['selected_facets'] = self.request.GET.getlist("selected_facets")

        return super(FacetedSearchView, self).build_form(form_kwargs)

    def extra_context(self):

        extra = super(FacetedSearchView, self).extra_context()

        extra['request'] = self.request

        extra['facets'] = self.results.facet_counts()

        return extra

def basic_search(request, template='search/search.html', load_all=True, form_class=ModelSearchForm, searchqueryset=None, extra_context=None, results_per_page=None):

    """

    A more traditional view that also demonstrate an alternative

    way to use Haystack.

    Useful as an example of for basing heavily custom views off of.

    Also has the benefit of thread-safety, which the ``SearchView`` class may

    not be.

    Template:: ``search/search.html``

    Context::

        * form

          An instance of the ``form_class``. (default: ``ModelSearchForm``)

        * page

          The current page of search results.

        * paginator

          A paginator instance for the results.

        * query

          The query received by the form.

    """

    query = ''

    results = EmptySearchQuerySet()

    if request.GET.get('q'):

        form = form_class(request.GET, searchqueryset=searchqueryset, load_all=load_all)

        if form.is_valid():

            query = form.cleaned_data['q']

            results = form.search()

    else:

        form = form_class(searchqueryset=searchqueryset, load_all=load_all)

    paginator = Paginator(results, results_per_page or RESULTS_PER_PAGE)

    try:

        page = paginator.page(int(request.GET.get('page', 1)))

    except InvalidPage:

        raise Http404("No such page of results!")

    context = {

        'form': form,

        'page': page,

        'paginator': paginator,

        'query': query,

        'suggestion': None,

    }

    if results.query.backend.include_spelling:

        context['suggestion'] = form.get_suggestion()

    if extra_context:

        context.update(extra_context)

    return render(request, template, context)

django-全文检索的更多相关文章

django全文检索
-------------------linux下配置操作1.在虚拟环境中依次安装包 1.pip install django-haystack haystack:django的一个包,可以方便地对m ...
Django全文检索（django-haystack+whoosh+jieba）
前言: 全文检索就是针对所有内容进行动态匹配搜索的概念,针对特定的关键词建立索引并精确匹配达到性能优化的目的 class Whoose_seach(object): analyzer = Chines ...
使用haystack实现django全文检索搜索引擎功能
前言 django是python语言的一个web框架,功能强大.配合一些插件可为web网站很方便地添加搜索功能. 搜索引擎使用whoosh,是一个纯python实现的全文搜索引擎,小巧简单. 中文搜索 ...
Django:全文检索功能可参考博客
https://blog.csdn.net/AC_hell/article/details/52875927 https://www.zmrenwu.com/courses/django-blog-t ...
Django实现组合搜索的方法示例
目录一.实现方法二.基本原理三.代码样例方法1:纯模板语言实现方法二:使用simpletag实现四.其他变化 1.model定义 2.处理函数变化 3.simpletag相应改变一. ...
Django--全文检索功能
经过两个月的时间,毕设终于算是把所有主要功能都完成了,最近这一周为了实现全文检索的功能,也算是查阅了不少资料,今天就在这里记录一下,以免以后再用到时抓瞎了~ 首先介绍一下我使用的Django全文检索逻 ...
Django Haystack 全文检索与关键词高亮
Django Haystack 简介 django-haystack 是一个专门提供搜索功能的 django 第三方应用,它支持 Solr.Elasticsearch.Whoosh.Xapian 等多 ...
django框架中的全文检索Haystack
1.什么是Haystack Haystack是django的开源全文搜索框架(全文检索不同于特定字段的模糊查询,使用全文检索的效率更高 ),该框架支持Solr,Elasticsearch,Whoosh ...
Django：haystack全文检索详细教程
参考:https://blog.csdn.net/AC_hell/article/details/52875927 一.安装第三方库及配置 1.1 安装插件 pip install whoosh dj ...
django之全文检索
全文检索全文检索不同于特定字段的模糊查询,使用全文检索的效率更高,并且能够对于中文进行分词处理 haystack:django的一个包,可以方便地对model里面的内容进行索引.搜索,设计为支持wh ...

随机推荐

cglib invoke 和 invokeSuper 可用的组合
在深入字节码理解invokeSuper无限循环的原因中,我们理解的cglib的原理和其中一个合理的调用方式.但是这个调用方式是基于类的,对所有实例生效.实际场景中,我们可能只是希望代理某个具体的实例, ...
JS简单表单验证
这里我是写了一个简单的注册表单验证功能,亲测有效,一起来看看吧! 首先我的HTML代码是这样的: class大家可以忽略一下,这里我项目使用的是bootstrap的样式. 输入用户名和密码用的是正则表 ...
Ubuntu14.04 + Text-Detection-with-FRCN(CPU)
操作系统: yt@yt-MS-:~$ cat /etc/issue Ubuntu LTS \n \l Python版本: yt@yt-MS-:~$ python --version Python pi ...
POJ 2545
#include<iostream> #include<stdio.h> #include<iomanip> #define MAXN 100000 using n ...
Dubbo源码学习--优雅停机原理及在SpringBoot中遇到的问题
Dubbo源码学习--优雅停机原理及在SpringBoot中遇到的问题相关文章: Dubbo源码学习文章目录前言主要是前一阵子换了工作,第一个任务就是解决目前团队在 Dubbo 停机时产生的问题 ...
高可用Hadoop平台－实战
1.概述今天继续<高可用的Hadoop平台>系列,今天开始进行小规模的实战下,前面的准备工作完成后,基本用于统计数据的平台都拥有了,关于导出统计结果的文章留到后面赘述.今天要和大家分享的 ...
mongo学习使用记录2 spring data
spring data mongo 打印mongo NoSql语句 log4j.properties log4j.rootLogger=INFO, stdout log4j.logger.org.sp ...
自我总结 (三) --(Java Web学习)
自我完善的过程就是在不断的自我总结不断的改进. 在前的近半个月里,我们经过了考试,也开始了java web的项目. 先看看这次的考试.考完之后我就觉得有点不对劲的,结果结果真的是一塌糊涂.上周五的时 ...
java设计模式（详）
http://www.runoob.com/design-pattern/design-pattern-tutorial.html
第一次项目上Linux服务器（五：CentOS7下Mysql数据库的安装与配置（转））
好像在CentOS 7系统中,默认安装的mysql是它的分支mariadb.所以不能像CentOS-6.3那样安装,如下: [root@izwz ~]# yum -y install mysql my ...