全文索引搜索whoosh
问题
Whoosh是python中解决索引查找的模块,在讨论索引查找的文章已经对有关索引查找进行了阐述,此处具体说明Whoosh模块的应用。
思路说明
Whoosh的安装
这里有具体内容(链接被被阉割!
)
whoosh的使用步骤
whoosh在应用上划分三个步骤:
- 建立索引和模式对象
- 写入索引文件
- 搜索
以下依次阐述各步骤
建立索引和模式对象
建立索引模式
使用Whoosh的第一步就是要建立索引对象。首先要定义索引模式,以字段的形式列在索引中。
比如:
>>> from whoosh.fields import *
>>> schema = Schema(title=TEXT, path=ID, content=TEXT)
title/path/content就是所谓的字段。每一个字段相应索引查找目标文件的一部分信息,上面的样例中就是建立索引的模式:索引内容包含title/path/content。
一个字段建立了索引,意味着它可以被搜索。也可以被存储,意味着返回结果。比如上面的样例。可以写成:
>>> schema = Schema(title=TEXT(stored=True), path=ID(stored=True), content=TEXT)
这里在某些字段后面加入了(stored=True)。意味着将返回该字段的搜索结果。
以上就建立好了索引模式。不须要反复建立索引模式,由于一旦此模式建立,将随索引保存。
在生产过程中,假设你愿意。还可以建立一个类用于建立索引模式。
例如以下样例:
from whoosh.fields import SchemaClass, TEXT, KEYWORD, ID, STORED
class MySchema(SchemaClass):
path = ID(stored=True)
title = TEXT(stored=True)
content = TEXT
tags = KEYWORD
索引字段类型
在上例中,title=TEXT,title是字段名称。后面的TEXT是该字段的类型。
这两个分别说明了索引内容和查找对象类型。
whoosh有例如以下字段类型,供建立所以模式使用。
- whoosh.fields.ID:仅能为一个单元值,即不能切割为若干个词。通经常使用于诸如文件路径。URL,日期,分类。
- whoosh.fields.STORED:该字段随文件保存,可是不能被索引。也不能被查询。经常使用于显示文件信息。
- whoosh.fields.KEYWORD:用空格或者逗号(半角)切割的关键词,可被索引和搜索。
为了节省空间,不支持词汇搜索。
- whoosh.fields.TEXT:文件的文本内容。建立文本的索引并存储,支持词汇搜索。
- whoosh.fields.NUMERIC:数字类型,保存整数或浮点数。
- whoosh.fields.BOOLEAN:布尔类值
- whoosh.fields.DATETIME:时间对象类型
关于索引字段类型的很多其它内容,请看这里.(链接被被阉割!)
建立索引存储文件夹
索引模式建立之后。还要建立索引存储文件夹。例如以下:
import os.path
from whoosh.index import create_in
from whoosh.index import open_dir
if not os.path.exists('index'): #假设文件夹index不存在则创建
os.mkdir('index')
ix = create_in("index",schema) #依照schema模式建立索引文件夹
ix = open_dir("index") #打开该文件夹一遍存储索引文件
上例中。用create_in创建一个具有前述索引模式的索引存储文件夹对象,全部的索引将被保存在该文件夹(index)中。
之后,用open_dir打开这个文件夹。
第一步到此结束。
把上面的代码整理一下,供參考:
import os.path
from whoosh import fields
from whoosh import index
schema = fields.Schema(title=TEXT(stored=True), path=ID(stored=True), content=TEXT)
if not os.path.exists("index"):
os.mkdir("index")
ix = index.create_in("index",schema)
ix = index.open_dir("index")
写索引文件
(待续)
声明
本文属于阉割之后的版本号。
要看完整版,请到我的github:qiwsir的ITArticles里面的BasicPython。
全文索引搜索whoosh的更多相关文章
- SQLServer地址搜索性能优化例子
这是一个很久以前的例子,现在在整理资料时无意发现,就拿出来再改写分享. 1.需求 1.1 基本需求: 根据输入的地址关键字,搜索出完整的地址路径,耗时要控制在几十毫秒内. 1.2 数据库地址表结构和数 ...
- MySQL全文索引应用简明教程
本文从以下几个方面介绍下MySQL全文索引的基础知识: MySQL全文索引的几个注意事项 全文索引的语法 几种搜索类型的简介 几种搜索类型的实例 全文索引的几个注意事项 搜索必须在类型为fulltex ...
- 1.搜索引擎的历史,搜索引擎起步,发展,繁荣,搜索引擎的原理,搜索技术用途,信息检索过程,倒排索引,什么是Lucene,Lucene快速入门
一: 1 搜索引擎的历史 萌芽:Archie.Gopher Archie:搜索FTP服务器上的文件 Gopher:索引网页 2 起步:Robot(网络机器人)的出现与spider(网络爬虫) ...
- 在MYSQL中运用全文索引(FULLTEXT index)
在MYSQL中使用全文索引(FULLTEXT index) MYSQL的一个很有用的特性是使用全文索引(FULLTEXT index)查找文本的能力.目前只有使用MyISAM类型表的时候有效(MyIS ...
- 全文索引Elasticsearch,Solr,Lucene
最近项目组安排了一个任务,项目中用到了全文搜索,基于全文搜索 Solr,但是该 Solr 搜索云项目不稳定,经常查询不出来数据,需要手动全量同步,而且是其他团队在维护,依赖性太强,导致 Solr 服务 ...
- MySQL 全文索引实现简单版搜索引擎
目录 前言 使用 三种类型的全文搜索方式 相关参数 测试innodb引擎使用全文索引 准备 使用默认方式创建全文索引 使用ngram分词解析器创建全文索引 结论 前言 只有Innodb和myisam存 ...
- MySQL 之全文索引
最近在复习数据库索引部分,看到了 fulltext,也即全文索引,虽然全文索引在平时的业务中用到的不多,但是感觉它有点儿意思,所以花了点时间研究一下,特此记录. 引入概念通过数值比较.范围过滤等就可以 ...
- MySQL索引结构之Hash索引、full-text全文索引(面)
Hash索引 主要就是通过Hash算法(常见的Hash算法有直接定址法.平方取中法.折叠法.除数取余法.随机数法),将数据库字段数据转换成定长的Hash值,与这条数据的行指针一并存入Hash表的对应位 ...
- MySQL 全文索引实现一个简单版搜索引擎
前言 只有Innodb和myisam存储引擎能用全文索引(innodb支持全文索引是从mysql5.6开始的) char.varchar.text类型字段能创建全文索引(fulltext index ...
随机推荐
- Vim——回顾整理
一.命令练习(一) hjkl(左下上右) 保存到某路径 :saveas 路径 w 到下一个单词的开头 e 到下一个单词的结尾 % 括号匹配移动(),{},[] 0 到行头 $ 到行头 gU字母变大写 ...
- Java基础——Oracle(八)
一.流程控制语句 1) 循环语句 == loop .. end loop 简单的循环,至少被执行一次 create table userinfo (id number, name varchar2( ...
- Python3 系列之 编程规范篇
编码规范 编码 如无特殊情况, 文件一律使用 UTF-8 编码 如无特殊情况, 文件头部必须加入 #--coding:utf-8-- 标识 缩进 统一使用 4 个空格进行缩进 引号 自然语言 使用双引 ...
- CSS常见布局
一.单列布局 1. 水平居中 1.1 使用inline-block和text-align .parent{text-align:center;} .child{display:inline-block ...
- canvas-4fillstyle.html
fillStyle color gradient pattern image canvas video strokeStyle
- H5调拨打电话界面
<a href=”tel:15771791266 ”>拨打电话</a> 切记不要用js调用 直接用a标签 苹果安卓塞班都能调起来
- 【读书笔记】iOS-属性中的内存管理参数
一,assign 代表设置时候直接赋值,而不是复制或者保留它. 二,retain. 会在赋值的时候把新值保留.此属性只能用于Object-C对象类型. 三,copy 在赋值时,将新值复制一份,复制工作 ...
- loadrunner 脚本开发-参数化之将内容保存为参数、参数数组及参数值获取Part 2
脚本开发-参数化之将内容保存为参数.参数数组及参数值获取 by:授客 QQ:1033553122 ----------------接 Part 1--------------- 把内容保存到参数数组 ...
- Angular2 富文本编辑器 ng2-ckeditor 的使用
本文介绍如何在 Angular 中使用 ng2-ckeditor 控件,示例代码基于 angular 6.0.2,node 8.11.2, ng2-ckeditor 4.9.2 环境 1. 安装 ...
- system.transfer.list深度解析
system.transfer.list system.new.dat 很明显,通过名字我们就知道这两个文件的作用,system.new.dat为数据部分,system.transfer.list为 ...