使用Python3.7结合Redisearch代替ElasticSearch实现的全文检索功能服务

原文转载自「刘悦的技术博客」https://v3u.cn/a_id_105

“检索”是很多产品中无法绕开的一个功能模块，当数据量小的时候可以使用模糊查询等操作凑合一下，但是当面临海量数据和高并发的时候，业界常用 elasticsearch 和 lucene 等方案，但是elasticsearch对运行时内存有着最低限额，其运行时大小推荐 2G 以上的内存空间，并且需要额外的磁盘空间做持久化存储。

其实mongoDB 内置的正则匹配搜索文本以及自带的 text 索引和 search 关键字也是一套靠谱的解决方案，但是这一次我们带来一种更加高效经济的文本检索方案：Redisearch

下图是elasticsearch和redisearch的性能对比

Redis Modules 是 redis 4.0 引入的一种扩展机制，用户可以通过实现 redis module 提供的 C api 接口为 redis 服务添加定制化功能。 redisLab 也希望籍此来规范 redis 社区的 ecosystem 实现。

redis module 本身的版本独立于redis，并且以编译成动态加载库 .so 文件的方式 release，不同版本的 redis 可以 load 同一版本 module.so 文件。

redis 提供了两种加载方式。可以通过在 conf 文件中加入 loadmodule /path/to/mymodule.so ，也可以在 redis-cli中使用命令 MODULE LOAD /path/to/panda.so 动态加载，MODULE UNLOAD 卸载。

特性

基于文档的全文索引。
高性能增量索引。
支持文档评分，文档字段(field) 权重机制。
支持布尔复杂查询。
支持自动补全。
基于 snowball 的词干分析，多语言支持。使用 friso 支持中文分词。
utf-8 字符集支持。
redis 数据持久化支持。
自定义评分机制。

其原理是在 redis 的 hashmap 基础上就可以很容易实现倒排索引的结构。redisearch 倒排索引除了实现了基础功能外，还引入了内存管理等优化功能。如果有兴趣可以阅读源码中的 src/inverted_index.c 部分

首先，安装Rediseach,记住一点你本地的redis服务版本必须在4.0以上，网上一大堆编译安装的攻略，繁琐又浪费时间，所以又到了Docker登场时间了，hub上有编译好的免费镜像供我们下载

docker pull redislabs/redisearch

下载后，直接在后台启动服务

docker run -d -p 6666:6379 redislabs/redisearch:latest

此时已经有一个docker容器在后台启动了，redis服务映射到了宿主的6666端口，我们来连接一下

redis-cli -h localhost -p 6666

检查 modules 是否成功加载

localhost:6666> MODULE list

1) 1) "name"

   1) "ft"

   2) "ver"

   3) (integer) 10405

如果返回数组中存在 “ft” ，则表明 redisearch 已经成功加载。

Redisearch 的索引概念与elasticsearch 的 index 类似，表示某一类文档资源单元。

这里我们定义了一个 SMARTX_VM 索引，其中存储的文档包含了 title 和 desc 两个类型为 TEXT 的field。

FT.CREATE SMARTX_VM SCHEMA title TEXT WEIGHT 5.0 desc TEXT

然后向刚刚创建的这条索引加一个文档

FT.ADD SMARTX_VM vm-2019082911110001 1.0 LANGUAGE "chinese" FIELDS title "人工智能" desc "我在北京昌平学习人工智能"

LANGUAGE “chinese” 参数表示使用中文分词器处理文本。默认为英文

此时我们进行文档检索

FT.SEARCH SMARTX_VM "人工智能" LANGUAGE "chinese"

注意检索的时候也要指定语言，这里我们用中文分词，默认的英文分词是无法检索中文的

可以看到已经返回了我们想要的结果。

Redisearch 是一个高效，功能完备的内存存储的高性能全文检索组件，十分适合应用在数据量适中，内存和存储空间有限的环境。借助数据同步手段，我们可以很方便的将redisearch 结合到现有的数据存储中，进而向产品提供全文检索，自动补全等服务优化功能。

使用python3和高性能全文检索引擎Redisearch进行交互

使用redisearch-python:https://github.com/RediSearch/redisearch-py

首先，安装

pip3 install redisearch

基本操作:

from redisearch import Client, TextField

# Creating a client with a given index name

client = Client('myIndex',host='localhost',port='6666')

# Creating the index definition and schema

client.create_index((TextField('title'), TextField('body')))

# Indexing a document

client.add_document('doc2', title = '你好', body = '我在北京学习人工智能',language='chinese')

# Simple search

res = client.search("人工智能")

print(res.docs[0].title)

可以看到，基本上和命令行中的操作方式没有太大区别，只是在search时不需要指定语言了，程序可以自主判断。

其实它的官方文档很简单，只是介绍了基本用法，但是你如果阅读了它的源码，发现一些常用操作它也进行了封装，比如

#删除索引

client.drop_index()

#获取当前索引的基本信息

client.info()

#删除文档

client.delete_document('doc2')

还是非常简单的，基本上，我们可以抛弃ES了，因为研发人员都是喜新厌旧的。

原文转载自「刘悦的技术博客」 https://v3u.cn/a_id_105

使用Python3.7结合Redisearch代替ElasticSearch实现的全文检索功能服务的更多相关文章

Redisearch实现的全文检索功能服务
"检索"是很多产品中无法绕开的一个功能模块,当数据量小的时候可以使用模糊查询等操作凑合一下,但是当面临海量数据和高并发的时候,业界常用 elasticsearch 和 lucene ...
EasySwoole+ElasticSearch打造高性能小视频服务系统
EasySwoole+ElasticSearch打造高性能小视频服务第1章课程概述第2章 EasySwoole框架快速上手第3章性能测试第4章玩转高性能消息队列服务第5章小视频服务平 ...
Elasticsearch强大的聚合功能Facet
在常规数据库中,我们都知道有一个sql就是group,分组.如果主表只有对应的一个列记录的分组的ID,那么还好统计,比如说每本书book表,有一个分类catId,记录是属于哪一类的书,那么直接按照ca ...
python3 opencv3 实现基本的人脸检测、识别功能
一言不和,先上码子(纯新手,莫嘲笑) # encoding: utf-8 #老杨的猫,环境:PYCHARM,python3.6,opencv3 import cv2,os import cv2.fac ...
Python3设置在shell脚本中自动补全功能的方法
本篇博客将会简短的介绍,如何在ubuntu中设置python自动补全功能. 需求:由于python中的内建函数较多,我们在百纳乘时,可能记不清函数的名字,同时自动补全功能,加快了我们开发的效率. 方法 ...
elasticsearch更改mapping，不停服务重建索引（转）
原文:http://donlianli.iteye.com/blog/1924721?utm_source=tuicool&utm_medium=referral Elasticsearch的 ...
ElasticSearch 索引模块——全文检索
curl -XPOST http://master:9200/djt/user/3/_update -d '{"doc":{"name":"我们是中国 ...
ElasticSearch基础之查询功能
[01]查询类型: [02]基本查询和组合查询是参与打分的 1.创建映射: 注意事项:基于上面映射的创建: "type": "keyword" # 如果某个字段 ...
python-django框架中使用docker和elasticsearch配合实现搜索功能
注意:系统环境为Ubuntu18 一.docker安装 0:如果之前有安装过docker使用以下命令卸载: sudo apt-get remove docker docker-engine docke ...

随机推荐

Git 后续——分支与协作
Git 后续--分支与协作本文写于 2020 年 9 月 1 日之前一篇文章写了 Git 的基础用法,但那其实只是「单机模式」,Git 之所以在今天被如此广泛的运用,是脱不开分支系统这一概念的. ...
awk应用场景之过滤举例
以/etc/passwd举例,passwd文本 [root@196 tmp]# cat /etc/passwd root:x:0:0:root:/root:/bin/bash bin:x:1:1:bi ...
面试官：BIO、NIO、AIO是什么，他们有什么区别？
哈喽!大家好,我是小奇,一位热爱分享的程序员小奇打算以轻松幽默的对话方式来分享一些技术,如果你觉得通过小奇的文章学到了东西,那就给小奇一个赞吧文章持续更新一.前言书接上回,感觉上次的公司氛围不 ...
MySQL 事务常见面试题总结 | JavaGuide 审核中
<Java 面试指北>来啦!这是一份教你如何更高效地准备面试的小册,涵盖常见八股文(系统设计.常见框架.分布式.高并发 ......).优质面经等内容. 本文原发于 MySQL知识点&am ...
安装Redis到Linux（源码）
运行环境系统版本:Ubuntu 16.04.2 LTS 软件版本:redis-5.0.4 硬件要求:无安装过程 1.配置系统参数 root@localhost:~# vim /etc/sysctl ...
autohotkey（AHK）实现箭头映射
起因在主力本上使用了AHK实现alt ijkl的箭头映射,在另一个本子上怎么都不习惯,于是网上找教程,找了半天... 因为大家习惯了快捷键都不一样,为了避免以后浪费时间,因此开此文记录. 操作 ht ...
Wireshark学习笔记（二）取证分析案例详解
@ 目录练习一:分析用户FTP操作练习二:邮件读取练习三:有人在摸鱼? 练习一:分析用户FTP操作已知抓包文件中包含了用户登录FTP服务器并进行交互的一个过程,你能否通过wireshark分析 ...
DS18B20数字温度计 (三) 1-WIRE总线 ROM搜索算法和实际测试
目录 DS18B20数字温度计 (一) 电气特性, 寄生供电模式和远距离接线 DS18B20数字温度计 (二) 测温, ROM和CRC算法 DS18B20数字温度计 (三) 1-WIRE总线 ROM搜 ...
机器学习中 TP FP TN FN的概念
二分类在二分类问题中,TP FP TN FN 是非常清楚且易于理解的. TP (True Positive) : 预测为 1 ,真实值也为 1 -> 真阳性 FP (False Positiv ...
C# 读写文件从用户态切到内核态，到底是个什么流程？
一:背景 1. 一个很好奇的问题我们在学习 C# 的过程中,总会听到一个词叫做内核态 ,比如说用 C# 读写文件,会涉及到代码从用户态到内核态的切换,用 HttpClient 获取远端的数 ...

使用Python3.7结合Redisearch代替ElasticSearch实现的全文检索功能服务

使用Python3.7结合Redisearch代替ElasticSearch实现的全文检索功能服务的更多相关文章

随机推荐

热门专题