现在人们的网络生活已经离不开搜索了，遇到不懂的问题，想知道的事情，搜索一下，就知道答案。

在app中，最常见的搜索情景就是搜索用户。只有几百，几千的用户量时，可以直接用用like这样的模糊查询，但是，如果数据有几百万，甚至上千万的时候，一次like查询数据库就堵了。到了一定量级的时候，不得不考虑使用专门的搜索技术。

1. 一个简单的搜索例子

有三行数据：

（1）近2周8成股民亏损超10%。

（2）满仓中国梦。

（3）股民两天亏一套三居。

例如，有个需求，从上面的3行数据中，把包含“股民”这个关键词的数据找出来。

按照一般的做法，就是分别查找上面的每一行数据：

第一行数据从头到尾查找一次，发现有“股民”这个关键词。

第二行数据从头到尾查找一次，没有有“股民”这个关键词。

第三行数据从头到尾查找一次，发现有“股民”这个关键词。

根据查找结果，第一，第三行数据包含“股民”这个关键词。

2. 搜索技术的基本原理

按照上面的过程，每次查找，都需要把每行数据从头到尾查一次。

如果需要从上百万，千万的数据中查找一个关键词，读者可以想象一下效率有多低。

我们看一下搜索引擎的例子，在搜索引擎搜索“股民”这个关键词的结果：

图1

在搜索引擎的搜索结果中，是直接显示了所有包含“股民”这个关键字的数据。

它是怎么做到在海量的信息中，快速搜索中包含关键字的信息的呢？

实现搜索的关键，就是分词和倒序索引。

如果我们知道每行数据中包含多少个关键字，然后建立一个映射表，把每个关键字出现在哪行数据中记录下来，搜索就变得很轻松。当知道一个关键字的时候，只需要查找这个映射表，找到这个关键词，根据这个关键词建立的映射关系就能查到包含这个关键词的数据。

知道每行数据中包含多少个关键字的过程，就是分词。这里有个问题，什么是关键字？

关键字，其实就是一个词语或句子，例如，当我有需要的时候，“股民”可以是搜索的关键字，但是，“股”也可以是搜索的关键字，“民”也可以是搜索的关键字。什么是关键字，要看使用者的需求。因此，为了能准确分析出一行数据到底包含多少个关键字，就需要一个包含了所有词语或句子的词典，用来分析数据中有什么关键字。

建立一个映射表，把每个关键字出现在哪行数据中记录下来，这个过程就是建倒序搜引。

下面举个实际的例子，看看是怎么分词和建立倒序索引。

还是用回上面举例的三行数据，左边的是数据的编号，右边的是数据的内容。

（1）近2周8成股民亏损超10%。

（2）满仓中国梦。

（3）股民两天亏一套三居。

首先，把分析上面每行数据包含多少个关键词（这里为了简化分词过程，没有把每个汉字或数字当成一个关键词，例如，” 民”应该是个关键词，但为了简化分词，没有当成一个关键词），结果如表1所示。

表1

下面根据表1的结果建立一个映射表表2，把每个关键字出现在哪行数据中记录下来

表2

用上面的表2，我们很容易得知，“股民”这个关键词在数据1,3中出现过。如果需要知道“中国”这个关键词出现在哪，通过查找表2也很容易得知出现在数据2中。

在这么几行数据中，还不能体验到倒序索引的高效。如果数据量到了上百万，千万，甚至上亿，倒序索引的效率就非常明显了。归根到底，这种数据结构就是为了实现快速搜索也建立的。

再进一步，表2的右侧，除了记录关键词出现在哪行数据中，还能记录在某行数据中出现的频率，出现的位置等信息，如果有兴趣继续深入了解搜索引擎的技术，可阅读《这就是搜索引擎：核心技术详解》（张俊林著），这篇文章只是简单介绍搜索引擎的基本原理。

3. 常见的开源搜索软件介绍

搜索技术一点都不简单，如果要我们从头开始做，不知道要到哪年哪月才能用给app用上搜索功能。幸好，大牛们已经为我们开源大量的搜索软件，只要我们会使用这些搜索软件提供的api，就能给app后台整合搜索技术。下面简单介绍一下常见的搜索软件。

(1) Lucene

Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。

Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言，Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。

(2) Solr

Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。它对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；也可以通过Http Get操作提出查找请求，并得到XML格式的返回结果。

(3) Elasticsearch

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是第二流行的企业搜索引擎。

(4) Sphinx

Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为MySQL也设计了一个存储引擎插件。

(5) Coreseek

Coreseek 是一款中文全文检索/搜索软件，以GPLv2许可协议开源发布，基于Sphinx研发并独立发布，专攻中文搜索和信息处理领域，适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景，用户可以免费下载使用。

Coreseek曾经在本人架构过两个app后台深度使用过，配置简单，性能高效，整合了Sphinx和中文分词，快速完成了搜索模块的开发。但最大的缺点是稳定版不支持实时索引，测试版是支持了，但没在生产环境中用过。

Coreseek的原理如下图3所示：

图2

Coreseek有两个核心模块 Indexer和Search。

Indexer: 负责从mysql中拉取数据源，把数据源分词，建立索引

Search：搜索模块

整个工程的流程如下：

1. Indexer模块从mysql中拉取数据

2. Indexer模块把数据经过中文分词，建立索引

3. 客户端向Search模块发起搜索请求

4. Seach模块查找索引中的数据

5. Seach模块得到索引中符合要求的数据的id等数据

6. 把数据返回给客户端

另外，有个小小的经验分享，搜索的时候，有的用户直接通过输入拼音来代替汉字的，如下图2：

图3

这种情况，就是要在记录关键字的同时，也要记录下关键字的拼音，把拼音也建索引，就能实现用拼音搜索。

参考资料：

1. http://baike.baidu.com/link?url=rNBW3tzH-oJYeBoPSUvWZPGz-stIkE5zFQsjAtV234HFFPJKyeyr3dJjJrbZKRSCBg2NGZv-lA7DFqHF5XBEoq

2. http://baike.baidu.com/link?url=C92bKEtkJtap8FfRjpSX4m5-yGE1Dn6O-00FRV5RwLe-EOkJ6FIvfl7amUuYceb-5jOD3Zn0Oy1_1vh7LG0RXK

3. http://baike.baidu.com/link?url=xH1aipHlRiiq3JduGb8J8aT7qpYxs1rVDuvUQe76z0WLDZvuPFuI8Y7pbthYyiUZyyAB5wUxFzJqs5oAnRh5phPO7XYvdFSvuV5JlNVuD33

4. http://www.coreseek.cn/

-------------------------------------------------------------------------------------------------

打开链接 app后端系列文章总目录总目录，能查看本人发表过的所有原创“app后端”文章。

【作者】曾健生

【QQ】190678908

【app后端qq群】254659220

【微信公众号】 appbackend

【新浪微博】 @newjueqi

【博客】http://blog.csdn.net/newjueqi

如果您觉得文章对你有所帮助，欢迎打赏。

微信打赏：

支付宝打赏：

35.app后端搜索入门的更多相关文章

app后端搜索入门
现在人们的网络生活已经离不开搜索了,遇到不懂的问题,想知道的事情,搜索一下,就知道答案. 在app中,最常见的搜索情景就是搜索用户.只有几百,几千的用户量时,可以直接用用like这样的模糊查询,但是, ...
app后端设计--总目录 (转)
特此说明,我转载的!!! app后端设计(1)--api app后端设计(2)--xmpp的使用 app后端设计(3)--短信,邮件,推送服务 app后端设计(4)-- 通讯的安全性 app后端设计( ...
app后端设计--总目录
做了3年app相关的系统架构,api设计,先后在3个创业公司中工作,经历过手机网页端,android客户端,iphone客户端,现就职于app云后端平台bmob(想了解bmob点击这里).其中的乐与苦 ...
[置顶] app后端设计--总目录
版权声明:本文为博主原创文章,未经博主允许不得转载. 做了3年app相关的系统架构,api设计,先后在3个创业公司中工作,经历过手机网页端,Android客户端,iphone客户端,现就职于app云后 ...
1.用互联网的产品思维打造一本app后端的书
刚刚接触app后端,是做完adidas中国的官方商城的时候,那时不清楚app后端应该怎么架构,只能摸着石头过河,网络上只有一些零散的资料,遇到问题,只能不断地搜索,思考,务必找到解决问题的方法. 在从 ...
PHP开发高可用高安全App后端(免费)
PHP开发高可用高安全App后端第1章本章先讲解课程所含技术点,并演示相关的项目,让小伙伴对课程有个初步的认知,然后再带领小伙伴进行功能的分析,表的ER总关系图第2章本章主要讲解课程的一些准备 ...
app后端设计(11)-- 系统架构(2014.12.05更新)
个人认为,在小型的创业团队中,特别是以应用产品为主,在架构后台的时候,需要集中精力解决自身业务上的问题,不是花时间解决第三方已经解决的问题,简单点来说,就是能用第三方服务就使用第三方的服务.基于这个原 ...
23.app后端如何架设文件系统
现在app展现内容的形式多种多样的,有文字,图片,声音,视频等等,其中文件占了一个很大的比重.随着app不断运营,文件会越来越多,占用的磁盘空间也不断增大,架设一套高效的文件系统,对于整个app架构有 ...
18.app后端如何实现LBS
移动互联网,除了一直在线这个特点外,还有一个重要特点,能定位到手机的位置.查找附近的人,附近的餐馆等服务,以及大量的o2o应用, 都需要使用LBS(Location Based Services).那 ...

随机推荐

CentOS 6.5安装MongoDB 2.6(多yum数据源)
下面我们在CentOS 6.5 x64系统上安装最新的MongoDB 2.6.5版. 在MongoDB v2.6.5版的软件仓库一共有五个包: 1)mongodb-org此包是元数据包,它可以实现自动 ...
Github上的原文XMPP环境搭建步骤，英语能力差不多的可以看看
Getting started using XMPPFramework on iOS Here is a post on StackOverflow describing how to install ...
javascript语言扩展:可迭代对象（4）
js 1.7中还包含一个数组推导(array comprehension)的特性,如果不在最后介绍它好像显得不怎么完整. 数组推导其实很简单: let a = [x*x for(x in range( ...
OpenLayers3的WMS空间查询实现多个图层
空间查询前面的帖子写过,但是在一次性查询多个图层的时候卡了一下,再次记录下. 1.WMS数据源: var wmsSource = new ol.source.TileWMS({ url:'http:/ ...
How--to-deploy-smart-contracts-on
The following smart contract code is only an example and is NOT to be used in Production systems. pr ...
Asp.NetCore+Microsoft.AspNetCore.SignalR前后端分离
1.新建WebApi 2.安装Microsoft.AspNetCore.SignalR 3.新建一个集线器和消息类 using Microsoft.AspNetCore.SignalR; using ...
MTCNN人脸检测附完整C++代码
人脸检测识别一直是图像算法领域一个主流话题. 前年 SeetaFace 开源了人脸识别引擎,一度成为热门话题. 虽然后来SeetaFace 又放出来 2.0版本,但是,我说但是... 没有训练代码, ...
解决记录：win10 无法安装VS2017，visual studio installer下载进度始终为0
问题描述:win10 下无法安装VS2017,visual studio installer下载进度始终为0,点击取消按钮后,也没有反应,visual studio installer也关闭不掉: 具 ...
js 逻辑运算符优化
运算符的代码优化,可以精简代码,提高代码可读性下面主要讨论下逻辑运算符与 &&, 或||. 示例: 假设对成长速度显示规定如下: 成长速度为5显示1个箭头: 成长速度为10显示2个箭 ...
Resin4下JSP文件导出问题的解决
之前我在Resin3下采用JSP代码对一些硬盘上的文件作读取以后再输出或者生成一些特殊格式文件(如Excel)再输出供下载,这些文件输出JSP代码在Resin4以后输出的文件都产生错误无 ...

35.app后端搜索入门

1. 一个简单的搜索例子

2. 搜索技术的基本原理

3. 常见的开源搜索软件介绍

35.app后端搜索入门的更多相关文章

随机推荐

热门专题