前言

Elasticsearch 是一个分布式、可扩展、实时的搜索与数据分析引擎，通过它我们可以构建出一个强大的全文搜索系统，解决诸如文章检索慢，商品检索慢、MySQL的like查询慢这样的问题。

Elasticsearch是基于hadoop创始人道哥的另一杰作Lucene实现的，速度非常快，核心是使用了倒排索引这样的结构。关于倒排索引是什么，可以参考搜索引擎中的倒排索引是什么

接下来，就以这篇倒排索引中的例子，演示一下ElasticSearch的使用

假设我们有海量文章，如下

页码	内容
1	生命在于运动
2	运动是生命的源泉
3	日复一日地坚持练下去吧,只有活动适量才能保持训练的热情和提高运动的技能.——塞涅卡
4	活动是生活的基础!——歌德
5	人的健全,不但靠饮食,尤靠运动
6	奥林匹克的格言是“更高,更快,更强”
7	身体的健康因静止不动而破坏,因运动练习而长期保持.——苏格拉底
8	chenqionghe喜欢运动，绳命是如此的精彩，绳命是如此的辉煌

我们想像这是千万级别的表，最后需要实现传入关键字，返回相应的文章

例如：搜索运动返回页码1,2,3,5,7,8对应的文章、搜索chenqionghe返回页码为8的文章

一、安装

1.安装es

查看官网地址，直接下载安装就行了，我用的是mac直接下了mac版本的，另外也可以使用dokcer安装

解压后长这样

es依赖java环境，需要指定jdk版本，我们加入一下java相关环境变量

export JAVA_HOME=/Users/chenqionghe/web/elk/elasticsearch-7.6.1/jdk.app/Contents/Home/

export PATH=$JAVA_HOME/bin:$PATH

启动一下看看

./bin/elasticsearch

看到启动报错

uncaught exception in thread [main]

ElasticsearchException[Failure running machine learning native code. This could be due to running on an unsupported OS or distribution, missing OS libraries, or a problem with the temp directory. To bypass this problem by running Elasticsearch without machine learning functionality set [xpack.ml.enabled: false].]

解决办法，修改./config/elasticsearch.yml添加

 xpack.ml.enabled: false

再次启动，成功运行，画风如下

默认启动的是9200端口，我们来测试一下

➜ ~ curl localhost:9200

可以看到，es可以正常运行起来了

2.启动集群

一般es都是以集群的方式存在，接下我们演示一下启动集群。

编辑./config/elasticsearch.yml，指定集群名称，集群名称我指定成了chenqionghe

cluster.name: chenqionghe

指定节点名称

ode.name: chenqionghe-1

设置初始化的节点

cluster.initial_master_nodes: ["chenqionghe-1"]

设置监听的端口，这里不限定ip，指定为0.0.0.0

network.host: 0.0.0.0

端口默认9200

http.port: 9200

添加支持elasticsearch-head界面参数

http.cors.enabled: true

http.cors.allow-origin: "*"

http.cors.allow-methods: OPTIONS, HEAD, GET, POST, PUT, DELETE

http.cors.allow-headers: "X-Requested-With, Content-Type, Content-Length, X-User"

再次启动

./bin/elasticsearch

3.安装管理界面

elasticsearch-head可以很方便的查看es集群状态，查看官网地址:elasticsearch-head

git clone git://github.com/mobz/elasticsearch-head.git

cd elasticsearch-head

npm install

npm run start

打开http://localhost:9100/，如下

4.安装分词插件

插件我们使用的是elasticsearch-analysis-ik，参考地址：elasticsearch-analysis-ik/

./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.6.1/elasticsearch-analysis-ik-7.6.1.zip

验证一下分插件

curl -X POST "localhost:9200/_analyze?pretty" -H 'Content-Type: application/json' -d '{ "analyzer": "ik_smart", "text": "chenqionghe徒手健身" }'

可以看到，已经可以分词了，oh yeah~

二、使用

ES中有index、document、filed、mapping这样的概念，我们以MySQL的结构为参考对照一下，如下

ElasticSearch	MySQL
index	表
document	行
field	列
mapping	表结构

Elasticsearch主要还是使用API，具体使用请参考：Document APIs

1.创建索引

这里index我取名叫book

➜ ~ curl -X PUT "localhost:9200/book" -H 'Content-Type: application/json' -d '{

        "mappings": {

                "properties": {

                        "page": {

                                "type": "long"

                        },

                        "content": {

                                "type": "text",

                                "analyzer": "ik_max_word",

                                "search_analyzer": "ik_max_word"

                        }

                }

        }

}'

{"acknowledged":true,"shards_acknowledged":true,"index":"book"}

创建成功，但是查看head界面，但是这个黄色不怎么优雅呀，原因是虽然启用了集群，但是还是单节点运行的，群集无法放置副本。

集群的健康状况为 yellow 则表示全部主分片(number_of_shards)都正常运行，但是副本分片没有全部处在正常状态,单节点无论有多少个副本分片（number_of_replicas）都是 unassigned ,它们都没有被分配到任何节点。

在同一个节点上既保存原始数据又保存副本是没有意义的，因为一旦失去了那个节点，我们也将丢失该节点上的所有副本数据。

我们需要把这个副本设置为0，因为索引一旦建立，分片数量不能变，我们需要删除再重新建立一下索引

curl -XDELETE http://localhost:9200/book

curl -X PUT "localhost:9200/book" -H 'Content-Type: application/json' -d '{

        "settings":{

            "number_of_shards": "1",

            "number_of_replicas": "0"

          },

        "mappings": {

                "properties": {

                        "page": {

                                "type": "long"

                        },

                        "content": {

                                "type": "text",

                                "analyzer": "ik_max_word",

                                "search_analyzer": "ik_max_word"

                        }

                }

        }

}'

再次查看，健康了

2.插入数据

curl -X POST "localhost:9200/book/_doc/" -H 'Content-Type: application/json' -d '{

        "page":1,

        "content": "生命在于运动"

}'

我们可以看到已经成功插入一条数据

3.批量插入数据

curl -X POST "localhost:9200/book/_doc/_bulk?pretty"  -H 'Content-Type: application/json' -d'

{ "index":{} }

{ "page":2 , "content": "运动是生命的源泉"}

{ "index":{} }

{ "page":3 , "content": "日复一日地坚持练下去吧,只有活动适量才能保持训练的热情和提高运动的技能.——塞涅卡"}

{ "index":{} }

{ "page":4 , "content": "活动是生活的基础!——歌德"}

{ "index":{} }

{ "page":5 , "content": "人的健全,不但靠饮食,尤靠运动"}

{ "index":{} }

{ "page":6 , "content": "奥林匹克的格言是“更高,更快,更强”"}

{ "index":{} }

{ "page":7 , "content": "身体的健康因静止不动而破坏,因运动练习而长期保持.——苏格拉底"}

{ "index":{} }

{ "page":8 , "content": "chenqionghe喜欢运动，绳命是如此的精彩，绳命是如此的辉煌"}

'

可以看到成功批量插入

4.查询数据

搜索chenqionghe

curl -s -X GET 'localhost:9200/book/_search?pretty' -H 'Content-Type: application/json' -d '{

  "query" : { "match" : { "content" : "chenqionghe" }}

}'|jq

可以看到匹配到了

搜索运动，应该是会返回1,2,3,5,7,8这几条

curl -s -XGET 'localhost:9200/book/_search?pretty' -H 'Content-Type: application/json' -d '{

  "query" : { "match" : { "content" : "运动" }}

}'|jq .hits.hits|jq '.[]._source'

可以看到，验证通过

5.修改数据

拉下来，我们将chenqionghe这条记录的绳命改为生命，

curl -X POST "localhost:9200/book/_doc/HFn_2XABkofzJYzpQIy4" -H 'Content-Type: application/json' -d '{

    "page":8,

    "content": "chenqionghe喜欢运动，生命是如此的精彩，生命是如此的辉煌"

}'

可以看到，更新成功

6.删除数据

根据id删除

curl -X DELETE "localhost:9200/book/_doc/GFn_2XABkofzJYzpQIy4"

根据条件删除

curl -X POST "localhost:9200/book/_delete_by_query?pretty" -H 'Content-Type: application/json' -d'

{

  "query": {

    "match": {

      "content": "chenqionghe"

    }

  }

}

'

7.索引关闭和开启

如果关闭了一个索引，就无法通过ES来读取和写入其中的数据，直到道再次打开它

# 关闭

curl -XPOST 'localhost:9200/book/_close'

# 开启

curl -XPOST 'localhost:9200/book/_open'

总结

通过Elasticsearch，我们可以快速构建出一个强大的全文搜索系统，安装简单，通过API使用也简单。

倒排索引为搜索而生，先对需要索引的字段进行分词，再通过词直接匹配出文档，速度非常快，这是优点。但是，相比数据库采用的 B 树索引，它的写入和更新性能都比较差，因此倒排索引也只是适合全文搜索，不适合更新频繁的交易类数据。

总之，安装使用Elasticsearch其实就是这么简单，惊不惊喜，意不意外呀，light weight baby!

更多资料请参考：Eelasticsearch权威指南

Elasticsearch构建全文搜索系统的更多相关文章

Python 和 Elasticsearch 构建简易搜索
Python 和 Elasticsearch 构建简易搜索作者:白宁超 2019年5月24日17:22:41 导读:件开发最大的麻烦事之一就是环境配置,操作系统设置,各种库和组件的安装.只有它们都正 ...
笔记13：Python 和 Elasticsearch 构建简易搜索
Python 和 Elasticsearch 构建简易搜索 1 ES基本介绍概念介绍 Elasticsearch是一个基于Lucene库的搜索引擎.它提供了一个分布式.支持多租户的全文搜索引擎,它可 ...
Flask 教程第十六章：全文搜索
本文翻译自The Flask Mega-Tutorial Part XVI: Full-Text Search 这是Flask Mega-Tutorial系列的第十六部分,我将在其中为Microblo ...
Nlpir Parser智能语义平台全文搜索
全文索引用于处理大文本集合,利用它人们可以在海量文本中快速获取需要的信息.全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统.一般来说,全文检索需要具备建立索引和提供查询的基本功能 ...
在 Laravel 项目中使用 Elasticsearch 做引擎，scout 全文搜索(小白出品, 绝对白话)
项目中需要搜索, 所以从零开始学习大家都在用的搜索神器 elasiticsearch. 刚开始 google 的时候, 搜到好多经验贴和视频(中文的, 英文的), 但是由于是第一次接触, 一点概念都没 ...
可以执行全文搜索的原因 Elasticsearch full-text search Kibana RESTful API with JSON over HTTP elasticsearch_action es 模糊查询
https://www.elastic.co/guide/en/elasticsearch/guide/current/getting-started.html Elasticsearch is a ...
使用elasticsearch搭建自己的搜索系统
什么是elasticsearch Elasticsearch 是一个开源的高度可扩展的全文搜索和分析引擎,拥有查询近实时的超强性能. 大名鼎鼎的Lucene 搜索引擎被广泛用于搜索领域,但是操作复杂繁 ...
Nebula 基于 ElasticSearch 的全文搜索引擎的文本搜索
本文首发于 Nebula Graph 公众号 NebulaGraphCommunity,Follow 看大厂图数据库技术实践. 1 背景 Nebula 2.0 中已经支持了基于外部全文搜索引擎的文本查 ...
分布式搜索ElasticSearch构建集群与简单搜索实例应用
分布式搜索ElasticSearch构建集群与简单搜索实例应用关于ElasticSearch不介绍了,直接说应用. 分布式ElasticSearch集群构建的方法. 1.通过在程序中创建一个嵌入es ...

随机推荐

ZooTracer:打破传统追踪软件的束缚
编者按:自今年2月24日起,用户可以免费从官网下载Zootracer试用.这是由来自微软剑桥研究院的Joppa和他的同事研发的桌面工具,可追踪任意画质的视频中任意移动物体行踪,是对对视频画质拍摄要求高 ...
cxf整合spring代码
导入jar包cxf的jar包创建实体类 package com.yhd.webservice.cxf.server.poto; public class Person { private Strin ...
MyBatis SQL语句写法
一.forEach 接口: public List<Entity> queryById(List<String> userids); 语法: <select id=&qu ...
mybatis 添加后获得该新增数据自动生成的 id
// useGeneratedKeys默认值为false,keyProperty的值对应的是User类中的主键字段名 // mybatis 写法如下 <insert id="inser ...
【转】蛋糕尺寸（寸）、尺寸（CM）、重量（磅）、食用人数对照换算参考表
转自:https://www.douban.com/note/324832054/ 蛋糕尺寸(寸).尺寸(CM).重量(磅).食用人数对照换算参考表馋嘴猫DIY烘焙 2014-01-04 12:15 ...
Python---13面向对象编程
一.类和实例面向对象最重要的概念就是类(Class)和实例(Instance),必须牢记类是抽象的模板,比如Student类,而实例是根据类创建出来的一个个具体的“对象”,每个对象都拥有相同的方法, ...
ERROR 1129 (00000) Host ‘XXXXXX’ is blocked because of many connection errors; unblock with ‘mysqlad
1.今天早上由于公司网络带宽达到上限,导致多台web服务器连接mysql服务器超时.后来情况好转后,连接数据库服务器出现如下错误. Host '*' is blocked because of man ...
Struts2获取request的几种方式汇总
Struts2获取request三种方法 struts2里面有三种方法可以获取request,最好使用ServletRequestAware接口通过IOC机制注入Request对象. 在Action中 ...
Android studio常用快捷键与设置
1.格式化代码: 命令快捷键将代码合并成一行 Ctrl + Shift + J 格式化 Ctrl+Alt+L 2.API函数参数提示:双击选中所要提示的函数,再按F2即可显示函数的使用方法. 3. ...
Leetcode-Day Three
1002. Find Common Characters Given an array A of strings made only from lowercase letters, return a ...

Elasticsearch构建全文搜索系统

前言