Elasticsearch(一）基础入门

介绍

　　Elasticsearch 是一个实时的分布式搜索分析引擎，它能让你以前所未有的速度和规模，去探索你的数据。它被用作全文检索、结构化搜索、分析以及这三个功能的组合：

Elasticsearch 是一个开源的搜索引擎，建立在一个全文搜索引擎库 Apache Lucene™ 基础之上。 Lucene 可以说是当下最先进、高性能、全功能的搜索引擎库--无论是开源还是私有。

但是 Lucene 仅仅只是一个库。为了充分发挥其功能，你需要使用 Java 并将 Lucene 直接集成到应用程序中。更糟糕的是，您可能需要获得信息检索学位才能了解其工作原理。Lucene 非常复杂。

Elasticsearch 也是使用 Java 编写的，它的内部使用 Lucene 做索引与搜索，但是它的目的是使全文检索变得简单，通过隐藏 Lucene 的复杂性，取而代之的提供一套简单一致的 RESTful API。

然而，Elasticsearch 不仅仅是 Lucene，并且也不仅仅只是一个全文搜索引擎。它可以被下面这样准确的形容：

一个分布式的实时文档存储，每个字段 可以被索引与搜索
一个分布式实时分析搜索引擎
能胜任上百个服务节点的扩展，并支持 PB 级别的结构化或者非结构化数据

Elasticsearch 将所有的功能打包成一个单独的服务，这样你可以通过程序与它提供的简单的 RESTful API 进行通信，可以使用自己喜欢的编程语言充当 web 客户端，甚至可以使用命令行（去充当这个客户端）。

安装并运行 Elasticsearch

　　1：从官网下载，需要比较新的jdk版本，1.8以上，

　　2：解压后打开bin目录，启动elasticsearch, ./elasticsearch , 如果你想把 Elasticsearch 作为一个守护进程在后台运行，那么可以在后面添加参数 -d ，

　　3:测试 Elasticsearch 是否启动成功，可以打开另一个终端,curl 'http://localhost:9200/?pretty'

　　注意：linux系统不能在root用户下运行Elasticsearch

或者直接浏览器输入http://localhost:9200/?pretty'，相应类似下面

{

  "name" : "Tom Foster",

  "cluster_name" : "elasticsearch",

  "version" : {

    "number" : "2.1.0",

    "build_hash" : "72cd1f1a3eee09505e036106146dc1949dc5dc87",

    "build_timestamp" : "2015-11-18T22:40:03Z",

    "build_snapshot" : false,

    "lucene_version" : "5.3.1"

  },

  "tagline" : "You Know, for Search"

}

操作：

计算集群中文档的数量，我们可以用这个:

curl -XGET 'http://localhost:9200/_count?pretty' -d '

{

    "query": {

        "match_all": {}

    }

}

'

JSON

Elasticsearch 使用 JavaScript Object Notation（或者 JSON）作为文档的序列化格式。JSON 序列化为大多数编程语言所支持，并且已经成为 NoSQL 领域的标准格式。它简单、简洁、易于阅读。

　　如：　

{

    "email":      "john@smith.com",

    "first_name": "John",

    "last_name":  "Smith",

    "info": {

        "bio":         "Eco-warrior and defender of the weak",

        "age":         25,

        "interests": [ "dolphins", "whales" ]

    },

    "join_date": "2014/05/01"

}

索引员工文档

　　存储数据到 Elasticsearch 的行为叫做索引，但在索引一个文档之前，需要确定将文档存储在哪里，一个 Elasticsearch 集群可以包含多个索引，相应的每个索引可以包含多个类型。这些不同的类型存储着多个文档，每个文档又有多个属性。

　　增加一个员工：

 curl -X PUT "localhost:9200/megacorp/employee/1?pretty" -H 'Content-Type: application/json' -d'

{

    "first_name" : "John",

    "last_name" :  "Smith",

    "age" :        25,

    "about" :      "I love to go rock climbing",

    "interests": [ "sports", "music" ]

}

'

megacorp:索引名称
employee:类型名称
1:特定雇员的ID
请求体 —— JSON 文档 —— 包含了这位员工的所有详细信息，他的名字叫 John Smith ，今年 25 岁，喜欢攀岩。

检索文档

　　简单地执行一个 HTTP GET 请求并指定文档的地址——索引库、类型和ID。使用这三个信息可以返回原始的 JSON 文档

curl -X GET "localhost:9200/megacorp/employee/1?pretty"

　　将 HTTP 命令由 PUT 改为 GET 可以用来检索文档，同样的，可以使用 DELETE 命令来删除文档，以及使用 HEAD 指令来检查文档是否存在。如果想更新已存在的文档，只需再次 PUT 。

轻量搜索

curl -X GET "localhost:9200/megacorp/employee/_search?pretty"

搜索所有员工，上次用ID，这次用_search,返回的结果放在一个数组中

注意：返回结果不仅告知匹配了哪些文档，还包含了整个文档本身：显示搜索结果给最终用户所需的全部信息。

使用高亮搜索

curl -X GET "localhost:9200/megacorp/employee/_search?q=last_name:Smith&pretty"

仍然在请求路径中使用 _search 端点，并将查询本身赋值给参数 q= ，查询last_name为Smith的所有人

使用表达式搜索

　　Elasticsearch 提供一个丰富灵活的查询语言叫做 查询表达式 ，它支持构建更加复杂和健壮的查询。

　　　领域特定语言 （DSL），使用 JSON 构造了一个请求。我们可以像这样重写之前的查询所有名为 Smith 的搜索：

curl -X GET "localhost:9200/megacorp/employee/_search?pretty" -H 'Content-Type: application/json' -d'

{

    "query" : {

        "match" : {

            "last_name" : "Smith"

        }

    }

}

'
不再使用 query-string 参数，而是一个请求体替代。这个请求使用 JSON 构造，并使用了一个 match 查询

更复杂的搜索

　　同样搜索姓氏为 Smith 的员工，但这次我们只需要年龄大于 30 的。查询需要稍作调整，使用过滤器 filter ，它支持高效地执行一个结构化查询。

curl -X GET "localhost:9200/megacorp/employee/_search?pretty" -H 'Content-Type: application/json' -d'

{

    "query" : {

        "bool": {

            "must": {

                "match" : {

                    "last_name" : "smith"

                }

            },

            "filter": {

                "range" : {

                    "age" : { "gt" :  }

                }

            }

        }

    }

}

'
增加了一个过滤器

全文搜索

　　截止目前的搜索相对都很简单：单个姓名，通过年龄过滤。现在尝试下稍微高级点儿的全文搜索——一项传统数据库确实很难搞定的任务。

　　搜索下所有喜欢攀岩（rock climbing）的员工：

curl -X GET "localhost:9200/megacorp/employee/_search?pretty" -H 'Content-Type: application/json' -d'

{

    "query" : {

        "match" : {

            "about" : "rock climbing"

        }

    }

}

'
Elasticsearch 如何 在 全文属性上搜索并返回相关性最强的结果。Elasticsearch中的 相关性   概念非常重要，也是完全区别于传统关系型数据库的一个概念，数据库中的一条记录要么匹配要么不匹配。

短语搜索

　　　　找出一个属性中的独立单词是没有问题的，但有时候想要精确匹配一系列单词或者短语。比如，我们想执行这样一个查询，仅匹配同时包含 “rock” 和 “climbing” ，并且二者以短语 “rock climbing” 的形式紧挨着的雇员记录。

为此对 match 查询稍作调整，使用一个叫做 match_phrase 的查询：

curl -X GET "localhost:9200/megacorp/employee/_search?pretty" -H 'Content-Type: application/json' -d'

{

    "query" : {

        "match_phrase" : {

            "about" : "rock climbing"

        }

    }

}

'

高亮搜索

　　许多应用都倾向于在每个搜索结果中高亮部分文本片段，以便让用户知道为何该文档符合查询条件。在 Elasticsearch 中检索出高亮片段也很容易。

再次执行前面的查询，并增加一个新的 highlight 参数：

curl -X GET "localhost:9200/megacorp/employee/_search?pretty" -H 'Content-Type: application/json' -d'

{

    "query" : {

        "match_phrase" : {

            "about" : "rock climbing"

        }

    },

    "highlight": {

        "fields" : {

            "about" : {}

        }

    }

}

'

分析

　　 Elasticsearch 有一个功能叫聚合（aggregations），允许我们基于数据生成一些精细的分析结果。聚合与 SQL 中的 GROUP BY 类似但更强大。

　　如：挖掘员工中最受欢迎的兴趣爱好

curl -X GET "localhost:9200/megacorp/employee/_search?pretty" -H 'Content-Type: application/json' -d'

{

  "aggs": {

    "all_interests": {

      "terms": { "field": "interests" }

    }

  }

}

'

　　又如，查询特定兴趣爱好员工的平均年龄：

curl -X GET "localhost:9200/megacorp/employee/_search?pretty" -H 'Content-Type: application/json' -d'

{

    "aggs" : {

        "all_interests" : {

            "terms" : { "field" : "interests" },

            "aggs" : {

                "avg_age" : {

                    "avg" : { "field" : "age" }

                }

            }

        }

    }

}

'

Elasticsearch参考文档：https://www.elastic.co/guide/cn/elasticsearch/guide/current/index.html