面向文档

应用中的对象很少只是简单的键值列表,更多时候它拥有复杂的数据结构,比如包含日期、地理位置、另一个对象或者数组。

总有一天你会想到把这些对象存储到数据库中。将这些数据保存到由行和列组成的关系数据库中,就好像是把一个丰富,信息表现力强的对象拆散了放入一个非常大的表格中:你不得不拆散对象以适应表模式(通常一列表示一个字段),然后又不得不在查询的时候重建它们。

Elasticsearch是面向文档(document oriented)的,这意味着它可以存储整个对象或文档(document)。然而它不仅仅是存储,还会索引(index)每个文档的内容使之可以被搜索。在Elasticsearch中,你可以对文档(而非成行成列的数据)进行索引、搜索、排序、过滤。这种理解数据的方式与以往完全不同,这也是Elasticsearch能够执行复杂的全文搜索的原因之一。

JSON

ELasticsearch使用Javascript对象符号(JavaScript Object Notation),也就是JSON,作为文档序列化格式。JSON现在已经被大多语言所支持,而且已经成为NoSQL领域的标准格式。它简洁、简单且容易阅读。

以下使用JSON文档来表示一个用户对象:

  1. {
  2. "email": "john@smith.com",
  3. "first_name": "John",
  4. "last_name": "Smith",
  5. "info": {
  6. "bio": "Eco-warrior and defender of the weak",
  7. "age": 25,
  8. "interests": [ "dolphins", "whales" ]
  9.   },
  10. "join_date": "2014/05/01"
  11. }

尽管原始的 user  对象很复杂,但它的结构和对象的含义已经被完整的体现在JSON中了,在Elasticsearch中将对象转化为JSON并做索引要比在表结构中做相同的事情简单的多。

开始第一步

我们现在开始进行一个简单教程,它涵盖了一些基本的概念介绍,比如索引(indexing)、搜索(search)以及聚合(aggregations)。通过这个教程,我们可以让你对Elasticsearch能做的事以及其易用程度有一个大致的感觉。

我们接下来将陆续介绍一些术语和基本的概念,但就算你没有马上完全理解也没有关系。我们将在本书的各个章节中更加深入的探讨这些内容。

所以,坐下来,开始以旋风般的速度来感受Elasticsearch的能力吧!

让我们建立一个员工目录

假设我们刚好在Megacorp工作,这时人力资源部门出于某种目的需要让我们创建一个员工目录,这个目录用于促进人文关怀和用于实时协同工作,所以它有以下不同的需求:

  • 数据能够包含多个值的标签、数字和纯文本。
  • 检索任何员工的所有信息。
  • 支持结构化搜索,例如查找30岁以上的员工。
  • 支持简单的全文搜索和更复杂的短语(phrase)搜索
  • 高亮搜索结果中的关键字
  • 能够利用图表管理分析这些数据

索引员工文档

我们首先要做的是存储员工数据,每个文档代表一个员工。在Elasticsearch中存储数据的行为就叫做索引(indexing),不过在索引之前,我们需要明确数据应该存储在哪里。

在Elasticsearch中,文档归属于一种类型(type),而这些类型存在于索引(index)中,我们可以画一些简单的对比图来类比传统关系型数据库:

  1. Relational DB -> Databases -> Tables -> Rows -> Columns
  2. Elasticsearch -> Indices -> Types -> Documents -> Fields

Elasticsearch集群可以包含多个索引(indices)(数据库),每一个索引可以包含多个类型(types)(表),每一个类型包含多个文档(documents)(行),然后每个文档包含多个字段(Fields)(列)。

「索引」含义的区分

你可能已经注意到索引(index)这个词在Elasticsearch中有着不同的含义,所以有必要在此做一下区分:

  • 索引(名词) 如上文所述,一个索引(index)就像是传统关系数据库中的数据库,它是相关文档存储的地方,index的复数是indices 或indexes。
  • 索引(动词) 「索引一个文档」表示把一个文档存储到索引(名词)里,以便它可以被检索或者查询。这很像SQL中的 INSERT  关键字,差别是,如果文档已经存在,新的文档将覆盖旧的文档。
  • 倒排索引 传统数据库为特定列增加一个索引,例如B-Tree索引来加速检索。Elasticsearch和Lucene使用一种叫做倒排索引(inverted index)的数据结构来达到相同目的。

默认情况下,文档中的所有字段都会被索引(拥有一个倒排索引),只有这样他们才是可被搜索的。

我们将会在倒排索引章节中更详细的讨论。

所以为了创建员工目录,我们将进行如下操作:

  • 为每个员工的文档(document)建立索引,每个文档包含了相应员工的所有信息。
  • 每个文档的类型为 employee  。
  • employee  类型归属于索引 megacorp  。
  • megacorp  索引存储在Elasticsearch集群中。

实际上这些都是很容易的(尽管看起来有许多步骤)。我们能通过一个命令执行完成的操作:

  1. PUT /megacorp/employee/1
  2. {
  3. "first_name" : "John",
  4. "last_name" : "Smith",
  5. "age" : 25,
  6. "about" : "I love to go rock climbing",
  7. "interests": [ "sports", "music" ]
  8. }

我们看到path: /megacorp/employee/1  包含三部分信息:

名字 说明
 megacorp  索引名
 employee  类型名
 1  这个员工的ID

请求实体(JSON文档),包含了这个员工的所有信息。他的名字叫“John Smith”,25岁,喜欢攀岩。

很简单吧!它不需要你做额外的管理操作,比如创建索引或者定义每个字段的数据类型。我们能够直接索引文档,Elasticsearch已经内置所有的缺省设置,所有管理操作都是透明的。

接下来,让我们在目录中加入更多员工信息:

  1. PUT /megacorp/employee/2
  2. {
  3. "first_name" : "Jane",
  4. "last_name" : "Smith",
  5. "age" : 32,
  6. "about" : "I like to collect rock albums",
  7. "interests": [ "music" ]
  8. }
  9.  
  10. PUT /megacorp/employee/3
  11. {
  12. "first_name" : "Douglas",
  13. "last_name" : "Fir",
  14. "age" : 35,
  15. "about": "I like to build cabinets",
  16. "interests": [ "forestry" ]
  17. }

检索文档

现在Elasticsearch中已经存储了一些数据,我们可以根据业务需求开始工作了。第一个需求是能够检索单个员工的信息。

这对于Elasticsearch来说非常简单。我们只要执行HTTP GET请求并指出文档的“地址”——索引、类型和ID既可。根据这三部分信息,我们就可以返回原始JSON文档:

  1. GET /megacorp/employee/1

响应的内容中包含一些文档的元信息,John Smith的原始JSON文档包含在 _source  字段中。

  1. {
  2. "_index" : "megacorp",
  3. "_type" : "employee",
  4. "_id" : "1",
  5. "_version" : 1,
  6. "found" : true,
  7. "_source" : {
  8. "first_name" : "John",
  9. "last_name" : "Smith",
  10. "age" : 25,
  11. "about" : "I love to go rock climbing",
  12. "interests": [ "sports", "music" ]
  13. }
  14. }

我们通过HTTP方法 GET  来检索文档,同样的,我们可以使用 DELETE  方法删除文档,使用 HEAD  方法检查某文档是否存在。如果想更新已存在的文档,我们只需再 PUT  一次。

简单搜索

GET  请求非常简单——你能轻松获取你想要的文档。让我们来进一步尝试一些东西,比如简单的搜索!

我们尝试一个最简单的搜索全部员工的请求:

  1. GET /megacorp/employee/_search

你可以看到我们依然使用 megacorp  索引和 employee  类型,但是我们在结尾使用关键字 _search  来取代原来的文档ID。响应内容的 hits  数组中包含了我们所有的三个文档。默认情况下搜索会返回前10个结果。

  1. {
  2. "took": 6,
  3. "timed_out": false,
  4. "_shards": {...
  5. },
  6. "hits": {
  7. "total": 3,
  8. "max_score": 1,
  9. "hits": [{
  10. "_index": "megacorp",
  11. "_type": "employee",
  12. "_id": "3",
  13. "_score": 1,
  14. "_source": {
  15. "first_name": "Douglas",
  16. "last_name": "Fir",
  17. "age": 35,
  18. "about": "I like to build cabinets",
  19. "interests": ["forestry"]
  20. }
  21. },
  22. {
  23. "_index": "megacorp",
  24. "_type": "employee",
  25. "_id": "1",
  26. "_score": 1,
  27. "_source": {
  28. "first_name": "John",
  29. "last_name": "Smith",
  30. "age": 25,
  31. "about": "I love to go rock climbing",
  32. "interests": ["sports", "music"]
  33. }
  34. },
  35. {
  36. "_index": "megacorp",
  37. "_type": "employee",
  38. "_id": "2",
  39. "_score": 1,
  40. "_source": {
  41. "first_name": "Jane",
  42. "last_name": "Smith",
  43. "age": 32,
  44. "about": "I like to collect rock albums",
  45. "interests": ["music"]
  46. }
  47. }]
  48. }
  49. }

接下来,让我们搜索姓氏中包含“Smith”的员工。要做到这一点,我们将在命令行中使用轻量级的搜索方法。这种方法常被称作查询字符串(query string)搜索,因为我们像传递URL参数一样去传递查询语句:

  1. GET /megacorp/employee/_search?q=last_name:Smith

我们在请求中依旧使用 _search  关键字,然后将查询语句传递给参数 q=  。这样就可以得到所有姓氏为Smith的结果:

  1. {...
      "hits": {
  2. "total": 2,
  3. "max_score": 0.30685282,
  4. "hits": [
           {...
             "_source": {
  5.   "first_name": "John",
  6.   "last_name": "Smith",
  7.   "age": 25,
  8.   "about": "I love to go rock climbing",
  9.   "interests": ["sports", "music"]
  10.   }
  11.   },
  12.   {...
             "_source": {
  13.   "first_name": "Jane",
  14.   "last_name": "Smith",
  15.   "age": 32,
  16.   "about": "I like to collect rock albums",
  17.   "interests": ["music"]
  18.   }
  19.   }]
  20. }
  21. }

使用DSL语句查询

查询字符串搜索便于通过命令行完成特定(ad hoc)的搜索,但是它也有局限性(参阅简单搜索章节)。Elasticsearch提供丰富且灵活的查询语言叫做DSL查询(Query DSL),它允许你构建更加复杂、强大的查询。

DSL(Domain Specific Language特定领域语言)以JSON请求体的形式出现。我们可以这样表示之前关于“Smith”的查询:

  1. GET /megacorp/employee/_search
  2. {
  3. "query" : {
  4. "match" : {
  5. "last_name" : "Smith"
  6. }
  7. }
  8. }

这会返回与之前查询相同的结果。你可以看到有些东西改变了,我们不再使用查询字符串(query string)做为参数,而是使用请求体代替。这个请求体使用JSON表示,其中使用了 match  语句(查询类型之一,具体我们以后会学到)。

更复杂的搜索

我们让搜索稍微再变的复杂一些。我们依旧想要找到姓氏为“Smith”的员工,但是我们只想得到年龄大于30岁的员工。我们的语句将添加过滤器(filter),它使得我们高效率的执行一个结构化搜索:

  1. GET /megacorp/employee/_search
  2. {
  3. "query" : {
  4. "filtered" : {
  5. "filter" : {
  6. "range" : {
  7. "age" : { "gt" : 30 } <1>
  8. }
  9. },
  10. "query" : {
  11. "match" : {
  12. "last_name" : "smith" <2>
  13. }
  14. }
  15. }
  16. }
  17. }
  • <1> 这部分查询属于区间过滤器(range filter),它用于查找所有年龄大于30岁的数据—— gt  为"greater than"的缩写。
  • <2> 这部分查询与之前的 match  语句(query)一致。

现在不要担心语法太多,我们将会在以后详细的讨论。你只要知道我们添加了一个过滤器(filter)用于执行区间搜索,然后重复利用了之前的 match  语句。现在我们的搜索结果只显示了一个32岁且名字是“Jane Smith”的员工:

  1. {
  2.   ...
  3.   "hits": {
  4.     "total": 1,
  5.     "max_score": 0.30685282,
  6.     "hits": [
  7.       {
  8.         ...
  9.         "_source": {
  10.           "first_name": "Jane",
  11.           "last_name": "Smith",
  12.           "age": 32,
  13.           "about": "I like to collect rock albums",
  14.           "interests": [ "music" ]
  15.         }
  16.       }
        ]
  17.   }
  18. }

全文搜索

到目前为止搜索都很简单:搜索特定的名字,通过年龄筛选。让我们尝试一种更高级的搜索,全文搜索——一种传统数据库很难实现的功能。

我们将会搜索所有喜欢“rock climbing”的员工:

  1. GET /megacorp/employee/_search
  2. {
  3.   "query" : {
  4.     "match" : {
  5.       "about" : "rock climbing"
  6.     }
  7.   }
  8. }

原文:https://es.xiaoleilu.com/

PDF:https://pan.baidu.com/s/1o8MbG7o

Elasticsearch 快速入门教程的更多相关文章

  1. 专为设计师而写的GitHub快速入门教程

    专为设计师而写的GitHub快速入门教程 来源: 伯乐在线 作者:Kevin Li     原文出处: Kevin Li 在互联网行业工作的想必都多多少少听说过GitHub的大名,除了是最大的开源项目 ...

  2. EntityFramework6 快速入门教程

    EntityFramework6 快速入门教程 不得不说EF在国内实在是太小众,相关的技术文章真实屈指可数,而且很多文章都很旧了,里面使用的版本跟如今的EF6差别还是比较大.我刚开始弄这个的时候真是绕 ...

  3. Apple Watch开发快速入门教程

     Apple Watch开发快速入门教程  试读下载地址:http://pan.baidu.com/s/1eQ8JdR0 介绍:苹果为Watch提供全新的开发框架WatchKit.本教程是国内第一本A ...

  4. 指示灯组与3个复位按钮的介绍Arduino Yun快速入门教程

    指示灯组与3个复位按钮的介绍Arduino Yun快速入门教程 1.4.2  指示灯组 指示灯组的放大图如图1.5所示. 图1.5  指示灯组 各个指示灯对应的功能如下: q  RX:对应于0号端口, ...

  5. 游戏控制杆OUYA游戏开发快速入门教程

    游戏控制杆OUYA游戏开发快速入门教程 1.2.2  游戏控制杆 游戏控制杆各个角度的视图,如图1-4所示,它的硬件规格是本文选自OUYA游戏开发快速入门教程大学霸: 图1-4  游戏控制杆各个角度的 ...

  6. Query 快速入门教程

    Query 快速入门教程 http://www.365mini.com/page/jquery-quickstart.htm#what_is_jquery jquery常用方法及使用示例汇总 http ...

  7. Realm for Android快速入门教程

    介绍 如果你关注安卓开发的最新趋势,你可能已经听说过Realm.Realm是一个可以替代SQLite以及ORMlibraries的轻量级数据库. 相比SQLite,Realm更快并且具有很多现代数据库 ...

  8. CMake快速入门教程-实战

    http://www.ibm.com/developerworks/cn/linux/l-cn-cmake/ http://blog.csdn.net/dbzhang800/article/detai ...

  9. .NET Core 快速入门教程

    .NET Core 快速学习.入门系列教程.这个入门系列教程主要跟大家聊聊.NET Core的前世今生,以及Windows.Linux(CentOS.Ubuntu)基础开发环境的搭建.第一个.NET ...

随机推荐

  1. C#通过用户名与密码访问共享目录

    C#通过用户名与密码访问共享目录 using System; using System.Collections.Generic; using System.Linq; using System.Tex ...

  2. Spring的两种代理方式:JDK动态代理和CGLIB动态代理

    代理模式 代理模式的英文叫做Proxy或Surrogate,中文都可译为”代理“,所谓代理,就是一个人或者一个机构代表另一个人或者另一个机构采取行动.在一些情况下,一个客户不想或者不能够直接引用一个对 ...

  3. [转]Mybatis foreach 批量操作

    原文地址:https://blog.csdn.net/jason5186/article/details/40896043 foreach属性属性    描述item    循环体中的具体对象.支持属 ...

  4. Spark性能优化指南——基础篇

    本文转自:http://tech.meituan.com/spark-tuning-basic.html 感谢原作者 前言 在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一 ...

  5. 手机配置代理报错invalid host header

    手机配置代理后浏手机弹出页面报错invalid host header,因为我是用fiddler配置的,所以这时候就要看下自己配置完之后,是否重启,重启之后就没问题了. fiddle配置参考:http ...

  6. 目前我对ReactNative的了解

    1.什么是React? 一个js组件库,不同于angular的是一个完整的framework,React需要像jQuery一样写事件监听逻辑,最大特点是Virtual DOM. 官网:https:// ...

  7. SpringBoot------ActiveMQ安装

    1.官网下载地址 http://activemq.apache.org/activemq-5156-release.html springboot文档 https://docs.spring.io/s ...

  8. 内存(RAM或ROM)和FLASH存储的真正区别总结

    转载自:http://blog.csdn.net/liangkaiyang/article/details/59556531.什么是内存     什么是内存呢?在计算机的组成结构中,有一个很重要的部分 ...

  9. MySQL 在高并发下的 订单撮合 系统使用 共享锁 与 排他锁 保证数据一致性

    作者:林冠宏 / 指尖下的幽灵 掘金:https://juejin.im/user/587f0dfe128fe100570ce2d8 博客:http://www.cnblogs.com/linguan ...

  10. C# Aspose.Cells.dll Excel操作总结

    简介 Aspose.Cells是一款功能强大的 Excel 文档处理和转换控件,不依赖 Microsoft Excel 环境,支持所有 Excel 格式类型的操作. 下载 Aspose.Cells.d ...