写在前面

要做个元数据服务，包括存储和查询。元数据除了一些基本字段外，其他格式是自由的，存储输入为一个JSON形式。比如下面是一个文件对象的元数据：

{
    "name":"myfile",
    "type":"file",
    "user":"ubuntu"
    "path":"node00:/path/to/file"
}

而下面这个是表示数据表的元数据：

{
    "name":"mytable",
    "type":"table",
    "user":"ubuntu"
    "location":"node00:mysqldb.table_fake",
    "schema":["name","age","address"]
}

由于输入格式可变且以JSON形式表示，虽然系统内有类型定义，说明了各个字段的取值类型，但是一些如LIST或者OBJECT之类勉强使用MySQL还是挺累得（需要手动编写代码映射到具体表上的字段）。这从本质上来说JSON对象输入是层次形式的，而关系型数据如MySQL中的数据表式二维平面形式的。

如果单做key-value存储的话使用MongoDB感觉会非常好，完全的schema free，并且也支持一些基本的查询。但是这个元数据服务还要提供一个搜索功能，通常实现这种搜索功能都是比较烦人的事情，尤其是要支持那些模糊查询。一般来说模糊查询想在大规模数据集上取得比较好的查询效率的话，都是需要建立倒排索引的。这方面MongoDB也是支持的，不过后来使用的ElasticSearch它的查询功能就显的比较弱。其实一开始我是拒绝的，感觉ES就是个做搜索的，相对来说不适合做类似业务存储这类实时性要求比较高的存储。不过它提供的搜索过滤和聚集统计功能真的非常爽，再也不用费尽力去写那些查询组合的SQL了。但在数据存储方面确实比MongoDB烦很多。

索引层次

任何查询要提供比暴力搜索好的性能，都需要用到索引，ES当然是不能例外的。而ES中的名称Index和我们所说的索引有些不同，它表示的是一系列字段的索引集合，而不是不是某个字段上的单个索引。因为ES的存储是面向文档的，它的Index意为对文档建立的索引。ES的Index下面可以有不同的Type，对应不同的文档类型。

数据映射

不同的文档类型(Type)可以配套的有一个mapping，负责把输入的JSON中的数据映射为指定的类型。这个过程默认是自动进行的。比如输入以下数据

{"name":"ip-tables", "description":"linux firewall", "version":4}

那么name和description字段自动被判别为字符串类型并会进行分词倒排，而version则是整数类型，可以通过api来查询当前索引的mappings

$ curl  -XPOST '10.214.208.138:9200/mass/demo' -d'{"name":"ip-tables","description":"linux firewall", "version":4}'
$ curl  '10.214.208.138:9200/mass/_mappings?pretty'
{
  "mass" : {
    "mappings" : {
      "demo" : {
        "properties" : {
          "description" : {
            "type" : "string"
          },
          "name" : {
            "type" : "string"
          },
          "version" : {
            "type" : "long"
          }
        }
      }
    }
  }
}

自定义mapping

除了通过提交json数据可以生成mapping外，还可以人为预先的指定。

$ curl  -XDELETE '10.214.208.138:9200/mass'
$ curl  -XPOST '10.214.208.138:9200/mass'
$ curl  -XPUT '10.214.208.138:9200/mass/_mappings/fruit' -d'{"fruit":{"properties":{"name":{"type":"string", "index":"not_analyzed"}}}}'

分词控制

有些字段虽然是文本类型但我们却不想使用分词过程，因为只会进行一些精确查询比如一些枚举字段。可以指定index:not_analyzed。

忽略字段

其实这个功能我当时找了半天，因为有这样的需求，对JSON字段中的某些元数据只进行存储即可，不需要进行索引和查询。而ES默认会把它看到的所有字段都建立映射，挺烦人的。可以通过配置索引字段的dynamic参数实现，当其为false时忽略那些在已有mapping中没有相应映射规则的字段，不过这个文档还是会被存储到_source字段中，当其为true时会进行自动的类型映射并更新当前的mapping，还可以指定为strict此时如果提交的和预先设定的mapping不一致则拒绝提交。

ElasticSearch 使用小结的更多相关文章

Elasticsearch使用小结之冷热分离
Elasticsearch使用小结之冷热分离索引迁移索引setting中的index.routing.allocation.exclude和index.routing.allocation.inc ...
ElasticSearch使用小结
最近有个业务需求,即全文搜索关键字查询列表,因而转向ES的学习,也学习了大半个月了,做个笔记,总结下自己的学习历程. 独自学习一项新技术,总是难免走不少弯路的,在此推荐下ES的基础教程,对,好好学习官 ...
ES使用小结之索引Rollover
Elasticsearch 使用小结之索引Rollover 索引名一般而言,客户端将数据每天写入一个索引,比如直接写入YYYY-MM-HH格式的索引,那么我们只需要在写入的客户端里面获取时间,然后得 ...
Elasticsearch alias别名管理小结
Elasticsearch alias别名管理小结 By:授客 QQ:1033553122 建创测试数据 1 创建别名 2 移除别名 3 创建测试数据 4 批量操作 5 例1. 5 例2. 把多个索引 ...
面试小结之Elasticsearch篇(转)
最近面试一些公司,被问到的关于Elasticsearch和搜索引擎相关的问题,以及自己总结的回答. Elasticsearch是如何实现Master选举的? Elasticsearch的选主是ZenD ...
Elasticsearch全文检索实战小结
一.项目概述这是一个被我称之为“没有枪.没有炮,硬着头皮自己造”的项目.项目是和其它公司合作的三个核心模块开发. 使用ES的目的是: 1).采集数据.网站数据清洗后存入ES: 2).对外提供精确检索 ...
Elasticsearch学习笔记（七）document小结
一.生成document id 1.自动生成document id 自动生成的id,长度为20个字符,URL安全,base64编码,GUID,分布式系统并行生成时不可能 ...
面试小结之Elasticsearch篇
https://www.cnblogs.com/luckcs/articles/7052932.html
搜索引擎 ElasticSearch 之步步为营1 【环境搭建&初识ElasticSearch】
1.下载ElasticSearch a.下载Java环境JDK:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloa ...

随机推荐

我的AI之路 —— OCR文字识别快速体验版
OCR的全称是Optical Character Recoginition,光学字符识别技术.目前应用于各个领域方向,甚至这些应用就在我们的身边,比如身份证的识别.交通路牌的识别.车牌的自动识别等等. ...
[原创]K8_C段旁注查询工具5.0 30款国外主流CMS识别+智能识别未知CMS
8_C段旁注查询工具V5.0 20161214作者:K8拉登哥哥唯一QQ:396890445平台: Windows + .NET Framework 4.0 简介:K8_C段提供4种方式查询子域名 ...
POJ 2552
#include<iostream> #include<stdio.h> using namespace std; ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, ...
Python之Pyautogui模块20180125《PYTHON快速上手让繁琐的工作自动化》18章
复习 PyAutoGUI 的函数本章介绍了许多不同函数,下面是快速的汇总参考:moveTo(x,y)将鼠标移动到指定的 x.y 坐标.moveRel (xOffset,yOffset)相对于当前位置移 ...
Android_对android虚拟机的理解，包括内存管理机制垃圾回收机制。dalvik和art区别
虚拟机很小,空间很小,谈谈移动设备的虚拟机的大小限制 16M ,谈谈加载图片的时候怎么处理大图片的,outmemoryExceptionBitmapFactory.option 垃圾回收,没有引用的对 ...
全网最详细的启动或格式化zkfc时出现java.net.NoRouteToHostException: No route to host ... Will not attempt to authenticate using SASL (unknown error)错误的解决办法（图文详解）
不多说,直接上干货! 全网最详细的启动zkfc进程时,出现INFO zookeeper.ClientCnxn: Opening socket connection to server***/192.1 ...
企业域的冗余设计①：DHCP冗余设计（上）
在许多企业网络中,为了方便客户端IP地址的管理,通常采用的是自动获取的方式向DHCP服务器获得IP地址.为了保证DHCP服务器能够正常稳定地向客户端提供IP地址的租赁,DHCP服务器的冗余设计就显得格 ...
ubuntu 下配置elasticSearch
配置JAVA环境配置jdk 上官网下载x64的和ubuntu匹配的jdk 找到usr/java ,解压下载的文件 tar –xzvf 文件.tar.gz Vim /etc/source 添加配 ...
solr(三) : 导入数据库表数据
solr 除了能查询文档中的数据外, 还可以导入数据库中的数据. 也就是说, solr 能查询其他数据库中的数据(solr本身也是一个数据库, 非关系型的). 那接下来就试一下导入mysql数据库中的 ...
Maven 入门——Maven 的安装和配置
1.安装 Windows 环境 Maven 官网下载安装文件解压到指定目录配置环境变量(M2_HOME) cmd 输入 mvn -v Mac环境 brew install maven 配置环境变量 ...

ElasticSearch 使用小结