ElasticSearch 入门介绍
tags: 第三方 lucene
[toc]
1. what Elastic Search(ES)是什么
全文检索和lucene
全文检索
优点:高效,准确,分词
全文检索允许用户输入一些关键字,从数据层中查找到所需要的信息
- 全文检索和数据库"LIKE"语句相比,远比数据库的开销小,因为检索过程全部从通过检索文件完成,因此效率非常高。
- 在全文检索领域,用户输入的搜索信息叫做关键字,而全文检索系统把海量信息按照这些关 键字进行结构化处理,把文章打散成段落、文字,最后,按关键字对文章的数据进行分类。这个处理后的数据文本叫做检索文件,检索文件往往比实际数据小得多,但它的数据所包含的信息量损失却非常小。当用户输入一个关键字时,全文检索引擎可以很快地定位到相关文本。
lucene
lucene是一个是一个开源的全文检索引擎库,Apache基金会赞助项目.无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库(《Elastic Search 权威指南》)。lucene有很多优点,包括:它的文本分析器可以定制,检索文件存储方式可以定制,查询引擎也有不同的可选方案.此外,它提供一套非常强大的API接口,使客户用起来很方便.
Elastic Search
lucene是一个非常强大的全文检索引擎库,但是遗憾的是,它是一个库,想要使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用中,更糟糕的是,Lucene非常复杂,你需要深入了解检索的相关知识来理解它是如何工作的。
Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。
2. why 为什么选择ES,ES有什么优点
- ES以Lucene为核心实现了索引和搜索功能,它拥有着全文搜索的优点,准确高效的查询和分词处理数据源。
- ES封装了Lucene,对用户隐藏了Lucene的复杂知识,用户只需要了解ES提供的RESTful API就可以使用全文检索而不需要去了解Lucene的众多基本知识
- ES是一个单独的程序,通过http请求就可以操作,两个不同的项目可以同时使用访问ES
- ES支持分布式,可以扩展到上百台服务器,处理PD级结构化或者非结构话数据。
3. when or where什么地方使用elastic
- 字段文本量较大会比较大,用数据库的like效率会明显感觉出来
- 模糊查询时候需要对关键词进行分词而不是只是简单的匹配
4. how 如何使用ES
1.ES的安装
ES的安装很简单,即装即用.去官网下载ES下载地址,在任何配置了java运行环境的电脑上后将压缩文件解压缩即可.
解压后进入解压下的bin文件夹,启动elasticserach.bat(windows系统),如下:
启动后进入cmd窗口,如下图所示即成功启动:
然后我们打开浏览器访问以下ES,输入http:localhost:9200,如下即为成功运行:
2. ES数据存储的介绍
ES是数据存储是面向文档的,数据的存储形式是以对象的形式(JSON)来存储的,而不是像关系型数据库一样把数据抽象一行行记录去适应数据库.同时在存储的时候,ES还会索引每条数据内容使得每条内容可以被搜索.
ES存储的相关概念与传统关系型数据库的对比:
其中的fields(字段)就相当于关系型数据库的列;多个字段组成一个Document(文档)相当于关系型数据库的行(一条数据);相同类型的Documents组成一个type(类型),相当于关系型数据库的一张数据表;而多个types就会组成一个index(索引),相当于关系型数据的数据库.关系对应如下:
Relational DB -> Databases -> Tables -> Rows -> Columns
Elasticsearch -> Indices -> Types -> Documents -> Fields
1. index
index的两个概念介绍:
- 索引(名词) 如上文所述,一个索引(index)就像是传统关系数据库中的数据库,它是相关文档存储的地方,index的复数是indices 或indexes。
- 索引(动词) 「索引一个文档」表示把一个文档存储到索引(名词)里,以便它可以被检索或者查询。这很像SQL中的INSERT关键字,差别是,如果文档已经存在,新的文档将覆盖旧的文档。
2.index,type的建立
ES对提供的REST ful接口,任何对数据的操作和查询都可以通过想ES发送HTTP请求来完成.关于RESTful协议的相关知识可以参照一下RESTful API 设计指南,了解一下RESTful协议能共更容易理解ES提供的接口.
现在我们要建立一个所以,按照ES提供的RESTful接口,我们应该对ES发一个PUT请求,如下:
需要注意的是index名字里的字母都必须是小写.
如果成功,我们会获取如下的返回结果:
{
"acknowledged": true
}
然后我们再向ES发送GET请求,来获取我们刚刚创建的testindex的属性:
结果如下:
{
"testindex": {
"aliases": {},
"mappings": {},
"settings": {
"index": {
"creation_date": "1465748163064",
"uuid": "uYyeZC_bQ1Olwe8lDrqXaw",
"number_of_replicas": "1",
"number_of_shards": "5",
"version": {
"created": "2030399"
}
}
},
"warmers": {}
}
}
相关的tpye,document最简单的增删查改也都可以通过PUT GET POST DELET 几个常用的请求来完成,这里就不做详细的介绍了,详细的可以查看ElasticSearch权威指南中文版了解一下.
3.mapping
mapping可以理解为描述index/type以及field的元数据,通过mapping我们可以来设置index/type/field.
单独的生成或者更新type的mappiing
{
"properties": {
"activateTiem": {
"type": "date",
"format": "yyyy-MM-dd"
},
"title": {
"type": "string",
"boost": 10,
"store": true,
"analyzer": "ik"
}
}
}
参考文档:更新mapping
通常我们需要在构建mapping的时候来设置一些常用的属性,主要是包括字段的类型,是否被分词,分词使用的分词器,分词时候自己所占的比重等,如下:
- type:类型,包括date,string,boolean,integer等,跟常用的类型跟java很相似,同时也有array类型可以直接存储数组.
- analyzer: 分词器,这个属性会决定你在索引和查找阶段所使用的分词器;如果没有特别指出,analyzer定义的分词器可以用在索引和查找阶段.也可以单独通过search_analyzer来指定作为查找时的分词器.
- boost:这个属性会决定你在分词的时候该字段的权重,在搜索的时候,默认会按照每条数据的评分来进行排序,而这个权重就会用基础得分*权重来决定最后的得分.
- format:当数据类型是date的时候,通过format来设置时间的格式
其余的更多的类型可以参考官方文档mapping
3 ES的索引过程
ES为了能够更好的进行查询,在保存数据之前,都会对数据进行索引(动词),那么在这个所以过程里面,ES都做了什么?
a. 文档分析(analysis)
ES会对文档进行一系列的操作和处理,是他们能够更容易被搜索.它包括如下的几个过程:
字符过滤器(character filter)处理
字符过滤器的主要工作室对原始数据的特殊字符进行过滤和处理,比如去除掉文档中的html标签,把&变成单词"and"等等
分词器(tokenizer)处理
所谓的分词器就是指某种算法,这个算法会按照自己的对文档(经过字符过滤器处理过的文档)进行处理,提取若干的单词,这些被提取出来的单词就成为词元(Token),顾名思义,这些词元已经是最小的不能分割了.
标记过滤(token filters)处理
标记过滤(token filters)会对词元(Token)进行进一步的处理,处理细节包括一些将单词的大写变成小写、去除英语中的连词或者介词(to,for,of等)、去除汉语中的语气词等、进一步保证最后剩下的单词都是有明确的自然语义的词,这些剩下的单词就被称作词(term)
到此整个文档分析阶段就结束了
b.倒排索引
Elasticsearch使用一种叫做倒排索引(inverted index)的结构来做快速的全文搜索。倒排索引由在文档中出现的唯一的单词列表,以及对于每个单词在文档中的位置组成。
分词结束后,es会根据分词的结果词(term)构建出一个倒序索引用于快速查询.
c.相关度评分
在索引阶段es做的另一件事就是计算不同词(term)在不同文档中的相关度评分,这个评分会用在之后查询时候的查询结果的排序上,默认的会将相关度较高的文档排在最前面
4查询的简单介绍
a.URL控制的简单查询(通过GET请求中的URL参数控制)
1.空查询
当我们需要查询的时候,最简单的,我们可以向ES发送一个get请求,构造一个查询的url,如下
默认的,会ES会发挥my_index下的所有数据,如果数据过多ES会自动进行分页处理显示一部分数据(默认是10个).会返回如下形式的结果:
{
"took": 62,
"timed_out": false,
"_shards": {
"total": 5,
"successful": 5,
"failed": 0
},
"hits": {
"total": 1,
"max_score": 1,
"hits": [
{
"_index": "my_index",
"_type": "my_type",
"_id": "1",
"_score": 1,
"_source": {
"title": "Some short title",
"date": "2015-01-01",
"content": "A very long content field..."
}
}
]
}
}
2.分页查询
如果我们需要分页功能,就需要在get请求的url中加入size和from俩个参数,size表示分页大小,from表示开始位置,如下:
3.模糊查询
如果需要模糊查询,可以在URL参数中附加一个q(query的意思)参数,如下:
GET http://localhost:9200/my_index/_search?q=title:Some
意思是查询my_index下title中包含"Some"的数据.
b.结构体查询(构造json格式的body进行查询)
通过URL参数控制,我们只能进行一下简单的查询,但是在实际过程中,我们通产的查询条件都要更加复杂,这时候我们就需要使用另一种适用于复杂查询的方式--结构体查询.
按照rest ful协议,我们也是应该想ES发送GET请求来获取ES中的数据,但是在日常开发中,很多地方都不允许在GET请求上附加body数据,因此ES中我们也可以通过POST来获取ES中的数据.发送POST请求的时候,除了请求方式之外,URL和数据体body都跟GET的完全相同(以下都以POST请求为例)
1.body常用属性
query
query部分是查询的核心部分,提供了包括模糊查询,精确过滤,多查询条件联合的复杂查询模式.例如:{
"query": {
"bool": {
"must": [
{ "match": { "title": "Search" }},
{ "match": { "content": "Elasticsearch" }}
],
"filter": [
{ "term": { "status": "published" }}
]
}
}
}上面的body的大意是要搜索title中即包含"search"并且content中包含"elasticsearch",同时status为"published"数据.关于query有专门的queryDSL来规定query的形式,在后面文档中会介绍.
from/size 分页
from/size与url中相同,同样是用来进行分页的参数,如下:{
"from" : 0, "size" : 10,
"query" : {
"term" : { "user" : "kimchy" }
}
}sort 排序
sort部分会按照给定的规则对搜索结果进行排序,如{
"sort" : [
{ "post_date" : {"order" : "asc"}},
{ "price" : {"order" : "asc"}}
],
"query" : {
"term" : { "user" : "kimchy" }
}
}如上,sort会优先按照post_date进行正序排序,当post_date相同的时候在按照price进行正序排序.特别的在日常的查询中,查询结果通常都会有相关的_scroe评分,默认的,ES会按照_score对搜索结果进行性倒叙排序,是的相关度最高的文档在最前方显示.
fields
fields字段会对文档进行过滤,是查询结果只返回指定的字段,例如:
当不是用fields字段的时候,body如下:{
"query":{
"match":{"title":"some"}
}
}查询的返回结果默认的会包含所有保存的字段:
{
"_index": "my_index",
"_type": "my_type",
"_id": "1",
"_score": 0.15342641,
"_source": {
"title": "Some short title",
"date": "2015-01-01",
"content": "A very long content field..."
}
}当我们使用fields的时候,body如下:
{
"fields":["title"],
"query":{
"match":{"title":"some"}
}
}返回结果的数据部分指挥显示title字段:
{
"_index": "my_index",
"_type": "my_type",
"_id": "1",
"_score": 0.15342641,
"fields": {
"title": [
"Some short title"
]
}
}highlight
highlight部分用来控制搜索结果的高亮显示.很多时候,当我们进行全文检索的时候都会对搜索结果中的搜索关键字进行高亮以突出显示,这时候就需要用到highlight,如发送如下body的请求:{ "query":{
"match":{"title":"some"}
},
"highlight" : {
"pre_tags" : ["<b>"], //设置高亮的前 后html标签
"post_tags" : ["</b>"],
"fields" : {
"title" : {}
}
}
}在返回的数据部分,我们会得到高亮的字段,如下
{
"_index": "my_index",
"_type": "my_type",
"_id": "1",
"_score": 0.15342641,
"_source": {
"title": "Some short title",
"date": "2015-01-01",
"content": "A very long content field..."
},
"highlight": {
"title": [
"<b>Some</b> short title" //这里是高亮显示的关键字
]
}
}
2. query
ES的主要任务是通过全文搜索引擎进行全文搜索,在ES提供的接口中,这部分任务主要由请求体中的query部门来完成的.而query DSL就是来解释query的用法.
ElasticSearch 入门介绍的更多相关文章
- ElasticSearch入门介绍之安装部署(二)
散仙,在上篇文章对ElasticSearch整体入门作了个介绍,那么本篇我们来看下,如何安装,部署es,以及如何安装es的几个比较常用的插件. es的安装和部署,是非常简单方便的,至少这一点散仙在es ...
- ElasticSearch入门介绍一
ElasticSearch 关于es的几个概念: 集群:多个运行es节点可以组成一个集群,它们拥有相同的cluster.name. 节点:运行es的实例 索引:相当于数据库database,一个集群可 ...
- ElasticSearch入门介绍之会当凌绝顶(一)
ElasticSearch也是一款非常优秀的开源的全文检索框架,以大名鼎鼎的Apache Lucene为基础,高度封装了更丰富,易用的API,同时与Apache Solr一样,提供了非常强大的分布式集 ...
- Elasticsearch入门介绍
ES是一个高扩展的.开源的.全文检索的搜索引擎,它提供了近实时的索引.搜索.分析功能. ES文档翻译与总结参考:ES知识汇总 应用场景 1 它提供了强大的搜索功能,可以实现类似百度.谷歌等搜索. 2 ...
- ElasticSearch入门知识扫盲
ElasticSearch 入门介绍 tags: 第三方 lucene [toc] 1. what Elastic Search(ES)是什么 全文检索和lucene 全文检索 优点:高效,准确,分词 ...
- 《读书报告 -- Elasticsearch入门 》--简单使用(2)
<读书报告 – Elasticsearch入门 > ' 第四章 分布式文件存储 这章的主要内容是理解数据如何在分布式系统中存储. 4.1 路由文档到分片 创建一个新文档时,它是如何确定应该 ...
- ElasticSearch入门 附.Net Core例子
1.什么是ElasticSearch? Elasticsearch是基于Lucene的搜索引擎.它提供了一个分布式,支持多租户的全文搜索引擎,它具有HTTP Web界面和无模式JSON文档. Elas ...
- Elasticsearch Elasticsearch入门指导
Elasticsearch入门指导 By:授客 QQ:1033553122 1. 开启elasticsearch服务器 1 2. 基本概念 2 <1> 集群(Cluster) 2 < ...
- ElasticSearch 入门
http://www.oschina.net/translate/elasticsearch-getting-started?cmp ElasticSearch 简单入门 返回原文英文原文:Getti ...
随机推荐
- android 7.0适配(总结)
file_paths.xml <?xml version="1.0" encoding="utf-8"?><paths xmlns:andro ...
- PHP培训教程 php生成WAP页面
WAP(无线通讯协议)是在数字移动电话.个人手持设备(PDA等)及计算机之间进行通讯的开放性全球标准.由于静态的WAP页面在很多方面不能满足用户个性化的服务请求,因此通过WAP服务器端语言产生动态的W ...
- Spring——简介
学习网站: [1]http://spring.io/ [2]http://projects.spring.io/spring-framework/ Spring是为解决企业应用开发的复杂性而创建的,是 ...
- luogu P1147 连续自然数和 x
P1147 连续自然数和 题目描述 对一个给定的自然数M,求出所有的连续的自然数段,这些连续的自然数段中的全部数之和为M. 例子:1998+1999+2000+2001+2002 = 10000,所以 ...
- cs231n assignment1 KNN
title: cs231n assignment1 KNN tags: - KNN - cs231n categories: - 机器学习 date: 2019年9月16日 17:03:13 利用KN ...
- APK文件结构和安装过程
APK文件结构Android应用是用Java编写的,利用Android SDK编译代码,并且把所有的数据和资源文件打包成一个APK (Android Package)文件,这是一个后缀名为.apk的压 ...
- Android环境配置之正式版AndroidStudio1.0
昨天看见 Android Studio 1.0 正式版本发布了:心里挺高兴的. 算是忠实用户了吧,从去年开发者大会一开始出现 AS 后就开始使用了:也是从那时开始就基本没有用过 Eclipse 了:一 ...
- D. White Lines
D. White Lines 给定一个$n\times n$的$WB$矩阵,给定一个$k*k$的能把$B$变成$W$的橡皮擦,求橡皮擦作用一次后,全为$W$的行.列总数最大值 前缀和差分 #inclu ...
- 我用HTML写简历
本文属于原创文章,转载请注明--来自桃源小盼的博客 起因 每次换工作写简历都是有点痛苦的事情,尤其是下载word模板,各种注册流程,有的还得买积分,冲会员,甚是不爽.就算下载好了,修改其中的一些细节也 ...
- linux中表示系统信息如cpu mem disk等内容都在 /proc
linux中表示系统信息的 内容都在 /proc 要查看系统的任何信息, 如cpu mem 磁盘等等, 都在 /proc下, 如: cpuinfo ,meminfo diskstatus 等等