elasticsearch系列(一) 术语】的更多相关文章

elasticsearch(以下简称es)是一款开源的搜索引擎,基于apach lucene.最近在做nlp的时候顺便研究一下. 下面是官方列举的术语解释 Near Realtime 接近实时的查询,通常情况下,延迟在1s以内 Cluster 一个集群由1个或者多个节点组成,这些节点提供整个数据和索引,性能来源于每个节点.一个集群有一个唯一的名字,默认为"elasticsearch", Node 一个node启动的时候分配一个唯一的id(UUID),自动会加入名为"elast…
首先ES没有库和表的概念,只有index,type,document(详细术语可以看ES的系列一 http://www.cnblogs.com/ulysses-you/p/6736926.html),如果要加快理解的话,可以和一般关系型数据库做简单映射 下面是对这些概念的理解 Index 1.ES的index中shards相当于lucene的indices,而lucene的indices会拥有固定的磁盘空间,内容和文件描述,所以不能无脑新建ES的index,数据量大的1个index比多个小的in…
概述 score在ES中有着很重要的作用,有了它才有了rank,是验证文档相关性的关键数据,score越大代表匹配到的文档相关性越大 官方解释 查询的时候可以用explain来展示score的计算过程,也可以增加format=yaml来讲json转成yaml方便阅读 类似xxx/_search?explain&format=yaml 下图是通过explain看到的一部分json,其实这个解释中就展示出了计算公式,不得不说ES在这点上还是很人性化的 计算方式 常说的相关性是指计算一个全文(full…
官方定义 Elasticsearch 是一个实时的分布式搜索分析引擎, 它能让你以一个之前从未有过的速度和规模,去探索你的数据. 它被用作全文检索.结构化搜索.分析以及这三个功能的组合. Elasticsearch 也是使用 Java 编写的,它的内部使用 Lucene 做索引与搜索,但是它的目的是使全文检索变得简单, 通过隐藏 Lucene 的复杂性,取而代之的提供一套简单一致的 RESTful API.它可以被这样准备地形容: 一个分布式的实时文档存储,每个字段 可以被索引与搜索 一个分布式…
系列文章列表 Query DSL Query DSL 概要,MatchAllQuery,全文查询简述 Match Query Match Phrase Query 和 Match Phrase Prefix Query Multi Match Query Java Rest Client API Elasticsearch Java Rest Client API 整理总结 (一)--Document API Elasticsearch Java Rest Client API 整理总结 (二)…
Elasticsearch JAVA操作有三种客户端: 1.TransportClient 2.JestClient 3.RestClient 还有种是2.3中有的NodeClient,在5.5.1中好像没有了.还有种是spring-data-elasticsearch,这里先以TransportClient来讲解CRUD,所用环境为: JDK1.8 ES5.5.1 TransportClient5.5.1 POM.XML文件如下: <project xmlns="http://maven…
首先ES没有库和表的概念,只有index,type,document(详细术语可以看ES的系列一 http://www.cnblogs.com/ulysses-you/p/6736926.html),如果要加快理解的话,可以和一般关系型数据库做简单映射 下面是对这些概念的理解 Index 1.ES的index中shards相当于lucene的indices,而lucene的indices会拥有固定的磁盘空间,内容和文件描述,所以不能无脑新建ES的index,数据量大的1个index比多个小的in…
本文采用tar包的方式部署es 准备jdk8的环境 5.4.0的es依赖jdk8及以上版本 下载linux版的jdk jdk-8u121-linux-x64.tar.gz tar -zvxf jdk-8u121-linux-x64.tar.gz //修改环境变量 vim /etc/profile //添加如下 JAVA_HOME=/usr/java/jdk1.8.0_121 export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH ex…
一.ES简介 1. ES是什么? Elasticsearch 是一个开源的搜索引擎,建立在全文搜索引擎库 Apache Lucene 基础之上 用 Java 编写的,它的内部使用 Lucene 做索引与搜索,但是它的目的是使全文检索变得简单, 通过隐藏 Lucene 的复杂性,取而代之的提供一套简单一致的 RESTful API. Elasticsearch 不仅仅只是一个全文搜索引擎. 它可以被下面这样准确的形容: 一个分布式的实时文档存储,每个字段可以被索引与搜索——作数据库用 一个分布式实…
一.集群规划 搭建一个集群我们需要考虑如下几个问题: 1. 我们需要多大规模的集群? 2. 集群中的节点角色如何分配? 3. 如何避免脑裂问题? 4. 索引应该设置多少个分片? 5. 分片应该设置几个副本? 下面我们就来分析和回答这几个问题 1.我们需要多大规模的集群? 需要从以下两个方面考虑: 1.1 当前的数据量有多大?数据增长情况如何?1.2 你的机器配置如何?cpu.多大内存.多大硬盘容量? 推算的依据: ES JVM heap 最大可以设置32G . 30G heap 大概能处理的数据…