ElasticSearch的基本用法与集群搭建 good

一、简介

ElasticSearch和Solr都是基于Lucene的搜索引擎，不过ElasticSearch天生支持分布式，而Solr是4.0版本后的SolrCloud才是分布式版本，Solr的分布式支持需要ZooKeeper的支持。

这里有一个详细的ElasticSearch和Solr的对比：http://solr-vs-elasticsearch.com/

二、基本用法

Elasticsearch集群可以包含多个索引（indices），每一个索引可以包含多个类型（types），每一个类型包含多个文档（documents），然后每个文档包含多个字段（Fields），这种面向文档型的储存，也算是NoSQL的一种吧。

ES比传统关系型数据库，对一些概念上的理解：

Relational DB -> Databases -> Tables -> Rows -> Columns

Elasticsearch -> Indices   -> Types  -> Documents -> Fields

从创建一个Client到添加、删除、查询等基本用法：

1、创建Client

public ElasticSearchService(String ipAddress, int port) {

        client = new TransportClient()

                .addTransportAddress(new InetSocketTransportAddress(ipAddress,

                        port));

    }

这里是一个TransportClient。

ES下两种客户端对比：

TransportClient：轻量级的Client，使用Netty线程池，Socket连接到ES集群。本身不加入到集群，只作为请求的处理。

Node Client：客户端节点本身也是ES节点，加入到集群，和其他ElasticSearch节点一样。频繁的开启和关闭这类Node Clients会在集群中产生“噪音”。

2、创建/删除Index和Type信息

    // 创建索引

    public void createIndex() {

        client.admin().indices().create(new CreateIndexRequest(IndexName))

                .actionGet();

    }

    // 清除所有索引

    public void deleteIndex() {

        IndicesExistsResponse indicesExistsResponse = client.admin().indices()

                .exists(new IndicesExistsRequest(new String[] { IndexName }))

                .actionGet();

        if (indicesExistsResponse.isExists()) {

            client.admin().indices().delete(new DeleteIndexRequest(IndexName))

                    .actionGet();

        }

    }

    // 删除Index下的某个Type

    public void deleteType(){

        client.prepareDelete().setIndex(IndexName).setType(TypeName).execute().actionGet();

    }

    // 定义索引的映射类型

    public void defineIndexTypeMapping() {

        try {

            XContentBuilder mapBuilder = XContentFactory.jsonBuilder();

            mapBuilder.startObject()

            .startObject(TypeName)

                .startObject("properties")

                    .startObject(IDFieldName).field("type", "long").field("store", "yes").endObject()

                    .startObject(SeqNumFieldName).field("type", "long").field("store", "yes").endObject()

                    .startObject(IMSIFieldName).field("type", "string").field("index", "not_analyzed").field("store", "yes").endObject()

                    .startObject(IMEIFieldName).field("type", "string").field("index", "not_analyzed").field("store", "yes").endObject()

                    .startObject(DeviceIDFieldName).field("type", "string").field("index", "not_analyzed").field("store", "yes").endObject()

                    .startObject(OwnAreaFieldName).field("type", "string").field("index", "not_analyzed").field("store", "yes").endObject()

                    .startObject(TeleOperFieldName).field("type", "string").field("index", "not_analyzed").field("store", "yes").endObject()

                    .startObject(TimeFieldName).field("type", "date").field("store", "yes").endObject()

                .endObject()

            .endObject()

            .endObject();

            PutMappingRequest putMappingRequest = Requests

                    .putMappingRequest(IndexName).type(TypeName)

                    .source(mapBuilder);

            client.admin().indices().putMapping(putMappingRequest).actionGet();

        } catch (IOException e) {

            log.error(e.toString());

        }

    }

这里自定义了某个Type的索引映射（Mapping），默认ES会自动处理数据类型的映射：针对整型映射为long，浮点数为double，字符串映射为string，时间为date，true或false为boolean。

注意：针对字符串，ES默认会做“analyzed”处理，即先做分词、去掉stop words等处理再index。如果你需要把一个字符串做为整体被索引到，需要把这个字段这样设置：field("index", "not_analyzed")。

详情参考：https://www.elastic.co/guide/en/elasticsearch/guide/current/mapping-intro.html

3、索引数据

    // 批量索引数据

    public void indexHotSpotDataList(List<Hotspotdata> dataList) {

        if (dataList != null) {

            int size = dataList.size();

            if (size > 0) {

                BulkRequestBuilder bulkRequest = client.prepareBulk();

                for (int i = 0; i < size; ++i) {

                    Hotspotdata data = dataList.get(i);

                    String jsonSource = getIndexDataFromHotspotData(data);

                    if (jsonSource != null) {

                        bulkRequest.add(client

                                .prepareIndex(IndexName, TypeName,

                                        data.getId().toString())

                                .setRefresh(true).setSource(jsonSource));

                    }

                }

                BulkResponse bulkResponse = bulkRequest.execute().actionGet();

                if (bulkResponse.hasFailures()) {

                    Iterator<BulkItemResponse> iter = bulkResponse.iterator();

                    while (iter.hasNext()) {

                        BulkItemResponse itemResponse = iter.next();

                        if (itemResponse.isFailed()) {

                            log.error(itemResponse.getFailureMessage());

                        }

                    }

                }

            }

        }

    }

    // 索引数据

    public boolean indexHotspotData(Hotspotdata data) {

        String jsonSource = getIndexDataFromHotspotData(data);

        if (jsonSource != null) {

            IndexRequestBuilder requestBuilder = client.prepareIndex(IndexName,

                    TypeName).setRefresh(true);

            requestBuilder.setSource(jsonSource)

                    .execute().actionGet();

            return true;

        }

        return false;

    }

    // 得到索引字符串

    public String getIndexDataFromHotspotData(Hotspotdata data) {

        String jsonString = null;

        if (data != null) {

            try {

                XContentBuilder jsonBuilder = XContentFactory.jsonBuilder();

                jsonBuilder.startObject().field(IDFieldName, data.getId())

                        .field(SeqNumFieldName, data.getSeqNum())

                        .field(IMSIFieldName, data.getImsi())

                        .field(IMEIFieldName, data.getImei())

                        .field(DeviceIDFieldName, data.getDeviceID())

                        .field(OwnAreaFieldName, data.getOwnArea())

                        .field(TeleOperFieldName, data.getTeleOper())

                        .field(TimeFieldName, data.getCollectTime())

                        .endObject();

                jsonString = jsonBuilder.string();

            } catch (IOException e) {

                log.equals(e);

            }

        }

        return jsonString;

    }

ES支持批量和单个数据索引。

4、查询获取数据

    // 获取少量数据100个

    private List<Integer> getSearchData(QueryBuilder queryBuilder) {

        List<Integer> ids = new ArrayList<>();

        SearchResponse searchResponse = client.prepareSearch(IndexName)

                .setTypes(TypeName).setQuery(queryBuilder).setSize(100)

                .execute().actionGet();

        SearchHits searchHits = searchResponse.getHits();

        for (SearchHit searchHit : searchHits) {

            Integer id = (Integer) searchHit.getSource().get("id");

            ids.add(id);

        }

        return ids;

    }

    // 获取大量数据

    private List<Integer> getSearchDataByScrolls(QueryBuilder queryBuilder) {

        List<Integer> ids = new ArrayList<>();

        // 一次获取100000数据

        SearchResponse scrollResp = client.prepareSearch(IndexName)

                .setSearchType(SearchType.SCAN).setScroll(new TimeValue(60000))

                .setQuery(queryBuilder).setSize(100000).execute().actionGet();

        while (true) {

            for (SearchHit searchHit : scrollResp.getHits().getHits()) {

                Integer id = (Integer) searchHit.getSource().get(IDFieldName);

                ids.add(id);

            }

            scrollResp = client.prepareSearchScroll(scrollResp.getScrollId())

                    .setScroll(new TimeValue(600000)).execute().actionGet();

            if (scrollResp.getHits().getHits().length == 0) {

                break;

            }

        }

        return ids;

    }

这里的QueryBuilder是一个查询条件，ES支持分页查询获取数据，也可以一次性获取大量数据，需要使用Scroll Search。

5、聚合（Aggregation Facet）查询

    // 得到某段时间内设备列表上每个设备的数据分布情况<设备ID，数量>

    public Map<String, String> getDeviceDistributedInfo(String startTime,

            String endTime, List<String> deviceList) {

        Map<String, String> resultsMap = new HashMap<>();

        QueryBuilder deviceQueryBuilder = getDeviceQueryBuilder(deviceList);

        QueryBuilder rangeBuilder = getDateRangeQueryBuilder(startTime, endTime);

        QueryBuilder queryBuilder = QueryBuilders.boolQuery()

                .must(deviceQueryBuilder).must(rangeBuilder);

        TermsBuilder termsBuilder = AggregationBuilders.terms("DeviceIDAgg").size(Integer.MAX_VALUE)

                .field(DeviceIDFieldName);

        SearchResponse searchResponse = client.prepareSearch(IndexName)

                .setQuery(queryBuilder).addAggregation(termsBuilder)

                .execute().actionGet();

        Terms terms = searchResponse.getAggregations().get("DeviceIDAgg");

        if (terms != null) {

            for (Terms.Bucket entry : terms.getBuckets()) {

                resultsMap.put(entry.getKey(),

                        String.valueOf(entry.getDocCount()));

            }

        }

        return resultsMap;

    }

Aggregation查询可以查询类似统计分析这样的功能：如某个月的数据分布情况，某类数据的最大、最小、总和、平均值等。

详情参考：https://www.elastic.co/guide/en/elasticsearch/client/java-api/current/java-aggs.html

三、集群配置

配置文件elasticsearch.yml

集群名和节点名：

#cluster.name: elasticsearch

#node.name: "Franz Kafka"

是否参与master选举和是否存储数据

#node.master: true

#node.data: true

分片数和副本数

#index.number_of_shards: 5
#index.number_of_replicas: 1

master选举最少的节点数，这个一定要设置为整个集群节点个数的一半加1，即N/2+1

#discovery.zen.minimum_master_nodes: 1

discovery ping的超时时间，拥塞网络，网络状态不佳的情况下设置高一点

#discovery.zen.ping.timeout: 3s

注意，分布式系统整个集群节点个数N要为奇数个！！

如何避免ElasticSearch发生脑裂（brain split）：http://blog.trifork.com/2013/10/24/how-to-avoid-the-split-brain-problem-in-elasticsearch/

即使集群节点个数为奇数，minimum_master_nodes为整个集群节点个数一半加1，也难以避免脑裂的发生，详情看讨论：https://github.com/elastic/elasticsearch/issues/2488

四、Elasticsearch插件

1、elasticsearch-head是一个elasticsearch的集群管理工具：./elasticsearch-1.7.1/bin/plugin -install mobz/elasticsearch-head

2、elasticsearch-sql：使用SQL语法查询elasticsearch：./bin/plugin -u https://github.com/NLPchina/elasticsearch-sql/releases/download/1.3.5/elasticsearch-sql-1.3.5.zip --install sql

github地址：https://github.com/NLPchina/elasticsearch-sql

3、elasticsearch-bigdesk是elasticsearch的一个集群监控工具，可以通过它来查看ES集群的各种状态。

安装：./bin/plugin -install lukas-vlcek/bigdesk

访问：http://192.103.101.203:9200/_plugin/bigdesk/，

4、elasticsearch-servicewrapper插件是ElasticSearch的服务化插件，

在https://github.com/elasticsearch/elasticsearch-servicewrapper下载该插件后，解压缩，将service目录拷贝到elasticsearch目录的bin目录下。

而后，可以通过执行以下语句安装、启动、停止ElasticSearch：

sh elasticsearch install

sh elasticsearch start

sh elasticsearch stop

参考：

https://www.elastic.co/guide/en/elasticsearch/client/java-api/current/index.html

https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html

http://stackoverflow.com/questions/10213009/solr-vs-elasticsearch

http://www.cnblogs.com/luxiaoxun/archive/2015/10/11/4869509.html

解决bigdesk环境搭建问题：

e:\elasticsearch-2.3.4\bin>plugin.bat install lukas-vlcek/bigdesk/2.5.0

-> Installing lukas-vlcek/bigdesk/2.5.0...

Trying https://download.elastic.co/lukas-vlcek/bigdesk/bigdesk-2.5.0.zip ...

Trying https://search.maven.org/remotecontent?filepath=lukas-vlcek/bigdesk/2.5.0/bigdesk-2.5.0.zip ...

Trying https://oss.sonatype.org/service/local/repositories/releases/content/luka

s-vlcek/bigdesk/2.5.0/bigdesk-2.5.0.zip ...

Trying https://github.com/lukas-vlcek/bigdesk/archive/2.5.0.zip ...

Trying https://github.com/lukas-vlcek/bigdesk/archive/master.zip ...

Downloading ....................................................................

................................................................................

................................................................................

......................DONE

Verifying https://github.com/lukas-vlcek/bigdesk/archive/master.zip checksums if available ...

NOTE: Unable to verify checksum for downloaded plugin (unable to find .sha1 or .md5 file to verify)

ERROR: Could not find plugin descriptor 'plugin-descriptor.properties' in plugin zip

解决办法：https://github.com/lukas-vlcek/bigdesk/issues/86

I have modified bigdesk code to be compatible with elasticsearch 2.x

https://github.com/nishantsaini/bigdesk

Hope this helps

e:\elasticsearch-2.3.4\bin>plugin.bat install nishantsaini/bigdesk

-> Installing nishantsaini/bigdesk...

Trying https://github.com/nishantsaini/bigdesk/archive/master.zip ...

Downloading ....................................................................

................................................................................

................................................................................

......................DONE

Verifying https://github.com/nishantsaini/bigdesk/archive/master.zip checksums if available ...

NOTE: Unable to verify checksum for downloaded plugin (unable to find .sha1 or .md5 file to verify)

Installed bigdesk into e:\elasticsearch-2.3.4\plugins\bigdesk

e:\elasticsearch-2.3.4\bin>

e:\elasticsearch-2.3.4\bin>

e:\elasticsearch-2.3.4\bin>plugin.bat list

Installed plugins in e:\elasticsearch-2.3.4\plugins:

    - bigdesk

    - head

    - ik

查看效果：
http://localhost:9200/_plugin/bigdesk/

ElasticSearch的基本用法与集群搭建 good的更多相关文章

ElasticSearch的基本用法与集群搭建
一.简介 ElasticSearch和Solr都是基于Lucene的搜索引擎,不过ElasticSearch天生支持分布式,而Solr是4.0版本后的SolrCloud才是分布式版本,Solr的分布式 ...
ElasticSearch入门（1） —— 集群搭建
一.环境介绍与安装准备 1.环境说明 2台虚拟机,OS为ubuntu13.04,ip分别为xxx.xxx.xxx.140和xxx.xxx.xxx.145. 2.安装准备 ElasticSearch(简 ...
elasticsearch+kibana+fluentd 日志搜集集群搭建
使用fluentd来搜集Nginx日志,准备3台服务器,列表如下 node1 elasticsearch/kibana/td-agent node2 td-agent/nginx node3 td-a ...
elasticsearch集群搭建实例
elasticsearch集群搭建实例下个月又开始搞搜索了,几个月没动这块还好没有落下. 晚上在自己虚拟机上搭建了一个简易搜索集群,分享一下. 操作系统环境: Red Hat 4.8.2-16 el ...
elasticsearch系列八：ES 集群管理（集群规划、集群搭建、集群管理）
一.集群规划搭建一个集群我们需要考虑如下几个问题: 1. 我们需要多大规模的集群? 2. 集群中的节点角色如何分配? 3. 如何避免脑裂问题? 4. 索引应该设置多少个分片? 5. 分片应该设置几个 ...
Elasticsearch集群搭建及使用Java客户端对数据存储和查询
本次博文发两块,前部分是怎样搭建一个Elastic集群,后半部分是基于Java对数据进行写入和聚合统计. 一.Elastic集群搭建 1. 环境准备. 该集群环境基于VMware虚拟机.CentOS ...
和我一起打造个简单搜索之ElasticSearch集群搭建
我们所常见的电商搜索如京东,搜索页面都会提供各种各样的筛选条件,比如品牌.尺寸.适用季节.价格区间等,同时提供排序,比如价格排序,信誉排序,销量排序等,方便了用户去找到自己心里理想的商品. 站内搜索对 ...
ElasticStack之Elasticsearch集群搭建
需搭建服务器环境操作系统 Host:port node 1 CentOS 7.2.1511 11.1.11.127:9200 node1 2 CentOS 7.2.1511 11.1.11.128: ...
elasticsearch 集群管理（集群规划、集群搭建、集群管理）
一.集群规划搭建一个集群我们需要考虑如下几个问题: 1. 我们需要多大规模的集群? 2. 集群中的节点角色如何分配? 3. 如何避免脑裂问题? 4. 索引应该设置多少个分片? 5. 分片应该设置几个 ...

随机推荐

[TypeScript] Sharing Class Behavior with Inheritance in TypeScript
Typescript classes make inheritance much easier to write and understand. In this lesson we look into ...
杭电ACM1197——Specialized Four-Digit Numbers
题目的意思是从2992開始的四位数.每个四位数的10.12,16进制的数的每一位加起来都相等,就输出该数. 非常easy的一道题目. 以下的是AC的代码: #include <iostream& ...
【u244】山地考察
Time Limit: 1 second Memory Limit: 128 MB [问题描述] 地质学家们打算考察一片山区.这片山区可分成m*n的网格,每个网格都有唯一的海拔高度,山区外围的海拔高度 ...
P2P网络借贷系统-核心功能-用户投标-业务讲解
用户投标是P2P网络借贷系统的核心功能,相对比较复杂,为了更好地梳理业务和技术实现思路,特地详细总结分析下. 输入:用户id-uid,标的id-lid,投标金额-amount 1.根据lid,获得贷款 ...
DirectX 11游戏编程学习笔记之1: 开场白
本文由哈利_蜘蛛侠原创,转载请注明出处.有问题欢迎联系2024958085@qq.com 这是我之前的博客系列"DirectX9.0c游戏开发手记之'龙书'第二版学习笔记 ...
COCOS学习笔记--单点触控
这篇博客来总结下cocos单点触控的相关内容: 我们在Layer类的源代码中能够看到.Layer类提供了一下4个与屏幕单点触控相关的回调方法: onTouchBegan().onTouchMoved( ...
Google VR技术大揭秘
VR 虚拟现实(Virtual Reality)技术是一种能够创建和体验虚拟世界的计算机仿真系统.它利用计算机生成一种模拟环境.是一种多源信息融合的.交互式的三维动态视景和实体行为的系统仿真, 使用户 ...
【37.07%】【UESTC 360】Another LCIS
Time Limit: 3000/1000MS (Java/Others) Memory Limit: 65535/65535KB (Java/Others) Submit Status F ...
C++常用数据结构的实现
常用数据结构与算法的实现.整理与总结我将我所有数据结构的实现放在了github中:Data-Structures-Implemented-By-Me 常用数据结构与算法的实现.整理与总结 KMP字符 ...
动态获取server时间
近期在做的这个项目要获取到后台的数据.然后使用html5绘制曲线.曾经都是在自己电脑上使用没有发现有什么不正常的地方,昨天连接同事的server发现有段数据怎么都对不上了,開始我还以为程序有问题呢,找 ...

ElasticSearch的基本用法与集群搭建 good

ElasticSearch的基本用法与集群搭建 good的更多相关文章

随机推荐

热门专题