假如: 9 shard,3 node Elasticsearch容错机制:master选举,replica容错,数据恢复 最佳分配情况: 这样分配之后,不管其中哪个node 宕机这个es 依然可以提供完整的share 返回: 假如出现了宕机情况: 这时候宕机了第一个: 容错机制: 开始进行master进行选举,重新选择一个master; 担当master的职责:…
操作背景: 电商网站上面的一个商品的增删改查: es 能接受的都是JSON格式的数据 Es 提供了一套简单的集群信息健康监控的api GET /_cat/health?v   epoch      timestamp cluster       status node.total node.data shards pri relo init unassign pending_tasks max_task_wait_time active_shards_percent1496717921 10:5…
elasticsearch 1.安装JDK,至少1.8.0_73以上版本,java -version2.下载和解压缩Elasticsearch安装包,目录结构3.启动Elasticsearch:bin\elasticsearch.bat,es本身特点之一就是开箱即用,如果是中小型应用,数据量少,操作不是很复杂,直接启动就可以用了 4.检查ES是否启动成功:http://localhost:9200/?pretty 解释下: name: node名称cluster_name: 集群名称(默认的集群…
自己搭的集群, 设备: win10 + ubuntu 16 的虚拟机一个: 下载的版本:elasticsearch-5.2.0 win10 解压下就好了,不说了. ubuntu 上,我想说多了都是泪!各种坑 1,对jdk的要求版本:1.8及其以上版本 2.添加一个…
第一个分析需求:计算每个tag下的商品数量 GET /ecommerce/product/_search{  "aggs": {    "group_by_tags": {      "terms": { "field": "tags" }    }  }} 将文本field的fielddata属性设置为true PUT /ecommerce/_mapping/product{  "propert…
1.query string search 2.query DSL 3.query filter 4.full-text search 5.phrase search 6.highlight search GET /ecommerce/product/_search 可以查询出当前索引下这个类型的所有数据, took 本次搜索耗费的时间:毫秒 timed_out:是否超时,这里是没有 —shards 分片所以对于搜索请求,会打到所有的primary shard(或者是它的某个replica sh…
Elasticsearch的基础分布式架构 Elasticsearch对复杂分布式机制的透明隐藏特性 Elasticsearch是一套分布式系统,分布式是为了应对大数据量. Elasticsearch隐藏了复杂的分布式机制: 分片:我们之前随随便便就将一些document插入到es集群中去了,我们没有关心过数据是如何进行分配的.数据到哪个shard中去了. 集群发现机制(cluster discovery):如果启动一个新的es进程,那么这个es进程会作为一个node并且发现es集群,然后自动加…
一.Primary shard和replica shard机制 1.index包含多个shard; 2.每个shard都是一个最小的工作单元,承载部分的数据,Lucene实例,完整的简历索引和处理请求的能力: 3.增减节点时,shard会自动在nodes中负载均衡; 4.primary shard和replica shard,每一个document只会存在某一个primary shard以及其对应的replica shard中,不可能存在于多个primary shard中: 5.replica…
引入 一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新. 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源. 因此,Spark选择记录更新的方式.但是,如果更新粒度太细太多,那么记录更新成本也不低.因此,RDD只支持粗粒度转换,即只记录单个块上执行的单个操作,然后将创建RDD的一系列变换序列(每个RDD都包含了他是如何由其他RDD变换过来的以及如何重建某一块数据的信息…