http://eksliang.iteye.com/
一.内嵌启动SolrCloud时端口默认分配

当 Solr 运行内嵌 zookeeper 服务时,默认使用 solr 端口+1000 作为客户端口,另外,solr 端口+1 作为 zookeeper 服务端口,solr 端口+2 作为主服务选举端口。所以第一个例子中,Solr 运行在 8983端口,内嵌 zookeeper 使用 9983 作为客户端端口,9984 和 9985 作为服务端口。

  1. =192.168.238.133:9984 :9985
  2. 这几个端口就是对应配置里面的这几个端口

内嵌启动的SolrCloud的例子点击:http://wiki.apache.org/solr/SolrCloud

二. 通过集群api 管理集群(Core Admin)

1).创建接口(第一种自动分配)

  1. http://192.168.66.128:8081/solr/admin/collections?action=CREATE&name=collection1&numShards=3&replicationFactor=2&maxShardsPerNode=2&collection.configName=myconf
  2. http://192.168.66.128:8081/solr/admin/collections?action=CREATE&name=collection1&numShards=3&replicationFactor=2&maxShardsPerNode=2&collection.configName=myconf&createNodeSet=192.168.66.128:8083_solr,192.168.66.128:8081_solr,192.168.66.128:8082_solr

这样会出来一个collection,它有3个shard,每个shard有1个数据节点,1个备份节点,即该collection共有6个core

参数:

name:将被创建的集合的名字

numShards:集合创建时需要创建逻辑碎片的个数

replicationFactor:分片的副本数。replicationFactor(复制因子)为 3 意思是每个逻辑碎片将有 3 份副本。

maxShardsPerNode:默认值为1,每个Solr服务器节点上最大分片数(4.2新增的)

注意三个数值:numShards、replicationFactor、liveSolrNode(当前存活的solr节点),一个正常的solrCloud集群不容许同一个liveSolrNode上部署同一个shard的多个replic,因此当maxShardsPerNode=1时,numShards*replicationFactor>liveSolrNode时,报错。因此正确时因满足以下条件:numShards*replicationFactor<liveSolrNode*maxShardsPerNode

createNodeSet:如果不提供该参数,那么会在所有活跃节点上面创建core,如果提供该参数就会在指定的solr节点上创建core

例如我现在在5台tomcat上面创建3个片,1个副本,不提供该参数结果是这样的

提供该参数例如:createNodeSet=192.168.66.128:8083_solr,192.168.66.128:8081_solr,192.168.66.128:8082_solr

结果是这样的



  collection.configName:用于新集合的配置文件的名称。如果不提供该参数将使用集合名称作为配置文件的名称。

创建接口2(手动分配)实例:通过下面多个链接进行创建(3个分片,每个节点上面一个备份)推荐使用,因为这种方式你想创建多少次就多少次

  1. http://192.168.66.128:8081/solr/admin/cores?action=CREATE&name=shard1_replica1&instanceDir=shard1_replica1&dataDir=data&collection=collection1&shard=shard1&collection.configName=myconf
  2. http://192.168.66.128:8082/solr/admin/cores?action=CREATE&name=shard1_replica2&instanceDir=shard1_replica2&dataDir=data&collection=collection1&shard=shard1&collection.configName=myconf
  3. http://192.168.66.128:8082/solr/admin/cores?action=CREATE&name=shard2_replica1&instanceDir=shard2_replica1&dataDir=data&collection=collection1&shard=shard2&collection.configName=myconf
  4. http://192.168.66.128:8083/solr/admin/cores?action=CREATE&name=shard2_replica2&instanceDir=shard2_replica2&dataDir=data&collection=collection1&shard=shard2&collection.configName=myconf
  5. http://192.168.66.128:8083/solr/admin/cores?action=CREATE&name=shard3_replica1&instanceDir=shard3_replica1&dataDir=data&collection=collection1&shard=shard3&collection.configName=myconf
  6. http://192.168.66.128:8081/solr/admin/cores?action=CREATE&name=shard3_replica2&instanceDir=shard3_replica2&dataDir=data&collection=collection1&shard=shard3&collection.configName=myconf

参数含义:

name:新建core的名称

创建的core的命名规则:

coreName_shardName_replicaN

例如:创建pscp的集合,2个分片,每个分片上面有两个备份

则命名如下:

pscp_shard1_replica1

pscp_shard1_replica2

pscp_shard2_replica1

pscp_shard2_replica2

shard:指定一个分配id,这个core将挂在那个分片上(随便写,如果还没有这个id,第一次会帮你创建)

collection.configName:从zookeeper中指定一份配置文件

instanceDirdataDir:从下图看出他的含义

命名规则:instanceDir与name的名称相同,dataDir:统一建议命名为data

总结一:在一个集群中添加一个副本的两种方式

  1. http://192.168.66.128:8081/solr/admin/collections?action=ADDREPLICA&collection=collection1&shard=shard2&node=192.168.66.128:8085_solr
  2. 上面这句话的意思就是在collection1这个集合的shard2分片上添加一个副本,副本的地址在192.168.66.128:8085_solr台机子上面
  3. http://192.168.66.128:8083/solr/admin/cores?action=CREATE&name=shard3_replica1&instanceDir=shard3_replica1&dataDir=data&collection=collection1&shard=shard3&collection.configName=myconf

2).删除接口

  1. http://localhost:8983/solr/admin/collections?action=DELETE&name=mycollection

参数:

name:将被创建的集合别名的名字

collections:逗号分隔的一个或多个集合别名的列表

3).重新加载接口,这个时候,相应的core会重新加载配置文件

  1. http://localhost:8983/solr/admin/collections?action=RELOAD&name=mycollection

参数:

name:将被重载的集合的名字

4).分割碎片接口

  1. http://localhost:8983/solr/admin/collections?action=SPLITSHARD&collection=&lt;collection_name&gt;&shard=shardId

collection:集合的名字

shard:将被分割的碎片
ID

这个命令不能用于使用自定义哈希的集群,因为这样的集群没有一个明确的哈希范围。 它只用于具有plain 或 compositeid 路由的集群。该命令将分割给定的碎片索引对应的那个碎片成两个新碎片。通过将碎片范围划分成两个相等的分区和根据新碎片范围分割出它在父碎片(被分的碎片)中的文档。新碎片将被命名为 appending_0 和_1。例如:shard=shard1 被分割,新的碎片将被命名为 shard1_0 和 shard1_1。一旦新碎片被创建,它们就被激活同时父碎片(被分的碎片)被暂停因此将没有新的请求到父碎片(被分的碎片)。该特征达到了无缝分割和无故障时间的要求。原来的碎片数据不会被删除。使用新
API 命令重载碎片用户自己决定。该特性发布始于 Solr4.3,由于 4.3 发布版本发现了一些 bugs,所以要使用该特性推荐等待 4.3.1

三.通过命令行工具将文件上传到Zookeeper进行管理

之所以能分布式是因为引入ZooKeeper来统一保存配置文件,故而需要将SolrCloud的配置文件上传到ZooKeeper中,这里演示命令行进行上传

要使用命令行管理管理工具,必须要先有包,这些包就是solr.war里面/WEB-INF/lib下面的所有jar包

第一步:新建文件夹

在可以和Zookeeper集群通讯的任意一台机子上面,新建两个文件夹,例如如下是我的目录

/usr/solrCloud/conf/files  /usr/solrCloud/conf/lib

files:用来保存配置文件   lib:用来存放jar包

第二步:上传需要使用的jar和配置文件

上传jar到lib目录,将solr发布包下面的jar(solr-4.8.0\example\solr-webapp\webapp\WEB-INF\lib\ 和 solr-4.8.0\example\lib\ext\ 下面包都要)全部上传到上面的lib目录

将solr的配置文件上传到上面的files目录下面

第三步:将文件上传Zookeeper进行统一管理

  1. ,192.168.27.18:2182,192.168.27.18:2183 -confdir /usr/solrCloud/conf/files  -confname myconf

-cmd upconfig:上传配置文件

-confdir:配置文件的目录

-confname:指定对应的名称

查看文件是否已经上传到Zookeeper服务器:

  1. ls /configs/myconf

第四步:将上传到ZooKeeper中配置文件与collection相关联

  1. ,192.168.27.18:2182,192.168.27.18:2183

-cmd linkconfig:为指定collection"绑定"配置文件

-collection:上面指定的collection的名称

-confname:zookeeper上面的配置文件名称

上面这句代码的意思就是:创建的core(collection1)将使用myconf这个配置文件

例如:执行下面这个请求将创建一个core为collection1,那么他使用的配置文件为zookeeper中的myconf这个配置

  1. http://localhost:8983/solr/admin/collections?action=CREATE&name=collection1&numShards=3&replicationFactor=1

话又说回来,如果zookeeper管理的集群上面仅有一份配置,那么创建的core都会用这份默认的配置。如果有多份,如果没有执行第四步,随便创建一个core将抛出异常,构建失败!

例如执行:

  1. http://192.168.66.128:8081/solr/admin/collections?action=CREATE&name=sdf&numShards=3&replicationFactor=1

将抛出:因为上面有两份配置,但是并没有执行第四步,将配置与即将创建core(name=sdf)关联起来

  1. <response>
  2. <lst name="responseHeader">
  3. </int>
  4. </int>
  5. </lst>
  6. <lst name="failure">
  7. <str>
  8. org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException:Error CREATEing SolrCore 'sdf_shard2_replica1': Unable to create core: sdf_shard2_replica1 Caused by: Could not find configName for collection sdf found:[conf1, myconf]
  9. </str>
  10. <str>
  11. org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException:Error CREATEing SolrCore 'sdf_shard1_replica1': Unable to create core: sdf_shard1_replica1 Caused by: Could not find configName for collection sdf found:[conf1, myconf]
  12. </str>
  13. <str>
  14. org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException:Error CREATEing SolrCore 'sdf_shard3_replica1': Unable to create core: sdf_shard3_replica1 Caused by: Could not find configName for collection sdf found:[conf1, myconf]
  15. </str>
  16. </lst>
  17. </response>

当然了第四步也可以用下面替换,而且下面这个更灵活,推荐使用(有了这步,第四步完全可以省略

  1. http://192.168.66.128:8081/solr/admin/collections?action=CREATE&name=conf2&numShards=3&replicationFactor=1&collection.configName=myconf
  2. collection.configName=myconf:为创建的core指定一个在zookeeper中配置

文档写到这里,下面来看下怎么对上传到zookeeper中的文件进行修改和删除操作:

修改的常用做法就是:重新上传,重新上传会覆盖上面的文件,从而达到修改的目的

删除zookeeper中的文件或者目录的方式如下:

  1. (CONNECTED) 7] delete /configs/conf1/schema.xml
  2. (CONNECTED) 10] ls /configs/conf1
  3. [solrconfig.xml]
  4. (CONNECTED) 11]

 将配置上传到zookeeper,如果要让正在运行的solr同步加载这些文件,只需要需要让solr重新加载一下配置文件,在浏览器中输入

  1. http://192.168.27.18:8081/solr/admin/collections?action=RELOAD&name=collection1

参考文献:

怎么通过api来管理整个集群的collection官网

https://cwiki.apache.org/confluence/display/solr/Collections+API

通过api来管理solr core 官网

http://wiki.apache.org/solr/CoreAdmin

SolrCloud在tomcat上面的部署 官网

http://wiki.apache.org/solr/SolrCloudTomcat

solr在tomcat上面部署 官网

http://wiki.apache.org/solr/SolrTomcat

值得参考的博客:

http://blog.csdn.net/xyls12345/article/details/27504965

http://myjeeva.com/solrcloud-cluster-single-collection-deployment.html#deploying-solrcloud

http://blog.csdn.net/woshiwanxin102213/article/details/18793271

http://blog.csdn.net/natureice/article/details/9109351

solrcloud名称解释

http://www.solr.cc/blog/?p=99

solr.xml解释

http://www.abyssss.com/?p=415

SolrCloud中的文件与Collection管理的更多相关文章

  1. 背水一战 Windows 10 (90) - 文件系统: 获取 Package 中的文件, 可移动存储中的文件操作, “库”管理

    [源码下载] 背水一战 Windows 10 (90) - 文件系统: 获取 Package 中的文件, 可移动存储中的文件操作, “库”管理 作者:webabcd 介绍背水一战 Windows 10 ...

  2. 小讲堂:Mobox文档管理软件中的文件外链是什么?

    今天我们来讨论Mobox文档管理软件中的文件外链是什么?熟悉MOBOX的朋友们应该知道,如果有文件需要分享给其他同事,直接可以进行文件共享.对方会在AM的即时通讯客户端有消息提醒,点击消息提醒可以看到 ...

  3. 无需安装 vsftpd , 直接使用 FTP 来管理 docker 容器中的文件

    无图无真相,先放个效果图:     背景 使用 docker 来跑一些服务很方便,但是有的时候想管理容器里面的文件却很麻烦 -- 一般常规做法有3种: 通过数据卷或数据卷容器的方式 启动容器的时候时候 ...

  4. day17跨文件夹导入模块,模块的两种被执行方式,包,直接使用包中模块,包的管理

    复习 ''' 1.模块 -- 一系列功能的集合体,用文件来管理一系列有联系的功能,该文件我们称之为模块,文件名就是模块名 -- import | from...import 来导入模块,从而使用模块中 ...

  5. Linux学习系列--如何在Linux中进行文件的管理

    文件 在常见的Linux的文件系统中,经常使用能了解到的文件管理系统是分为多个文件夹进行管理的. 如何查看文件路径 pwd ,在文件目录中,会有一个点(.)代表的是当前目录,两个点(..)代表的是当前 ...

  6. 『学了就忘』Linux软件包管理 — 44、在RPM包中提取文件

    目录 1.RPM包中文件的提取 2.在RPM包中提取文件的操作 (1)cpio命令介绍 (2)提取RPM包中文件 1.RPM包中文件的提取 为什么要做这个事呢? 在操作Linux系统的时候误删除一个文 ...

  7. 【solr】SolrCloud中索引数据存储于HDFS

    SolrCloud中索引数据存储于HDFS 本人最近使用SolrCloud存储索引日志条件,便于快速索引,因为我的索引条件较多,每天日志记录较大,索引想到将日志存入到HDFS中,下面就说说怎么讲sol ...

  8. Atitit.css 规范 bem  项目中 CSS 的组织和管理

    Atitit.css 规范 bem  项目中 CSS 的组织和管理 1. 什么是BEM?1 1.1. 块(Block)2 1.2. 元素(Element)2 1.3. BEM树(和DOM树类似).3 ...

  9. TFS 掩蔽或取消掩蔽工作区中的文件夹

    掩蔽或取消掩蔽工作区中的文件夹 使用掩蔽功能可以阻止用户查看指定的工作区文件夹或者您当前不需要的文件夹.当您在对一个公共父级下的两个或更多个分支中的文件进行操作时,就可以使用掩蔽功能来避免复制不必要的 ...

随机推荐

  1. 学习nodejs部分基础内容入门小结

    Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境. Node.js 使用了一个事件驱动.非阻塞式 I/O 的模型,使其轻量又高效. Node.js 的包管理器 n ...

  2. 设计模式之组合(compose)模式

    树形结构在软件中随处可见,比如操作系统中的目录结构,公司组织结构等等,如何运用面向对象的方式来处理这种树形结构是组合模式需要解决的问题.组合模式通过一种巧妙的设计方案来使得用户可以一致性地处理整个树形 ...

  3. 使用Metaspoit攻击MS08-067

    kali视频学习请看 http://www.cnblogs.com/lidong20179210/p/8909569.html 使用Metaspoit攻击MS08-067 MS08-067漏洞的全称为 ...

  4. Oracle临时表和SQL Server临时表的不同点对比

    文章来源:http://www.codesky.net/article/201109/141401.html 1.简介 Oracle数据库除了可以保存永久表外,还可以建立临时表temporary ta ...

  5. GIT多人合作开发

    . 建立代码仓库(专门用于团队开发的代码仓库) ============================================================================ ...

  6. debezium 数据变更工具使用

    1.  作用 简单概述就是CDC(change data capture),实时数据分析领域用的比较多   2. 简单使用(基于官网的docker 说明)  备注: 测试没有使用守护进程模式为了方便测 ...

  7. 数据库中通过group by找出表中的重复数据

    有时候在做数据割接时会碰到数据插入失败的情况,大部分都是导出的数据中存在重复导致的.我们可以通过查询语句带分组条件来确认是否有重复数据.例如我现在有表 t_wlf_info,其中有个 username ...

  8. nginx 端口转发

    nginx 端口转发 默认nginx监听的端口是8080,想通过配置nginx访问80直接跳转到nginx,以下是配置方法: [root@localhost vhost]# cat tomcat.jo ...

  9. MSSQL使用sqlbulkcopy批量插入数据

    具体代码如下: /// <summary> /// 批量插入数据到BayonetZipFailedPic表 /// </summary> /// <param name= ...

  10. 在rebar发布的项目中添加监视工具

    默认使用rebar创建的项目没法使用observer,可以如下操作 修改app.src {application, tcp_server, [ {description, ""}, ...