Solr 18 - 通过SolrJ局部更新Solr中的文档 (原子操作、非覆盖操作)
1 需求分析
(1) 需求:
向Solr中的文档添加新的字段并赋值, 或者修改已有的字段, 对不修改的要保持原值, 也就是不能进行完全覆盖操作.
(2) 前提:
添加的字段(field)要提前在schema.xml文件中定义, 否则Solr无法处理这些字段, 肯定会导致添加失败.
关于schema.xml文件的配置, 可参考: Solr的schema.xml模式文件解读 (Solr的模式设计与优化)
(3) 分析: 我们可以使用Solr提供的原子更新, 来实现相关需求:
Solr支持的原子更新:
set
: 修改指定文档中该field的值, 如果这个field已经存在, 则更新, 如果不存在, 则追加到这个文档中 —— 可以是单值, 也可以是multi-valued;
add
: 向指定文档中的field字段添加值, 这个field必须是multi-valued类型的, 否则将出错 —— 只能是multi-valued;
inc
: 对指定文档中数值类型的值进行自增操作 —— 只能是数值类型, 包括int、long、float、double.
2 需求实现
2.1 pom.xml依赖
<!-- 项目较早, 使用的是4.10.4版本的Solr -->
<dependency>
<groupId>org.apache.solr</groupId>
<artifactId>solr-solrj</artifactId>
<version>4.10.4</version>
</dependency>
2.2 Java代码示例
(1) 先获取Solr连接:
String zkHost= "ip:port,ip:port,ip:port";
// 扩大并发连接数
ModifiableSolrParams params = new ModifiableSolrParams();
params.set(HttpClientUtil.PROP_MAX_CONNECTIONS, 1000);
params.set(HttpClientUtil.PROP_MAX_CONNECTIONS_PER_HOST, 100);
HttpClient client = HttpClientUtil.createClient(params);
LBHttpSolrServer lbServer = new LBHttpSolrServer(client);
CloudSolrServer solrServer = new CloudSolrServer(zkHost, lbServer);
// 为 Solr 连接设置默认的 Collection
solrServer.setDefaultCollection("C_Book");
// 设置ZooKeeper连接超时时间
solrServer.setZkClientTimeout(18000);
solrServer.setZkConnectTimeout(36000);
(2) 准备需要处理的Solr文档, 相关注意事项已经在代码注释中作了详细说明:
// 为了提高效率, 可以使用批量操作
Collection<SolrInputDocument> updateDocList = new ArrayList<>();
for (int i = 0; i < 5; ++i) {
SolrInputDocument doc = new SolrInputDocument();
// 局部更新需要指定文档的id(在schema.xml中配置的主键),
// 主键不需要添加set、add等信息, 其他需要原子更新的field需要构造为Map
doc.addField("id", i);
// 局部更新需要借助Map, 这个Map的Key必须是“set”
Map<String, String> publisherMap = new HashMap<>();
publisherMap.put("set", "人民邮电出版社");
// 修改图书的出版社, key是field, value是上述的Map
doc.addField("publisher", publisherMap);
// 在已有仓库的基础上, 再添加多个仓库, 注意: 此field必须是multi-valued类型
Map<String, List<String>> stockCityMap = new HashMap<>();
List<String> list = new ArrayList();
list.add("广州");
list.add("深圳");
// 局部添加需要借助Map, 这个Map的Key必须是“add”
stockCityMap.put("add", list);
// 修改图书的仓库城市, key是field, value是上述的Map
doc.addField("stockCity", stockCityMap);
// 在已有图书价格的基础上: 每本增加9.50元, 注意: 此field必须是数值类型
Map<String, Long> priceMap = new HashMap<>();
// 局部自增需要借助Map, 这个Map的Key必须是“inc”
priceMap.put("inc", 9.50L);
// 修改图书的价格, key是field, value是上述的Map
doc.addField("price", priceMap);
// _version_值为0: 如果待修改的文档存在, 则修改; 如果不存在, 则添加
doc.addField("_version_", 0);
updateDocList.add(doc);
}
(3) 向SolrCloud中提交批量添加请求:
// 连接SolrCloud
solrServer.connect();
// 添加提交文档List
UpdateResponse rsp = solrServer.add(updateDocList);
System.out.println("操作状态: " + rsp.getStatus() + ", 操作时间:" + rsp.getQTime());
// 提交策略: 不用手动提交, 交由Solr服务根据配置自动进行软提交;
// 如果要手动提交, 不要使用无参方法, 推荐指定提交策略: 是否等待刷新(建议不等待: 会阻塞)、等待可搜索(建议不等待: 会阻塞)、软提交
UpdateResponse rspCommit = solrServer.commit(false, false, true);
System.out.println("提交状态: " + " result:" + rspCommit.getStatus() + ", 操作时间: " + rspCommit.getQTime());
3 补充说明
3.1 关于文档中_version_的取值说明
(1) version < 0
: 如果待修改的文档存在, Solr会拒绝修改; 如果不存在, 就添加这个文档.
(2) version = 0
: 如果待修改的文档存在, 就更新这个文档; 如果不存在, 就添加这个文档.
(3) version = 1
: 如果待修改待文档存在, 就更新这个文档; 如果不存在, Solr会拒绝修改它, 并抛出类似的错误信息:
version conflict for 1 expected=1 actual=-1
(4) version > 1
: 如果文档的_version_
值和传入的_version_
值不同, Solr就会拒绝修改; 值相同时才执行修改.
3.2 store=true/false的区别
(1) 如果某个字段在schema.xml中指定了store=false
, 那么即使这个字段有值, 在更新的时候也会被Solr丢弃, 而指定为store=true
的字段则不会;
(2) 对于multi-field(多值)字段, 如果指定其store=false
, 则在原子更新使用add
的时候会级联清除该字段之前的数据.
参考资料
版权声明
出处: 博客园 马瘦风的博客(https://www.cnblogs.com/shoufeng)
感谢阅读, 如果文章有帮助或启发到你, 点个[好文要顶
Solr 18 - 通过SolrJ局部更新Solr中的文档 (原子操作、非覆盖操作)的更多相关文章
- MongoDB学习(操作集合中的文档)
文档概念 文档的数据结构和JSON基本一样. 所有存储在集合中的数据都是BSON格式. BSON是一种类json的一种二进制形式的存储格式,简称Binary JSON. 插入文档 insert()方法 ...
- 从单一图像中提取文档图像:ICCV2019论文解读
从单一图像中提取文档图像:ICCV2019论文解读 DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regressi ...
- JavaScript中的文档模式和严格模式
JavaScript中的文档模式和严格模式 语法模式有普通模式和严格模式两种 普通模式:正常的JavaScript语法拼写以及代码编写(相对于严格模式存在着语法上的不严谨),尽可能的识别错误以及不规范 ...
- 孤荷凌寒自学python第五十四天使用python来删除Firebase数据库中的文档
孤荷凌寒自学python第五十四天使用python来删除Firebase数据库中的文档 (完整学习过程屏幕记录视频地址在文末) 今天继续研究Firebase数据库,利用google免费提供的这个数据库 ...
- C# 中使用Word文档对图像进行操作
C# 中使用Word文档对图像进行操作 Download Files: ImageOperationsInWord.zip 简介 在这篇文章中我们可以学到在C#程序中使用一个Word文档对图像的各种操 ...
- Mongoose在向集合中插入文档时的集合命名问题
Mongoose使用结构化的模式应用到MongoDB集合,为MongoDB Node.js原生驱动程序提供了更多的功能和简化了数据库操作. 从创建连接到向数据库中写入一个条数据经历了以下步骤: 1.连 ...
- 在SharePoint 2013 中使用文档库Scheduling (计划公布功能)
本文讲述在SharePoint2013 中使用文档库Scheduling (计划公布功能)的步骤和注意的事项. 文档库Scheduling (计划公布功能) 用于设定当文档通过审批后特定的时间区间内才 ...
- hibernate中出现 文档根元素 "hibernate-mapping" 必须匹配 DOCTYPE 根 "hibernate-configuration"
hibernate中出现 文档根元素 "hibernate-mapping" 必须匹配 DOCTYPE 根 "hibernate-configuration" ...
- jquery-7 jquery中的文档处理方法有哪些(方法的参数表示功能增强)
jquery-7 jquery中的文档处理方法有哪些(方法的参数表示功能增强) 一.总结 一句话总结:多看参考文档,多看主干目录.一般的功能分两个方法来实现,一个对应标签,一个对应标签和事情,比如克隆 ...
随机推荐
- 上传图片时,使用GDI+中重绘方式将CMYK图片转为RGB图片
原文:上传图片时,使用GDI+中重绘方式将CMYK图片转为RGB图片 我们知道,如果网站上传图片时,如果用户上传的是CMYK图片,那么在网站上将是无法显示的,通常的现象是出现一个红叉.下面使用将Ima ...
- 编程算法 - 旋转矩阵 代码(C)
旋转矩阵 代码(C) 本文地址: http://blog.csdn.net/caroline_wendy 输出旋转矩阵, 使矩阵是按对角线螺旋上升, 在输出规则确定以后, 就能够推断, 上升规律是, ...
- OpenGL(二十四) VAO、VBO和着色器使用示例
1. 新建一个工程,新建一个头文件Shader.h,内容如下: #ifndef _SHADER_H_ #define _SHADER_H_ #include <vector> #inclu ...
- #747 –在WPF程序的触摸操作中使用惯性移动 (Implementing Inertia during Touch Manipulation)
原文:#747 –在WPF程序的触摸操作中使用惯性移动 (Implementing Inertia during Touch Manipulation) 原文地址:https://wpf.2000th ...
- 转义及编码(\u, \x)
首先前面的 \表示转义, \x:只是 16 进制的意思,后边跟两位,则表示单字节编码: \d:十进制:\o:八进制: 对于 \xaa ⇒ chr(0xaa) ⇒ chr(16*a+a) \u:unic ...
- qt线程(转)----这篇很专业!
本文档是自己所整理的一份文档,部分是原创,还转贴了网上的一此资料(已经标明了),(难点是多线程的编写),是有源代码的,大家可以作为参考,用到的知识是视频采集,压缩解压(xvid),实时传输(jrtp) ...
- 【 D3.js 入门系列 --- 6 】 如何使移动图表
我的个人博客是: www.ourd3js.com csdn博客为: blog.csdn.net/lzhlzz 转载请注明出处,谢谢. [5.1]节中制作了一个比較完好的图表.但它是静态的.想做出它的动 ...
- boost库交叉编译(Linux生成ARM的库)
1. 环境: Linux系统:Ubuntu 14.04 编译工具:arm-fsl-linux-gnueabi-gcc 2.下载boost源码: 地址:https://sourceforge.net/p ...
- passed into methods by value java专题
java没有引用传递只有按值传递,没有引用传递只有按值传递,值传递.因为Primitive类型的值不能改变,所以method不能更改调用方传的primitive 值.因为method更改的是Primi ...
- 【Linux】samba服务
samba是一个实现不同操作系统之间文件共享和打印机共享的一种SMB协议的免费软件. ①Samba软件包的安装 使用源安装,在终端中输入如下命令: #sudo apt-get install samb ...