DIH增量、定时导入并检索数据--转载

原文地址：http://www.ifunit.com/984/solr%E5%AD%A6%E4%B9%A0%EF%BC%88%E4%BA%94%EF%BC%89dih%E5%A2%9E%E9%87%8F%E3%80%81%E5%AE%9A%E6%97%B6%E5%AF%BC%E5%85%A5%E5%B9%B6%E6%A3%80%E7%B4%A2%E6%95%B0%E6%8D%AE

注意：整个Solr学习系列使用的都是Solr4.5.1，更高版本应该也适用，耕地版本不知道。转载请注明出处：jiq·钦’s technical blog

（一）引言：

前面我的文章 DIH全量导入中已经学会了如何全量导入Oralce和MySQL的数据，大家都知道全量导入在数据量大的时候代价非常大，一般来说都会适用增量的方式来导入数据，下面介绍如何增量导入MYSQL数据库中的数据，以及如何设置定时来做。

下面介绍的所有操作都是基于前面已经完成的全量导入的基础上来做的。

（一）DIH增量从MYSQL数据库导入数据：

1、数据库表的更改：

前面已经创建好了一个UserInfo的表，这里为了能够进行增量导入，需要新增一个字段，类型为TIMESTAMP，默认值为CURRENT_TIMESTAMP。

有了这样一个字段，Solr才能判断增量导入的时候，哪些数据是新的。

因为Solr本身有一个默认值last_index_time，记录最后一次做full import或者是delta import(增量导入）的时间，这个值存储在文件conf目录的dataimport.properties文件中。

2、data-config.xml中必要属性的设置：

       <!--  transformer 格式转化：HTMLStripTransformer 索引中忽略HTML标签   --->

       <!--  query:查询数据库表符合记录数据   --->

       <!--  deltaQuery:增量索引查询主键ID    --->    注意这个只能返回ID字段

       <!--  deltaImportQuery:增量索引查询导入的数据  --->

       <!--  deletedPkQuery:增量索引删除主键ID查询  ---> 注意这个只能返回ID字段

有关“query”，“deltaImportQuery”， “deltaQuery”的解释，引用官网说明，如下所示：

The query gives the data needed to populate fields of the Solr document in full-import
The deltaImportQuery gives the data needed to populate fields when running a delta-import
The deltaQuery gives the primary keys of the current entity which have changes since the last index time

最终针对步骤一中创建的UserInfo表，我们的data-config.xml文件的配置内容如下：

<dataConfig>

	<dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost:3306/test" user="root" password="passok" />

	<document>

		<entity name="userInfo" pk="UserID"

query="SELECT * FROM userinfo"

deltaImportQuery="SELECT * FROM userinfo where UserID='${dih.delta.UserID}'"

deltaQuery="SELECT UserID FROM userinfo where UpdateTime > '${dataimporter.last_index_time}'">

			<field column="UserID" name="id"/>

			<field column="UserName" name="userName"/>

			<field column="UserAge" name="userAge"/>

			<field column="UpdateTime" name="updateTime"/>

		</entity>

  	</document>

</dataConfig>

意思是首先按照query指定的SQL语句查询出符合条件的记录。

然后从这些数据中根据deltaQuery指定的SQL语句查询出所有需要增量导入的数据的ID号。

最后根据deltaImportQuery指定的SQL语句返回所有这些ID的数据，即为这次增量导入所要处理的数据。

核心思想是：通过内置变量“${dih.delta.id}”和 “${dataimporter.last_index_time}”来记录本次要索引的id和最近一次索引的时间。

注意：刚新加上的UpdateTime字段也要在field属性中配置，同时也要在schema.xml文件中配置：<field name="updateTime" type="date" indexed="true" stored="true" />

3、测试增量导入：

在浏览器中输入：http://localhost:8087/solr/dataimport?command=delta-import 然后到http://localhost:8087/solr/#/collection1/query检索一条不存在的数据，然后利用SQL语句插入一条数据：

INSERT INTO `test`.`userinfo`

(`UserID`,

`UserName`,

`UserAge`)

VALUES

(6,

'季义钦增量数据测试',

25);

再次在浏览器中数据刚才的连接，再次检索。

（二）设置增量导入为定时执行的任务：

很多人利用Windows计划任务，或者Linux的Cron来定期访问增量导入的连接来完成定时增量导入的功能，这其实也是可以的，而且应该没什么问题。

但是更方便，更加与Solr本身集成度高的是利用其自身的定时增量导入功能。

1、下载apache-solr-dataimportscheduler-1.0.jar放到Tomcat的webapps的solr目录的WEB-INF的lib目录下：

下载地址：http://code.google.com/p/solr-dataimport-scheduler/downloads/list

也可以到我的云盘下载：http://pan.baidu.com/s/1dDw0MRn

2、修改solr的WEB-INF目录下面的web.xml文件：

为<web-app>元素添加一个子元素

<listener>

 	<listener-class>

         	org.apache.solr.handler.dataimport.scheduler.ApplicationListener

 	</listener-class>

  </listener>

3、新建配置文件dataimport.properties：

在SOLR_HOME\solr目录下面新建一个目录conf（注意不是SOLR_HOME\solr\collection1下面的conf），然后用解压文件打开apache-solr-dataimportscheduler-1.0.jar文件，将里面的dataimport.properties文件拷贝过来，进行修改，下面是最终我的自动定时更新配置文件内容：

#################################################

#                                               #

#       dataimport scheduler properties         #

#                                               #

#################################################

#  to sync or not to sync

#  1 - active; anything else - inactive

syncEnabled=1

#  which cores to schedule

#  in a multi-core environment you can decide which cores you want syncronized

#  leave empty or comment it out if using single-core deployment

# syncCores=game,resource #因为我的是single-core，所以注释掉了，默认就是collection1

#  solr server name or IP address

#  [defaults to localhost if empty]

server=localhost

#  solr server port

#  [defaults to 80 if empty]

port=8087

#  application name/context

#  [defaults to current ServletContextListener's context (app) name]

webapp=solr

#  URL params [mandatory]

#  remainder of URL

#  增量更新的请求参数

params=/dataimport?command=delta-import&clean=true&commit=true

#  schedule interval

#  number of minutes between two runs

#  [defaults to 30 if empty]

#  这里配置的是2min一次

interval=2

#  重做索引的时间间隔，单位分钟，默认7200，即5天;

#  为空,为0,或者注释掉:表示永不重做索引

reBuildIndexInterval=7200

#  重做索引的参数

reBuildIndexParams=/dataimport?command=full-import&clean=true&commit=true

#  重做索引时间间隔的计时开始时间，第一次真正执行的时间=reBuildIndexBeginTime+reBuildIndexInterval*60*1000；

#  两种格式：2012-04-11 03:10:00 或者  03:10:00，后一种会自动补全日期部分为服务启动时的日期

reBuildIndexBeginTime=03:10:00

至此就完成了定时增量更新的配置，启动tomcat服务器，不需要再浏览器请求增量导入了，可以看到已经开始定期增量更新了。

================================ 一般来说要在你的项目中引入Solr需要考虑以下几点：

1、数据更新频率：每天数据增量有多大，随时更新还是定时更新
2、数据总量：数据要保存多长时间
3、一致性要求：期望多长时间内看到更新的数据，最长允许多长时间延迟
4、数据特点：数据源包括哪些，平均单条记录大小
5、业务特点：有哪些排序要求，检索条件
6、资源复用：已有的硬件配置是怎样的，是否有升级计划

DIH增量、定时导入并检索数据--转载的更多相关文章

（四）DIH导入结构化数据
(四)DIH导入结构化数据目前大多数的应用程序将数据存储在关系数据库(如oracle.sql server .mysql等).xml文件中.对这样的数据进行搜索是很常见的应用.所谓的DataImpo ...
在Linux环境下，将Solr部署到tomcat7中，导入Mysql数据库数据，定时更新索引
什么是solr solr是基于Lucene的全文搜索服务器,对Lucene进行了扩展优化. 准备工作首先,去下载以下软件包: JDK8:jdk-8u60-linux-x64.tar.gz TOMCA ...
DOS 选择跳转实现、dos + bcp 双击导入和导出数据
DOS 选择跳转实现.dos + bcp 双击导入和导出数据 option.bat @echo off :Start2 cls goto Start :Start title Frequently U ...
Solr定时导入功能实现
需要实现Solr定时导入功能的话,我们可以通过使用Solr自身所集成的dataimportscheduler调度器实现下载对应的jar包,下载地址https://code.google.com/ar ...
Delphi Excel导入的通用程序转载
Delphi Excel导入的通用程序 (-- ::)转载▼ 标签: it 分类: Delphi相关步骤: 连excel(自己知道其格式,最好是没个字段在数据一一对应) 读excel数据,填入到数 ...
oracle 增量导出/导入
一. 导出/导入(Export/Import) ---- 利用Export可将数据从数据库中提取出来,利用Import则可将提取出来的数据送回Oracle数据库中去. ---- 1. ...
[diango]批量导入不重复数据
去年研究导入数据的时候写了一个批量导入数据的脚本,但有个问题,如果导入这批数据在数据库中已经存在,那么我们导入的数据不就重复了么,本文就讨论如何解决这个问题? 程序如下: #coding:utf-8 ...
java调用sqlldr导入csv文件数据到临时表
package cn.com.file;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File; ...
mysql-3 检索数据（1）
SELECT 语句 SELECT检索表数据,必须至少给出两条信息--------想选择什么,以及从什么地方选择. 检索一个列 SELECT prod_name FROM products; 上述语句利 ...

随机推荐

vim 查找
一.用/和?的区别:/后跟查找的字符串.vim会显示文本中第一个出现的字符串.?后跟查找的字符串.vim会显示文本中最后一个出现的字符串.二.注意事项:不管用/还是?查找到第一个字符串后,按回车,vi ...
Android开发笔记——图片缓存、手势及OOM分析
把图片缓存.手势及OOM三个主题放在一起,是因为在Android应用开发过程中,这三个问题经常是联系在一起的.首先,预览大图需要支持手势缩放,旋转,平移等操作:其次,图片在本地需要进行缓存,避免频繁访 ...
linux信号处理相关知识
因为要处理最近项目中碰上的多个子进程退出信号同时到达,导致程序不当产生core的情况,今天我花了时间看了一些关于linux信号处理的博客. 总结一下:(知识未经实践) linux信号分两种,一种实 ...
vue route.go 载入刷新
vue route 重新载入刷新: this.$router.go({path : 'path' , query: { param: this.param} })
springMVC 第一章
springMVC 第一章一.分层结构的项目组成方式: 表示层:页面,Servlet 业务层:业务逻辑类(service) 持久层:与数据库交互的类(dao) 程序执行的过程:表示层->se ...
Halcon算子解释
Halcon算子解释大全 Halcon/Visionpro视频教程和资料,请访问重码网,网址: http://www.211code.com Chapter 1 :Classification 1. ...
[T-ARA][Falling U]
歌词来源:http://music.163.com/#/song?id=27506041 作词:韩尚元 [作词:韩尚元] 作曲:韩尚元 [作曲:韩尚元] Love is pain Love is pa ...
Android 对话框(Dialogs)
对话框是提示用户作出决定或输入额外信息的小窗口. 对话框不会填充屏幕,通常用于需要用户采取行动才能继续执行的模式事件. 1.对话框设计如需了解有关如何设计对话框的信息(包括语言建议),请阅读对话框设 ...
Binary Tree（生成二叉树）
Description Background Binary trees are a common data structure in computer science. In this problem ...
20181016-4 Alpha阶段第1周/共2周 Scrum立会报告+燃尽图 02
此次作业要求参见 [https://edu.cnblogs.com/campus/nenu/2018fall/homework/2247] Scrum master:祁玉一.小组介绍组长:王一可 ...

DIH增量、定时导入并检索数据--转载

DIH增量、定时导入并检索数据--转载的更多相关文章

随机推荐

热门专题