在这个结构化数据和非结构化数据的数量都很庞大的年代,经常需要从数据库、XML/HTML 文件或其他数据源导入数据,并使数据可搜索。过去,要编写自定义代码才能创建到数据库、文件系统或 RSS 提要的自定义连接。但现在,Solr 的 DataImportHandler(DIH)填补了这个空白,它使您能够从数据库(通过 JDBC)、RSS 提要、Web 页面和文件中导入数据。DIH 位于 apache-1.3.0/contrib/dataimporthandler 中,是 apache-1.3.0/dist/apache-solr-dataimporthandler-1.3.0.jar 中的一个 JAR 文件。

DataImportHandler警告

DataImportHandler不是文件 /Web 爬行器(crawler),它不直接支持从二进制文件格式中提取内容,比如 MS Office、Adobe PDF 或其他专有格式。本文没有详尽地介绍 DIH,如果要了解更多信息,请参见 参考资料

在概念上,DIH 可以分解为几个简单的部分:

  • DataSource:获取内容的数据库、Web 页面、RSS 提要或 XML 文件。
  • 文档 / 实体声明:指定 DataSource的内容与 Solr 模式之间的映射。
  • 导入:Solr 命令,使用它既可以进行完全导入,也可以只导入已经更改的实体的 增量导入
  • EntityProcessor:用于映射的代码。Solr 自带四个工具:
    • FileListEntityProcessor:在目录上迭代并导入文件。
    • SqlEntityProcessor:连接到一个数据库并导入记录。
    • CachedSqlEntityProcessor:将缓存添加到 SqlEntityProcessor
    • XPathEntityProcessor:使用 XPath 语句从 XML 文件抽取内容。
  • Transformer:用户定义的、可选的代码,用于在添加到 Solr 之前转换导入的内容。例如,DateFormatTransformer能够标准化日期。
  • 变量替代:用运行时的值替代占位符变量。

首先,我需要设置一个 SolrRequestHandler将 DIH 和 Solr 关联起来。该设置要在 solr-dw/rss/conf/solrconfig.xml 文件中进行,如清单 6 所示:

清单 6. 将 DIH 和 Solr 关联起来
 <requestHandler name="/dataimport"
class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">rss-data-config.xml</str>
</lst>
</requestHandler>

该配置表明:我可以通过 http://localhost:8983/solr/rss/dataimport 找到 DataImportHandler实例;该实例必须使用一个名为 rss-data-config.xml 的配置文件(位于 solr_dw/rss/conf 目录)来获取它的设置信息。到目前为止,一切都相当简单。

拨开下一层面纱,rss-data-config.xml 文件就是声明和使用 DataSource、实体和 Transformer的地方。在这个例子中,首先遇到的 XML 标记(在根元素后面)为 DataSource声明,如清单 7 所示:

清单 7. DataSource声明
 <dataSource name="ratings" driver="org.postgresql.Driver"
url="jdbc:postgresql://localhost:5432/solr_dw" user="solr_dw" />
<dataSource name="rss" type="HttpDataSource" encoding="UTF-8"/>

清单 7 中的第一个声明设置一个与我的数据库相连接的 DataSource。它被命名为 ratings,因为我的评级信息就储存在里面。注意,虽然我没有为数据库用户设置密码,但实际可以向标记添加密码属性。如果了解 JDBC 设置的话,那么就应该很熟悉这个 DataSource声明了。第二个DataSource名为 rss,它声明内容将要通过 HTTP 来获取。稍后将声明这个 DataSource的 URL。

下一个值得讨论的标记是 <entity>标记。它用来指定如何将 RSS 提要和数据库的内容映射到 Solr Document。一个实体就是被索引为一个单一文档的内容单位。例如,在一个数据库中,实体声明规定了如何将每一行转换成 Document中的 Field。一个实体里又可以包含一个或多个实体,因此子实体就变成整体 Document的 Field结构。

至此,来自 rss-data-config.xml 的带注释的示例可以清楚地说明与实体相关的大部分信息。在这个例子中,主实体从一个 RSS 提要获取内容,并将其与数据库中的行相关联以获得评级。清单 8 是一个缩略的 RSS 提要示例:

清单 8. 缩略的 RSS 反提要
 <rss version="2.0"
xmlns:content="http://purl.org/rss/1.0/modules/content/"
xmlns:wfw="http://wellformedweb.org/CommentAPI/"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:atom="http://www.w3.org/2005/Atom"
>
<channel>
<title>Grant's Grunts: Lucene Edition</title>
<link>http://lucene.grantingersoll.com</link>
<description>Thoughts on Apache Lucene, Mahout,
Solr, Tika and Nutch</description>
<pubDate>Wed, 01 Oct 2008 12:36:02 +0000</pubDate>
<item>
<title>Charlotte JUG >> OCT 15TH - 6PM -
Search and Text Analysis</title>
<link>http://lucene.grantingersoll.com/2008/10/01/
charlotte-jug-%c2%bb-oct-15th-6pm-search-and-text-analysis/</link>
<pubDate>Wed, 01 Oct 2008 12:36:02 +0000</pubDate>
<category><![CDATA[Lucene]]></category>
<category><![CDATA[Solr]]></category>
<guid isPermaLink="false">http://lucene.grantingersoll.com/?p=112</guid>
<description><![CDATA[Charlotte JUG >> OCT 15TH - 6PM - Search and Text Analysis
I will be speaking at the Charlotte Java Users Group on Oct. 15th, covering things
like Lucene, Solr, OpenNLP and Mahout, amongst other things.
]]></description>
</item>
</channel>

与此同时,数据库中的一行包含提要中的文章的 URL、一个评级(我随便编的)和一个修改日期。现在,我只需将它映射到 Solr 就可以了。为了完成此工作,我将逐行解释 rss-data-config.xml 中的实体声明,如清单 9 所示(它包含行数和换行符,以获得良好的格式):

清单 9. 实体声明
 1. <entity name="solrFeed"
2.pk="link"
3.url="http://lucene.grantingersoll.com/category/solr/feed"
4.processor="XPathEntityProcessor"
5.forEach="/rss/channel | /rss/channel/item"
6. dataSource="rss"
7. transformer="DateFormatTransformer">
8. <field column="source" xpath="/rss/channel/title"
commonField="true" />
9. <field column="source-link" xpath="/rss/channel/link"
commonField="true" />
10. <field column="title" xpath="/rss/channel/item/title" />
11. <field column="link" xpath="/rss/channel/item/link" />
12. <field column="description"
xpath="/rss/channel/item/description" />
13. <field column="category" xpath="/rss/channel/item/category" />
14. <field column="content" xpath="/rss/channel/item/content" />
15. <field column="date" xpath="/rss/channel/item/pubDate"
dateTimeFormat="EEE, dd MMM yyyy HH:mm:ss Z" />
16. <entity name="rating" pk="feed"
query="select rating from feeds where feed = '${solrFeed.link}'"
17. deltaQuery="select rating from feeds where feed = '${solrFeed.link}'
AND last_modified > '${dataimporter.last_index_time}'"
18. dataSource="ratings"
19. >
20. <field column="rating" name="rating"/>
21. </entity>
22. </entity>
  • 第 1 行:实体名(solrFeed)。
  • 第 2 行:该项的可选主键,只有在导入增量时才用得到。
  • 第 3 行:将要获取的 URL —在这个用例中是我在 Solr 上的博客站点。
  • 第 4 行:用于从原始源映射内容的 EntityProcessor
  • 第 5 行:用于指定如何从 XML 获取记录的 XPath 表达。(XPath 提供一种在 XML 文件中指定特定元素或属性的方法。如果不熟悉 XPath 表达的话,请参阅 参考资料)。
  • 第 6 行:要使用的 DataSource的名称。
  • 第 7 行:用于将字符串解析成 java.util.Date的 DateFormatTransformer
  • 第 8 行:将通道名称(博客名称)映射到以 Solr 模式字段命名的数据源。此过程每个通道只发生一次,因此 commonField属性指定该值必须用于每一个数据项。
  • 第 9-14 行:将 RSS 提要的其他部分映射到 Solr Field
  • 第 15 行:映射出版日期,但使用 DateFormatTransformer将值解析为一个 java.util.Date对象。
  • 第 16-21 行:从数据库获取每一篇文章的评级的子实体。
  • 第 16 行query属性指定要运行的 SQL。${solrFeed.link}值被代替变量解析为每一篇文章的 URL。
  • 第 17 行:导入增量时要运行的查询。${dataimporter.last_index_time}由 DIH 提供。
  • 第 18 行:使用 JDBC DataSource
  • 第 20 行:将数据库中的评级栏映射到评级字段。如果未指定名称属性,将默认使用栏名。

下一步是运行导入。这可以通过提交 HTTP 请求来实现:

http://localhost:8983/solr/rss/dataimport?command=full-import

该请求先将所有的文档从索引中移除,然后再进行完全导入。再强调一遍,这个请求首先从索引中移除全部文档,一定要警惕这一点。您可以随时浏览 http://localhost:8983/solr/rss/dataimport 获取 DIH 的状态。在这个用例中,我的输出如清单 10 所示:

清单 10. 导入结果
 <response>
<lst name="responseHeader">
<int name="status">0</int>
<int name="QTime">0</int>
</lst>
<lst name="initArgs">
<lst name="defaults">
<str name="config">rss-data-config.xml</str>
</lst>
</lst>
<str name="status">idle</str>
<str name="importResponse"/>
<lst name="statusMessages">
<str name="Total Requests made to DataSource">11</str>
<str name="Total Rows Fetched">13</str>
<str name="Total Documents Skipped">0</str>
<str name="Full Dump Started">2008-10-03 10:51:07</str>
<str name="">Indexing completed. Added/Updated: 10 documents.
Deleted 0 documents.</str>
<str name="Committed">2008-10-03 10:51:18</str>
<str name="Optimized">2008-10-03 10:51:18</str>
<str name="Time taken ">0:0:11.50</str>
</lst>
<str name="WARNING">This response format is experimental. It is
likely to change in the future.</str>
</response>

增量导入功能

使用数据库时,在完全导入之后,下一次只需导入那些改变了的记录。这个功能就叫做 增量导入。不幸的是,它还不能适用于 RSS 提要。要是可以的话,命令应该是这样的:
http://localhost:8983/solr/rss/dataimport?command=delta-import

您为其创建索引的文档的数量可能与我不同(因为我有可能会把其他 Solr 文章添加到提要)。为文档创建索引之后,我就可以查询索引了,就像在http://localhost:8983/solr/rss/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on中一样,它返回了带索引的全部文档,共 10 篇。

有了这些准备,您就可以使用 DIH 了。再深入一些,就是如何替换变量和如何编写Transformer了。要想学习更多有关此话题的知识,请参见 参考资料中的DataImportHandlerwiki 页面链接。

solr特点六: DIH (从数据源导入数据)的更多相关文章

  1. Jpa生成mysql注释,添加ODBC数据源导入数据到EA

    通过Jpa 注解生成表注释 实体类中使用如下注解,生成表字段注释: @Column(name = "userid", columnDefinition = "varcha ...

  2. 从JSON数据源导入数据(未完)

  3. Python数据可视化编程实战——导入数据

    1.从csv文件导入数据 原理:with语句打开文件并绑定到对象f.不必担心在操作完资源后去关闭数据文件,with的上下文管理器会帮助处理.然后,csv.reader()方法返回reader对象,通过 ...

  4. Solr 07 - Solr从MySQL数据库中导入数据 (Solr DIH的使用示例)

    目录 1 加入数据导入处理器的jar包 2 加入数据库驱动包 3 配置solrconfig.xml文件 3.1 配置lib标签 - 加入驱动jar包 3.2 配置requestHandler标签 - ...

  5. solr 导入数据

    从sqlserver导入数据到solr, solr 采用的版本6.0.1,并且本机解压到:F:\Tool\solr-6.0.1: 1. 命令启动solr,创建core 启动,进入solr文件目录下,执 ...

  6. Solr学习笔记2(V7.2)---导入自己的数据

    学而不思则罔,思而不学则殆,总是看文档不动手效果是不好的.没有实地的从自己的数据库获取数据测试一下始终是空,总结一下自己的操作步骤吧. 第一步准备配置文件 E:\Solr\server\solr\co ...

  7. Solr基础知识二(导入数据)

    上一篇讲述了solr的安装启动过程,这一篇讲述如何导入数据到solr里. 一.准备数据 1.1 学生相关表 创建学生表.学生专业关联表.专业表.学生行业关联表.行业表.基础信息表,并创建一条小白的信息 ...

  8. 搜索引擎Solr系列(二): Solr6.2.1 从MySql中导入数据

     一:建立MySql测试表,如下图: 二:solr导入配置: 1.新建demo core文件夹,并修改managed-schema里面的配置文件建立索引字段: 2.把mysql-connector-j ...

  9. 多表利用DIH批量导入数据并建立索引注意事项

    如果希望同时对多个表进行全文检索,那我们该如何处理呢?利用DIH导入数据并建立索引时.schema.xml中配置了uniqueKey为id <uniqueKey>id</unique ...

随机推荐

  1. Linux Expect 简介和使用实例

    expect简介和使用实例 1 expect 简介 expect 是用来进行自动化控制和测试的工具. 主要是和交互式软件telnet ftp passwd fsck rlogin ssh tip 等进 ...

  2. mysql-7事务管理

    1.事务的使用场景 mysql事务主要用于处理操作量大,复杂度高的数据.比如说,在人员管理系统中,你删除一个人愿,你既需要删除人员的基本资料,也要删除和该人员相关的信息,如信箱,文章等等,这样,这些数 ...

  3. 【UVA】10891 Game of Sum(区间dp)

    题目 传送门:QWQ 分析 大力dp.用$ dp[i][j] $表示$ [i,j] $A能得到的最高分 我看到博弈论就怂... 代码 #include <bits/stdc++.h> us ...

  4. 关于phpmailer邮件发送

    今天有个需求,要把phpmailer集成到框架里面 所以我去官方下载了 phpmail5.2.6 地址在 https://github.com/PHPMailer/PHPMailer/releases ...

  5. IDEA 配置Jrebet 自动加载Java类,

    官方文档地址: http://manuals.zeroturnaround.com/jrebel/ide/intellij.html#installation 过期激活 https://blog.cs ...

  6. $(function(){})理解

    $(function(){})  =  jQuery(function(){}) = jQuery(document).ready(function(){ });

  7. MVC表单提交写法1

    初学MVC,感觉跟以前的aspx页面差别很大,我们就先来看看MVC的表单是怎么提交的吧. 现在我们用一个最简单的例子来看一看MVC是怎么提交表单的(这一个例子中,我们的关注点是如何提交表单,所以不涉及 ...

  8. css继承和层叠

    在前面介绍了如何利用文档结构和css选择器为元素应用各种丰富的样式,今天来好好聊聊css的层叠和继承,先说说概念. 继承:一个元素向其后代元素传递属性值所采用的机制,说的通俗点,就是元素的某些属性可以 ...

  9. ProjectLeader感悟

    1 首先项目的目标清晰明确,开发的方案也必须清晰明确. 确保两点的做法,是面对面的访谈,很简单的可以打电话或者QQ或者邮件:方案要多次揣摩,设计出合理的方案.如果发以上两点做不好,你就会受到组员的鄙视 ...

  10. 93. Restore IP Addresses(dfs)

    Given a string containing only digits, restore it by returning all possible valid IP address combina ...