solr学习二（ExtractingRequestHandler）

通过ExtractingRequestHandler，slor能够读取word、pdf等文件，并用于全文搜索。废话少说，进入主题：
    solr服务端是配出来的：
    solrconfig.xml：
    <requestHandler name="/update/extract"
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      
      <str name="fmap.content">filestream</str>
      <str name="lowernames">true</str>
      <str name="uprefix">ignored_</str>

<str name="captureAttr">true</str>
      <str name="fmap.a">links</str>
      <str name="fmap.div">ignored_</str>
    </lst>
    <lst name="date.formats">
          <str>yyyy-MM-dd</str>
        </lst>
    </requestHandler>
   fmap.content是tika读取文件存放的位置，filestream是在schema.xml中的Field，该Field最好是stored="false"，因为根据文章内容建立索引后无需将文章保存。
    <str name="lowernames">true</str>建议去掉，不然Field中的字段都必须是小写！！（官网坑爹）
    <lst name="date.formats">制定格式为yyyy-MM-dd，Field只能接受yyyy-MM-dd格式的字符串。

schema.xml：
    要全文搜索的文本，我都是用了
<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
        
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
</fieldType>
必须有的几个Field（name自定义）：
<field name="id" type="string" indexed="true"
   stored="true" required="true"/>
<uniqueKey>id</uniqueKey>
solrconfig.xml中配置的filestream：
<field name="filestream" type="text_general" indexed="true" stored="true"
omitNorms="true"/>
也可以配置日期格式：
<field name="releasetime" type="date" indexed="true" stored="true" />

对于dynamicField，我的理解是为metadata准备的，metadata是tika中获取的文件的信息，如：
[Revision-Number, 2, Last-Author, 微软用户, Template, Normal.dot, Page-Count, 1, subject, , Application-Name, Microsoft Office Word, Author, 微软用户, Word-Count, 5, xmpTPg:NPages, 1, Edit-Time, 600000000, Creation-Date, 2012-02-14T02:30:00Z, Character Count, 32, stream_size, 24064, Company, 微软中国, Content-Type, application/msword, Keywords, , Last-Save-Date, 2012-02-14T02:31:00Z
]
当然，metadata也可以不用默认的属性，自己配存什么属性。

solr学习二（ExtractingRequestHandler）的更多相关文章

lucene&solr学习——solr学习(二) Solr管理索引库
1.什么是solrJ solrj是访问Solr服务的java客户端,提供索引和搜索的请求方法,SolrJ通常在嵌入在业务系统中,通过SolrJ的API接口操作Solr服务,如下图: 依赖jar包: 2 ...
Solr学习(2) Solr4.2.0+IK Analyzer 2012
Solr学习(二) Solr4.2.0+IK Analyzer 2012 开场白: 本章简单讲述如何在solr中配置著名的 IK Analyzer 分词器. 本章建立在 Solr学习(一) 基础上进 ...
Solr学习之二-Solr基础知识
一基本说明简单来说Solr是基于Lucene的高性能的,开源的Java企业搜索服务器.Solr可以看作一个Web app,运行在tomcat或Jetty这类HTTP服务器上, 底层是一个基于Luc ...
Solr学习之四-Solr配置说明之二
上一篇的配置说明主要是说明solrconfig.xml配置中的查询部分配置,在solr的功能中另外一个重要的功能是建索引,这是提供快速查询的核心. 按照Solr学习之一所述关于搜索引擎的原理中说明了建 ...
Solr学习总结（五）SolrNet的基本用法及CURD
上一篇已经讲到了Solr 查询的相关的参数.这里在讲讲C#是如何通过客户端请求和接受solr服务器的数据, 这里推荐使用SolrNet,主要是:SolrNet使用非常方便,而且用户众多,一直都在更新, ...
Solr学习笔记之3、Solr dataimport - 从SQLServer导入数据建立索引
Solr学习笔记之3.Solr导入SQLServer数据建立索引一.下载MSSQLServer的JDBC驱动下载:Microsoft JDBC Driver 4.0 for SQL Server ...
Solr学习笔记之2、集成IK中文分词器
Solr学习笔记之2.集成IK中文分词器一.下载IK中文分词器 IK中文分词器此文IK版本:IK Analyer 2012-FF hotfix 1 完整分发包二.在Solr中集成IK中文分词器 ...
Solr学习笔记之1、环境搭建
Solr学习笔记之1.环境搭建一.下载相关安装包 1.JDK 2.Tomcat 3.Solr 此文所用软件包版本如下: 操作系统:Win7 64位 JDK:jdk-7u25-windows-i586 ...
Solr学习笔记之5、Component（组件）与Handler（处理器）学习
Solr学习笔记之5.Component(组件)与Handler(处理器)学习一.搜索篇拼写检查(spellCheck) 作用:用来检查用户输入的检索内容是否存在,如果不存在则给它提示出相近或相似 ...

随机推荐

React 介绍
ttps://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Global_Objects/Function/bind The sm ...
Jersey 2.x 前言和约定的文本格式
这是Jersey 2.x 的用户指南.我们极力将它能与我们新增的功能保持一致.当阅读本指南,作为补充,也请移步至Jersey API documentation查看 Jersey 的特性和 API. ...
Pavel and barbecue CodeForces - 756A (排列,水题)
大意: 给定排列p, 0/1序列b, 有n个烤串, 每秒钟第i串会移动到$p_i$, 若$p_i$为1则翻面, 可以修改b和p, 求最少修改次数使得每串在每个位置正反都被烤过. 显然只需要将置换群合并 ...
Strip CodeForces - 487B (单调队列)
题面: Alexandra has a paper strip with n numbers on it. Let's call them ai from left to right. Now Ale ...
ccf窗口
#include<iostream> #include<cstring> #include<algorithm> #include<vector> us ...
Eclipse用了官方汉化后，无法输入
解决方法:Rclipse右键→属性→兼容性→windows vista
VirtualBox + Centos 使用NAT + Host-Only 方式联网
一.准备工作 1. VirtualBox 2. CentOS镜像备注:我这里准备好了需要下载的文件,有需要的话可以下载一下,分别是VirtualBox-5.1.24-117012-Win.exe,C ...
Intel daal4py demo运行过程
daal安装(记得先安装anaconda): git clone https://github.com/IntelPython/daal4py.git cd daal4py conda create ...
pyspark使用ipython
在Ubuntu下,安装ipython很简单: $sudo apt-get install ipython 在bash env中添加变量: export IPYTHON=1 export IPYTHON ...
0SGU 128 snake (&& ZOJ 3521) 尺取,排序二叉树,线段树难度:2
128. Snake time limit per test: 0.25 sec. memory limit per test: 4096 KB There are N points given by ...

solr学习二（ExtractingRequestHandler）

solr学习二（ExtractingRequestHandler）的更多相关文章

随机推荐

热门专题