solr 4.8+mysql数据库数据导入 + mmseg4j中文全文索引配置笔记

转载请标明出处：http://www.cnblogs.com/chlde/p/3768733.html

1.如何将solr部署，请参考之前的文章

2.按上述配置好后，在solr_home文件夹中，将包含collection1文件夹，这就是solr的一个实例。下面我们来看看collection1中的文件内容。

collection1中包含conf和data两个子文件夹。data中包含tlog和index（如果没有也没关系，稍后再solr建立索引时，将会被创建）。tlog是记录日志的文件夹，index是存放索引的文件夹。conf中包含lang文件夹和若干文件。lang文件夹中包含的是词库文件，但是solr默认是没有中文词库的，所以之后会将中文词库加入该文件夹中。在conf中，包含了若干xml文件，我们针对solr配置，是需要配置solrconfig.xml和schema.xml即可。下面我们讲一下如何配置这两个文件。

3.先配置solrconfig.xml。solrconfig.xml是solr的核心文件。这里包含了jar包引用，数据库读取路径配置，操作接口配置。

jar包配置如下

     <lib dir="../contrib/extraction/lib" regex=".*\.jar" />

     <lib dir="../dist/" regex="solr-cell-\d.*\.jar" />

     <lib dir="../contrib/clustering/lib/" regex=".*\.jar" />

     <lib dir="../dist/" regex="solr-clustering-\d.*\.jar" />

     <lib dir="../contrib/langid/lib/" regex=".*\.jar" />

     <lib dir="../dist/" regex="solr-langid-\d.*\.jar" />

     <lib dir="../contrib/velocity/lib" regex=".*\.jar" />

     <lib dir="../dist/" regex="solr-velocity-\d.*\.jar" />

     <lib dir="../contrib/dataimporthandler/lib" regex=".*\.jar" />

     <lib dir="../dist/" regex="solr-dataimporthandler-\d.*\.jar" />

其中，最后两行是数据导入的handler，这包含了从数据库读取数据所需要的jar包。这些jar的目录都在solr_home\contrib这个文件夹中。

配置dataimporthandler

　　<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">

        <lst name="defaults">

          <str name="config">data-config.xml</str>

        </lst>

    </requestHandler>

这里需要你创建一个新的xml文件，放在conf文件夹中，命名为data-config.xml。内容如下

 <dataConfig>

    <dataSource type="JdbcDataSource"

               driver="com.mysql.jdbc.Driver"

               url="jdbc:mysql://localhost/yourDBname"

               user="root"

               password="root"/>

    <document>

     <entity name="question1" query="select Guid,title,QuesBody,QuesParse,QuesType from question1 where Guid is not null">

        <field column="Guid" name="id"/>

        <field column="title" name="question1_title"/>

        <field column="QuesBody" name="question1_body"/>

        <field column="QuesParse" name="question1_parse"/>

        <field column="QuesType" name="question1_type"/>

     </entity>

     <entity name="question2" query="select Guid,title,QuesBody,QuesParse,QuesType from question2 where Guid is not null">

        <field column="Guid" name="id"/>

        <field column="title" name="question2_title"/>

        <field column="QuesBody" name="question2_body"/>

        <field column="QuesParse" name="question2_parse"/>

        <field column="QuesType" name="question2_type"/>

     </entity>

   </document>

 </dataConfig>

如上，包含了datasource和document两个大标签。datasource正如其名，包含了数据库的配置信息。document包含了entity。entity就是一个从数据库读取数据的动作。

query就是读取数据所用的sql，field是数据库中的字段与schma中的字段进行匹配的列表。稍后在schma.xml的介绍中，将会详细说明。

我们回到solrconfig.xml中，requestHandler这里定义了相应http请求的接口。如之前配置的name为/dataimport接口，在中间件启动后，访问http://localhost:8080/solr/collection1/dataimport即可查看数据导入的状态。若执行命令，便可执行http://localhost:8080/solr/collection1/dataimport?command=full-import 即可（这句的含义是全部重新索引，之前的索引将被删除），其他命令，请参考http://www.cnblogs.com/llz5023/archive/2012/11/15/2772154.html。同理，通过相同的形式，即可实现对solr的增删改查。这里还能对requestHandler进行一些高级配置，感兴趣的同学可以到apache-solr-ref-guide-4.8中阅读。

4.schma.xml配置。schma.xml完成了对索引数据的类型配置和索引一些相关动作的配置（如分词方法配置）。

solr需要为每条索引定义一个id作为主键，而且在查询中必须要有字段与主键id进行对应，否则将会报错。如在data-config中的Guid与id进行匹配，将guid作为主键。

field为solr索引的基本类型，type的值与fieldType对应，即通过type为每个field指定一个fieldType，而fieldType将为field规定如何进行索引。

例如，我们将用mmseg4j对中文进行索引

 <!-- Chinese -->

     <fieldType name="text_chn_complex" class="solr.TextField" >

       <analyzer>

         <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="lang/chn.txt"/>

       </analyzer>

     </fieldType>

     <fieldType name="text_chn_maxword" class="solr.TextField" >

       <analyzer>

         <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="lang/chn.txt"/>

       </analyzer>

     </fieldType>

     <fieldType name="text_chn_simple" class="solr.TextField" >

       <analyzer>

         <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="lang/chn.txt"/>

       </analyzer>

     </fieldType>

如上，我们定义了三个fieldType，这三个表示了对中文进行索引的三种方式。都属于solr.TextField类。analyzer均为mmseg4j，只是使用的mode不同。dicPath即为词库所在位置。

 <field name="question1_type" type="text_chn_maxword" indexed="true" stored="true"/>

这里定义了一个名为question1_type的field，使用text_chn_maxword方式进行索引。

这里有一点是要注意的，solr中是没有and的，所以，要在多个字段查询匹配的关键字，要使用到copyField这个类型。

例如

     <field name="question2_title" type="text_chn_maxword" indexed="true" stored="true"/>

     <field name="question2_body" type="text_chn_maxword" indexed="true" stored="true"/>

     <field name="question2_text" type="text_chn_maxword" indexed="true" stored="true"  multiValued="true"/>

     <copyField source="question2_title" dest="question2_text"/>

     <copyField source="question2_body" dest="question2_text"/>

这里就是将question2_title和question2_body共同索引到question2_text中，这样只要question2_title或question2_body任意被关键字匹配，就会将question2_text返回。注意question2_text的multiValued="true"，这点是必须的。

5.遇到的问题

中文词库下载

http://download.labs.sogou.com/dl/sogoulabdown/SogouW/SogouW.zip

mmseg4j需要使用2.0以上版本，2.0一下在solr4.8中会有bug

https://code.google.com/p/mmseg4j/

JAVA工程师：chlde2500@gmail.com

solr 4.8+mysql数据库数据导入 + mmseg4j中文全文索引配置笔记的更多相关文章

三、Navicat将远程MySql数据库数据导入本地
1.安装本地的MySql.记住用户名和密码,这里以root,root为例. 2.打开Navicat,新建连接(连接),输入连接名,用户名,密码.确定,连接测试.这里连接名为luzhanshi.这样本地 ...
在Linux环境下，将Solr部署到tomcat7中，导入Mysql数据库数据，定时更新索引
什么是solr solr是基于Lucene的全文搜索服务器,对Lucene进行了扩展优化. 准备工作首先,去下载以下软件包: JDK8:jdk-8u60-linux-x64.tar.gz TOMCA ...
mysql数据库数据（字段数过大）太多导入不了的解决方法
mysql数据库数据(字段数过大)太多导入不了的决方法: 1.打开navicat 工具 2.在数据库上右键,执行右键菜单命令“命令列界面” 3.在打开的窗口中,运行set global max_all ...
linux mysql 数据库操作导入导出数据表导出导入
linux mysql 数据库操作导入导出数据表导出导入 1,数据库导入 mysql -uroot -p show databases; create database newdb; use 数据库 ...
从Mysql数据库中导入导出表结构
1.从Mysql数据库中导入sql表很简单,只需要一个命令即可搞定:[root@localhost ~]# mysql -uroot -piweb_xxx_mysql iweb < modif ...
利用Java进行MySql数据库的导入和导出
利用Java来进行Mysql数据库的导入和导出的总体思想是通过Java来调用命令窗口执行相应的命令. MySql导出数据库的命令如下: mysqldump -uusername -ppassword ...
使用pentaho工具将数据库数据导入导出为Excel
写在前面:本篇博客讲述的是如何使用pentaho工具快速的将数据库数据导出为Excel文件,以及如何将Excel文件数据导入数据库. 补充:使用此工具并不需要任何一句代码并能快速便捷解决实际问题,此工 ...
使用pandas把mysql的数据导入MongoDB。
使用pandas把mysql的数据导入MongoDB. 首先说下我的需求,我需要把mysql的70万条数据导入到mongodb并去重, 同时在第二列加入一个url字段,字段的值和第三列的值一样,代码如 ...
MySQL数据库的导入方法
问题如何导入MySQL数据库解决方案 1. 概述MySQL数据库的导入,有两种方法:1) 先导出数据库SQL脚本,再导入:2) 直接拷贝数据库目录和文件. 在不同操作系统或MySQL版本情况下,直 ...

随机推荐

LeetCode -- 1038. Binary Search Tree to Greater Sum Tree
/** * Definition for a binary tree node. * struct TreeNode { * int val; * TreeNode *left; * TreeNode ...
Linux+Apache下如何安装SSL证书
最近很多站长在问linux系统平台下如何安装SSL证书?Linux+Apache下如何安装SSL证书?本文整理了关于Linux+Apache下如何安装SSL证书的相关教程供大家参考,更多SSL证书安装 ...
S-HR二开基础
检测是否某个类部署上去了:http://10.3.0.115:6888/easportal/tools/getclassurl.jsp?className=com.kingdee.eas.hr.ser ...
[kernel学习]----如何debug kernel
#ll /sys/kernel/debug/tracing/events/kmem total 0 -rw-r--r-- 1 root root 0 Feb 3 20:17 enable -rw-r- ...
爬虫数据使用MongDB保存时自动过滤重复数据
本文转载自以下网站: 爬虫断了?一招搞定 MongoDB 重复数据 https://www.makcyun.top/web_scraping_withpython13.html 需要学习的地方: Mo ...
利用pandas库中的read_html方法快速抓取网页中常见的表格型数据
本文转载自:https://www.makcyun.top/web_scraping_withpython2.html 需要学习的地方: (1)read_html的用法作用:快速获取在html中页面 ...
利用Flask-SQLAlchemy提供的paginate()方法实现博客文章的分页显示
在开发blog系统的时候,我们有一个需求,就是要显示作者已经发表的blog文章的列表,或显示作者关注者的文章列表.实现这个功能并不复杂,只需要在存储文章的数据库中过滤出指定作者的文章,然后渲染HTML ...
IntelliJ IDEA 和 webstorm更换主题
1. 搜索http://color-themes.com/?view=index 2. 查找自己喜欢的主题,下载 3. 放在安装位置(个人习惯,放在哪都行,能找到就行) 4. 然后打开importSe ...
【Codeforces 350B】Resort
[链接] 我是链接,点我呀:) [题意] [题解] 我们可以把原图的边都反向一下. 然后以每个休息点作为起点,进行dfs. 每次在扩展节点y的时候,要求这个点y必须只有一个出度,然后就能走多远就走多远 ...
MySQL日志格式 binlog_format
MySQL 5.5 中对于二进制日志 (binlog) 有 3 种不同的格式可选:Mixed,Statement,Row,默认格式是 Statement.总结一下这三种格式日志的优缺点. MySQL ...

solr 4.8+mysql数据库数据导入 + mmseg4j中文全文索引 配置笔记

solr 4.8+mysql数据库数据导入 + mmseg4j中文全文索引 配置笔记的更多相关文章

随机推荐

热门专题

solr 4.8+mysql数据库数据导入 + mmseg4j中文全文索引配置笔记

solr 4.8+mysql数据库数据导入 + mmseg4j中文全文索引配置笔记的更多相关文章