solr 导入数据
从sqlserver导入数据到solr, solr 采用的版本6.0.1,并且本机解压到:F:\Tool\solr-6.0.1;
1. 命令启动solr,创建core
启动,进入solr文件目录下,执行:bin\solr start -p 8984
创建core,执行:bin\solr create -c postcore
检查是否创建成功:http://127.0.0.1:8984/solr
2. jar包添加,下载地址 https://gist.github.com/maxivak/3e3ee1fca32f3949f052
- 下载jar包 sqljdbc4.jar , 并且复制到
F:\Tool\solr-6.0.1\server\solr-webapp\webapp\WEB-INF\lib
- 将solr-dataimporthandler-6.0.1.jar、solr-dataimporthandler-extras-6.0.1.jar复制到lib下面,这两个文件位置:
F:\Tool\solr-6.0.1\dist
复制到
F:\Tool\solr-6.0.1\server\solr-webapp\webapp\WEB-INF\lib
- 采用mmseg4j作为中文分词,下载mmseg4j-solr-2.3.0.jar、mmseg4j-core-1.10.0.jar ,并且复制到:
F:\Tool\solr-6.0.1\server\solr-webapp\webapp\WEB-INF\lib
3. 编辑solrconfig文件,添加dataimport
- 路径:
F:\Tool\solr-6.0.1\server\solr\postcore\conf
- 添加文本:
<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">data-config.xml</str>
</lst>
</requestHandler>
4. 编辑data-config.xml
- 路径,如果不存在data-config.xml则创建
F:\Tool\solr-6.0.1\server\solr\postcore\conf
- 添加文本,deltalImportQuery:增量操作,deltaQuery: 删除操作,对于其它字段所代表的意义简单,就不多做解释;
<?xml version="1.0" encoding="UTF-8" ?>
<dataConfig>
<dataSource type="JdbcDataSource"
driver="com.microsoft.sqlserver.jdbc.SQLServerDriver"
url="jdbc:sqlserver://127.0.0.1; databaseName=postdb"
user="sa"
password="123456"/>
<document>
<entity name="post"
pk="id"
query="SELECT TOP 1000 [id],[type],[isdel],[msg],[createUser],[createTime] FROM [postdb].[dbo].[post]"
deltalImportQuery="SELECT TOP 1000 [id],[type],[isdel],[msg],[createUser],[createTime] FROM [postdb].[dbo].[post] where id='${dih.delta.id}'"
deltaQuery ="select id from [postdb].[dbo].[post] where updated_ad>'${dih.last_index_time}'">
<field column="id" name="id" />
<field column="type" name="type" />
<field column="isdel" name="isdel" />
<field column="msg" name="msg" />
<field column="createUser" name="createUser" />
<field column="createTime" name="createTime" />
</entity>
</document>
</dataConfig>
5. 编辑managed-schema文件,solr6.0.1 没有schema.xml文件
- 打开managed-schema文件路径,路径:
F:\Tool\solr-6.0.1\server\solr\postcore\conf
- 配置分词
<fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100" multiValued="true">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex"/>
</analyzer>
</fieldtype>
<fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />
</analyzer>
</fieldtype>
<fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" />
</analyzer>
</fieldtype> - 配置field
- <field name="allmm" type="textComplex" multiValued="true" indexed="true" required="false" stored="false" />
<field name="type" type="int" indexed="true" stored="true" required="false" />
<field name="isDel" type="boolean" indexed="true" stored="true" required="false" />
<field name="msg" type="textComplex" indexed="true" stored="true" required="false" />
<field name="createUser" type="textComplex" indexed="true" stored="true" required="false" />
<field name="createTime" type="date" indexed="true" stored="true" required="false" /><copyField source="msg" dest="allmm" />
<copyFiled source="createUser" dest="allmm" />
<defaultSearchField>allmm</defaultSearchField>
<solrQueryParser defaultOperator="OR"/>
6. 重启solr服务
F:\Tool\solr-6.0.1>bin\solr restart -p 8984
7. 执行导入,点击 execute 按钮,全量导入;点击refresh Status按钮查看执行状态
9. 测试分词:可以看到在allmm,分词分为哪些,然后就可以根据这些分词进行查询;
10. 查询:关键字:“国家电网”,可以查询到数据,如果关键字是 “国家”,就不会查询到数据,这个是分词导致的
至此sqlserver 导入数据到solr,基本完成。
solr 导入数据的更多相关文章
- solr增量数据配置说明
转帖地址:http://www.blogjava.net/conans/articles/379546.html 以下资料整理自网络,觉的有必要合并在一起,这样方便查看.主要分为两部分,第一部分是对& ...
- 搜索引擎Solr系列(二): Solr6.2.1 从MySql中导入数据
一:建立MySql测试表,如下图: 二:solr导入配置: 1.新建demo core文件夹,并修改managed-schema里面的配置文件建立索引字段: 2.把mysql-connector-j ...
- Solr导入MySql中的数据
1.参照 http://www.cnblogs.com/luxh/p/5016894.html 部署好solr的环境 2.在solr_home下建立一个core_item目录 [root@iZ23ex ...
- Solr学习笔记之3、Solr dataimport - 从SQLServer导入数据建立索引
Solr学习笔记之3.Solr导入SQLServer数据建立索引 一.下载MSSQLServer的JDBC驱动 下载:Microsoft JDBC Driver 4.0 for SQL Server ...
- Solr导入数据库数据
接Solr-4.10.2与Tomcat整合.1.在solrconfig.xml中添加数据导入节点,solrconfig.xml路径为D:\solr\data\solr\collection1\conf ...
- Solr 07 - Solr从MySQL数据库中导入数据 (Solr DIH的使用示例)
目录 1 加入数据导入处理器的jar包 2 加入数据库驱动包 3 配置solrconfig.xml文件 3.1 配置lib标签 - 加入驱动jar包 3.2 配置requestHandler标签 - ...
- Solr导入MySQL数据之dataimport-handler
Solr不借助手动JSolr编程情况下也可以将Mysql的数据导入到Solr中.实现方式是安装dataimport-Handler从关系数据库将数据导入到索引库. 1.向SolrCore中加入jar包 ...
- solr特点六: DIH (从数据源导入数据)
在这个结构化数据和非结构化数据的数量都很庞大的年代,经常需要从数据库.XML/HTML 文件或其他数据源导入数据,并使数据可搜索.过去,要编写自定义代码才能创建到数据库.文件系统或 RSS 提要的自定 ...
- Solr导入MongoDB数据
数据导入方式: 全量导入和增量导入: query 是全量导入时,把你的数据中查到的数据全部导入,deltaImportQuery 和 deltaQuery 是增量导入数据所需要的两个查询语句.delt ...
随机推荐
- Web前端开发十日谈
=========================================================================== 原文章: http://kb.cnblogs.c ...
- 将HTML5 Canvas的内容保存为图片
主要思想是借助Canvas自己的API - toDataURL()来实现,整个实现 HTML + JavaScript的代码很简单. 代码如下: <html> <meta http- ...
- ComponentOne Studio for Enterprise 2015 v1 全新发布
ComponentOne Studio 即将发布2015年的第一个版本.2015 v1版本聚焦于优化性能.提升数据可视化能力.加强数据管理以及更人性的输入方式及报表解决方案. 免费下载试用 WinFo ...
- linux下安装或升级GCC4.8,以支持C++11标准
C++11标准在2011年8月份获得一致通过,这是自1998年后C++语言第一次大修订,对C++语言进行了改进和扩充.随后各编译器厂商都各自实现或部分实现了C++中的特性. 如需查看各编译器对C++1 ...
- OpenGL 圆角矩形
本来打算用四个圆角GL_TRIANGLE_FANS+两个矩形来填充, 后来经无情公子的提醒, 突然发现:"尼玛就是一压扁了的圆啊!" 于是全部用GL_TRIANGLE_FANS, ...
- Linux Shell系列教程之(十三)Shell分支语句case … esac教程
本文是Linux Shell系列教程的第(十三)篇,更多Linux Shell教程请看:Linux Shell系列教程 分支语句非常实用,基本上高级语言都支持分支语句(python 没有),大多数都使 ...
- PPP模式下的融资结构优化
PPPcode{white-space: pre;} pre:not([class]) { background-color: white; }if (window.hljs && d ...
- D/A转换器
电荷:带正负电的基本粒子.电的本质是使正负电荷分开,使电荷发生移动,实质是电子的转移,并不是创造电荷.电压:单位正电荷受电场力作用从A点移动到B点所做的功.电压方向从高电位指向低点位.电压是推动电荷定 ...
- Web前端小白入门指迷
前注:这篇文章首发于我自己创办的服务于校园的技术分享 [西邮 Upper -- 004]Web前端小白入门指迷,写得很用心也就发在这里. 大前端之旅 大前端有很多种,Shell 前端,客户端前端,Ap ...
- 【译】Dependency Injection with Autofac
先说下为什么翻译这篇文章,既定的方向是架构,然后为了学习架构就去学习一些架构模式.设计思想. 突然有一天发现依赖注入这种技能.为了使得架构可测试.易维护.可扩展,需要架构设计为松耦合类型,简单的说也就 ...