solr特点九:word(分词)

【solr特点九:word(分词)】的更多相关文章

solr特点九:word(分词)

在Solr中配置中文分词IKAnalyzer 1.在配置文件schema.xml(位置{SOLR_HOME}/config/下),配置信息如下:  <fieldType name="text_ik" class="solr.TextField"> <analyzer type="index"> <tokenize…

Solr多核心及分词器(IK)配置多核心的概念多核心说白了就是多索引库.也可以理解为多个"数据库表" 说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索,不使用多核也没问题,这样带来的问题是 indexs文件很多,而且产品的索引文件和会员信息的索引文件混在一起,备份也是个问题. 如果使用了多核,那就很轻松了,产品和会员就可使用不同的URL进行提交了,业务上也很清晰,生成的索引文件也不会混在一起,也容易备份. 每个索引库通过相对独立的url访问. 多核心的配置…

Java——word分词·自定义词库

word: https://github.com/ysc/word word-1.3.1.jar 需要JDK8word-1.2.jar c语言给解析成了“语言”,自定义词库必须为UTF-8 程序一旦运行,停不下来!百度上百的主要是这个word分词,除了作者的微示例,没有别的例子,感觉全是作者自吹自擂出来的,不好用. import java.util.List; import org.apdplat.word.WordSegmenter; import org.apdplat.word.dicti…

全文检索引擎Solr系列——整合中文分词组件mmseg4j

默认Solr提供的分词组件对中文的支持是不友好的,比如:“VIM比作是编辑器之神”这个句子在索引的的时候,选择FieldType为”text_general”作为分词依据时,分词效果是: 它把每一个词都分开了,可以想象如果一篇文章这样分词的搜索的体验效果非常差.能够和Solr集成的中文分词组件有很多,比如:mmseg4j.IkAnalyzer.ICTCLAS等等.各有各的特点.这篇文章讲述如何整合Solr与mmseg4j.mmeseg4j最新版本是1.9.1,下载解压,提取其中的三个文件:mms…

在Solr中配置中文分词IKAnalyzer

李克华云计算高级群: 292870151 交流:Hadoop.NoSQL.分布式.lucene.solr.nutch 在Solr中配置中文分词IKAnalyzer 1.在配置文件schema.xml(位置{SOLR_HOME}/config/下),配置信息如下:  <fieldType name="text_ik" class="solr.TextField"> <…

Solr整合Ansj中文分词器

Ansj的使用和相关资料下载参考:http://iamyida.iteye.com/blog/2220833 参考 http://www.cnblogs.com/luxh/p/5016894.html 配置和solr和tomcat的 1.从http://iamyida.iteye.com/blog/2220833下载好Ansj需要的相关的资料,下面是已下载好的. Ansj资料: http://pan.baidu.com/s/1kTLGp7L 2.复制ansj相关文件到solr项目中 1)将an…

三、Solr多核心及分词器（IK）配置

多核心的概念多核心说白了就是多索引库.也可以理解为多个"数据库表" 说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索,不使用多核也没问题,这样带来的问题是 indexs文件很多,而且产品的索引文件和会员信息的索引文件混在一起,备份也是个问题. 如果使用了多核,那就很轻松了,产品和会员就可使用不同的URL进行提交了,业务上也很清晰,生成的索引文件也不会混在一起,也容易备份. 每个索引库通过相对独立的url访问. 多核心的配置还记得solr home吗,既然配置多…

solr配置ik中文分词（二）

上一篇文章主要介绍了solr的安装与配置,这篇文章主要记录如何使用ik分词器对中文进行分词. 步骤: 1.下载ik分词jar包:ik-analyzer-solr5-5.x.jar. 2.将下载的jar包拷贝到tomcat\webapps\solr\WEB-INF\lib下面. 3.打开并solrHome\newCore\conf目录下面的managed-schema文件,添加以下内容:  <fieldType name="text_ik" cl…

全文检索Solr集成HanLP中文分词

以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在Github上,欢迎改进. HanLP中文分词solr插件支持Solr5.x,兼容Lucene5.x. 图1 快速上手 1.将hanlp-portable.jar和hanlp-solr-plugin.jar共两个jar放入${webapp}/WEB-INF/lib下 2.修改solr core的配置…

solr建立pdf/word/excel索引的方法

PS: 本文假设你已经成功的搭建了一个Solr服务器步骤如下:(1)准备好一份Solr的源码,假设现在保存在c:\apache-solr-1.4.1\目录下(2)从https://issues.apache.org/jira/browse/SOLR-284 上下载最新的rich.patch, libs.zip和test-files.zip三个文件(3)解压libs.zip到c:\apache-solr-1.4.1\lib目录下,里面的jar就是负责分析Pdf.word和excel的(4)新建一个…