关于Solr搜索标点与符号的中文分词你必须知道的(mmseg源码改造) 摘要:在中文搜索中的标点.符号往往也是有语义的,比如我们要搜索“C++”或是“C#”,我们不希望搜索出来的全是“C”吧?那样对程序员来说是个噩梦.然而在中文分词工具mmseg中,它的中文分词是将标点与符号均去除的,它认为对于中文来讲标点符号无意义,这明显不能满足我们的需求.那么怎样改造它让它符合我们的要求呢?本文就是针对这一问题的详细解决办法,我们改mmseg的源代码. 关键字:Solr, mmseg, 中文, 分词, 标点…
注意:基于lucene5.5.x版本 一.简单介绍下IK Analyzer IK Analyzer是linliangyi2007的作品,再此表示感谢,他的博客地址:http://linliangyi2007.iteye.com/ IK Analyzer支持两种分词,一种是最细粒度分词(推荐使用,Ik默认采用最细粒度),还有一种的智能分词(测试了一下智能分词还没有lucene自带的分词准确,呵呵了). 二.IK Analyzer兼容性问题解决办法 IKanalyzer目前最新版本只支持到lucen…
package com.jadyer.solrj; import java.util.ArrayList; import java.util.List; import org.apache.solr.client.solrj.SolrQuery; import org.apache.solr.client.solrj.SolrServer; import org.apache.solr.client.solrj.SolrServerException; import org.apache.sol…
Solr中虽然提供了一个中文分词器,但是效果很差,可以使用IKAnalyzer或Mmseg4j 或其他中文分词器. 一.IKAnalyzer分词器配置: 1.下载IKAnalyzer(IKAnalyzer2012_u6)包,当前使用版本IKAnalyzer2012_u6.jar 2.将IKAnalyzer2012_u6包下的IKAnalyzer.cfg.xml和stopword.dic复制到solr应用/WEB-INF/classes下. 3.在${solr_home}/[core路径下]/co…
搜索绝对不仅仅是搭起框架,跑出结果就完成的工作,之后分词.排序等等的优化才是重头戏. 先交代下背景:这个搜索是我一个人负责搭建并优化的项目,主要索引对象为歌曲.歌手MV等等. 使用技术:Lucene.IK_Analyzer 既然这篇博客是关于中文分词的优化,那么先看我现在的搜索有什么问题存在: 分词不准确 (1)如果搜索"没有你陪伴"时,排序在前面的歌曲为"陪伴",而本应排第一的"没有你陪伴真的好孤单"这首歌却在后面几页(因为没有"没有…
最近碰到一个分词匹配需求--给定一个关键词表,作为自定义分词词典,用户query文本分词后,是否有词落入这个自定义词典中?现有的大多数Java系的分词方案基本都支持添加自定义词典,但是却不支持HDFS路径的.因此,我需要寻找一种简单高效的分词方案,稍作包装即可支持HDFS.MMSeg分词算法正是完美地契合了这种需求. 1. MMseg简介 MMSeg是蔡志浩(Chih-Hao Tsai)提出的基于字符串匹配(亦称基于词典)的中文分词算法.基于词典的分词方案无法解决歧义问题,比如,"武汉市长江大桥…
Spring实战 读者评价 看了一半后在做评论,物流速度挺快,正版行货,只是运输过程有点印记,但是想必大家和你关注内容,spring 4必之3更加关注的是使用注解做开发,对于初学者还是很有用,但是不排除对老用户也很有帮助.,全书分为四大部分我目前只看到第三部分不做过多评价. 全书知识深度较浅, 但非常权威(针对Sp5.0会有部分过时内容), 且能够在如此有限的篇幅中覆盖如此广阔的内容, 实属不易也实属罕见. 第1部分(DI.AOP):稳扎稳打,巩固基础; 第2部分(Web):MVC最传统, 最精…
基本说明 Solr是一个开源项目,基于Lucene的搜索服务器,一般用于高级的搜索功能: solr还支持各种插件(如中文分词器等),便于做多样化功能的集成: 提供页面操作,查看日志和配置信息,功能全面. solr 7 + tomcat 8实现solr 7的安装 Solr自带集成jetty,但是一般都不直接使用,而是将solr另外和tomcat或jetty服务器集成到一起,形成搜索引擎. Solr 7解压后的目录: solr 7安装步骤: 将solr的server/solr-webapp/weba…
有近2年没接触Solr跟Lucene了,这2年自己跟solr/lucene都发生了很多变化.不过有种疏途同归的感觉,那就是都向分布式/云和监控靠了.2年前接触了solrcloud,那时大概玩了一周.那时很想玩cloud,但发现solrcloud并不是具有那种cloud.于是放弃了.现在发现solr4.0貌似集成了以前的solrcloud,通过zookeeper去管理集群.同时监控和运维管理方面也更加方便了.但具体没有多看,迫于业务的压力,也是火急火燎的赶紧给搭了个solr,以后再慢慢深入. 以前…
1.依赖: JDK1.6,Tomcat 5.5,Solr 4.0.0,IKAnalyzer 2012FF Tomcat虽然不是必须,但觉得上生产环境的话,还是得用Tomcat,便于统一管理和监控. Tomcat等你也可以用其他版本 2.下载: #Tomcat: wget http://archive.apache.org/dist/tomcat/tomcat-5/v5.5.35/bin/apache-tomcat-5.5.35.tar.gz #Solr wget Solr:  http://mi…