默认Solr提供的分词组件对中文的支持是不友好的,比如:“VIM比作是编辑器之神”这个句子在索引的的时候,选择FieldType为”text_general”作为分词依据时,分词效果是: 它把每一个词都分开了,可以想象如果一篇文章这样分词的搜索的体验效果非常差.能够和Solr集成的中文分词组件有很多,比如:mmseg4j.IkAnalyzer.ICTCLAS等等.各有各的特点.这篇文章讲述如何整合Solr与mmseg4j.mmeseg4j最新版本是1.9.1,下载解压,提取其中的三个文件:mms…
IK Analyzer是一款结合了词典和文法分析算法的中文分词组件,基于字符串匹配,支持用户词典扩展定义,支持细粒度和智能切分,比如: 张三说的确实在理 智能分词的结果是: 张三 | 说的 | 确实 | 在理 最细粒度分词结果: 张三 | 三 | 说的 | 的确 | 的 | 确实 | 实在 | 在理 整合IK Analyzer比mmseg4j要简单很多,下载解压缩IKAnalyzer2012FF_u1.jar放到目录:E:\solr-4.8.0\example\solr-webapp\webap…
MySQL 拷贝mysql-connector-java-5.1.25-bin.jar到E:\solr-4.8.0\example\solr-webapp\webapp\WEB-INF\lib目录下面 配置E:\solr-4.8.0\example\solr\collection1\conf\solrconfig.xml 1 2 3 4 5 6 <requestHandler name="/dataimport"      class="org.apache.solr.…
原文链接--http://www.importnew.com/12707.html 全文检索引擎Solr系列—–全文检索基本原理 2014/08/18 | 分类: 基础技术, 教程 | 2 条评论 | 标签: solr 分享到: 64 本文作者: ImportNew - 刘志军 未经许可,禁止转载! 场景:小时候我们都使用过新华字典,妈妈叫你翻开第38页,找到“坑爹”所在的位置,此时你会怎么查呢?毫无疑问,你的眼睛会从38页的第一个字开始从头至尾地扫描,直到找到“坑爹”二字为止.这种搜索方法叫做…
场景:小时候我们都使用过新华字典,妈妈叫你翻开第38页,找到“坑爹”所在的位置,此时你会怎么查呢?毫无疑问,你的眼睛会从38页的第一个字开始从头至尾地扫描,直到找到“坑爹”二字为止.这种搜索方法叫做顺序扫描法.对于少量的数据,使用顺序扫描是够用的.但是妈妈叫你查出坑爹的“坑”字在哪一页时,你要是从第一页的第一个字逐个的扫描下去,那你真的是被坑了.此时你就需要用到索引.索引记录了“坑”字在哪一页,你只需在索引中找到“坑”字,然后找到对应的页码,答案就出来了.因为在索引中查找“坑”字是非常快的,因为…
我用的Solr是4.10版本, 在csdn下载这个版本的IKAnalyzer:IK Analyzer 2012FF_hf1.zip 解压后目录如下: (1)这里还用solr自带的example实验分词效果,在如下的WEB-INF目录新建classes文件夹, 将IKAnalyzer.cfg.xml和stopword.dic拷贝到classes文件夹里面 (2)将IKAnalyzer2012FF_u1.jar拷贝到lib文件夹里面 (3)修改example\solr\collection1\con…
Document Document是Solr索引(动词,indexing)和搜索的最基本单元,它类似于关系数据库表中的一条记录,可以包含一个或多个字段(Field),每个字段包含一个name和文本值.字段在被索引的同时可以存储在索引中,搜索时就能返回该字段的值,通常文档都应该包含一个能唯一表示该文档的id字段.例如: 1 2 3 4 5 6 7 8 <doc>     <field name="id">company123</field>     &…
下载4.8.0版本,下载地址:http://archive.apache.org/dist/lucene/solr/4.8.0/ 解压后,得到文件夹视图如下: 解压缩solr,在example目录有start.jar文件,启动: D:\soft\apache\solr\solr-4.8.0\example>java -jar start.jar 浏览器访问:http://localhost:8983/solr/,你看到的就是solr的管理界面 索引数据 服务启动后,目前你看到的界面没有任何数据,…
全文检索引擎 Solr 部署与基本原理 搜索引擎Solr环境搭建实例 关于 solr , schema.xml 的配置说明 全文检索引擎Solr系列-–全文检索基本原理 一.搜索引擎Solr环境搭建实例 Solr服务器采用java5开发的,是基于Lucene全文搜索的.要想搭建Solr,首先进行java环境的配置,安装对应的jdk以及tomcat,在此就不多讲. 以下是在jdk1.7和tomcat1.7的环境下搭建最新版本的solr4.10.3. 具体步骤如下: 1.到官网http://luce…
全文检索引擎Solr系列:第一篇:http://t.cn/RP004gl.第二篇:http://t.cn/RPHDjk7 .第三篇:http://t.cn/RPuJt3T…