刚接触Lucene2.x和Solr2.x的时候,谈到中文分词,会让我立即想到用庖丁中文分词,庖丁中文分词因巨大的中文词库以及支持不限制个数的用户自定义词库,而且是纯文本格式,一行一词,使用后台线程检测词库的更新,自动编译更新过的词库到二进制版本而出名。

几年过去了,Lucene和Solr都发展到了4.7.x版本,重拾中文分词,发现庖丁中文分词不再是首选,mmseg4j是更佳的选择。

mmseg4j支持最多分词,是一款很优秀的中文分词器,是用Chih-Hao Tsai 的 MMSeg 算法( http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。

要想在Solr中整合mmseg4j其实很容易,只需要如下几个步骤

1、下载( https://code.google.com/p/mmseg4j/downloads/list )并解压mmseg4j-1.9.1.zip,把dist下面的所有jar文件拷贝到你应用服务器下的 solr /WEB-INF/lib中。(如果你的应用服务器下面没有 solr ,请参考《Tomcat中安装Solr》)。

有3个jar文件:mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar,mmseg4j-solr-1.9.1.jar。

顺便提下,如果是在mmseg4j-1.9.0前, 则需要copy data目录到solr_home/solr中(与core平级),并改名为dic。进入到你想使用mmseg4j分词器的core中(此处以solr自带的collection1为例),用编辑器打开collection1/conf/schema.xml配置文件,添加如下代码:

  1. <!-- mmseg4j分词器 -->
  2. <fieldType name="text_mmseg4j" class="solr.TextField" >
  3. <analyzer type="index">
  4. <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="../dic" /><!--此处为分词器词典所处位置-->
  5. </analyzer>
  6. <analyzer type="query">
  7. <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="../dic" /><!--此处为分词器词典所处位置-->
  8. </analyzer>
  9. </fieldType>

2、 在mmseg4j-1.9.0后,如本例的mmseg4j-1.9.1中 ,就 可以不用 dicPath 参数,可以使用 mmseg4j-core-1.9.0.jar 里的 words.dic ,在Schema.xml中加入如下配置

  1. <!-- mmseg4j-->
  2. <fieldType name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100" >
  3. <analyzer>
  4. <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
  5. </analyzer>
  6. </fieldType>
  7. <fieldType name="text_mmseg4j_maxword" class="solr.TextField" positionIncrementGap="100" >
  8. <analyzer>
  9. <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>
  10. </analyzer>
  11. </fieldType>
  12. <fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100" >
  13. <analyzer>
  14. <!--
  15. <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/>
  16. -->
  17. <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>
  18. </analyzer>
  19. </fieldType>
  20. <!-- mmseg4j-->

3、引用mmseg4j分词器

只需要在该schema.xml中加入如下配置便可引用对应的mmseg4j分词器

  1. <field name="mmseg4j_complex_name" type="text_mmseg4j_complex" indexed="true" stored="true"/>
  2. <field name="mmseg4j_maxword_name" type="text_mmseg4j_maxword" indexed="true" stored="true"/>
  3. <field name="mmseg4j_simple_name" type="text_mmseg4j_simple" indexed="true" stored="true"/>

通过以上步骤就可以成功配置mmseg4j分词器到solr中了。

然后就可以打开Solr Admin的Page进行分词分析了。但当输入中文(华南理工大学)并点击“Analyse Values”进行分析时,会发现如下的错误:  TokenStream contract violation: reset()/close() call missing, reset() called multiple times, or subclass does not call super.reset(). Please see Javadocs of TokenStream class for more information about the correct consuming workflow.


该原因是源码的一个bug引起的,需要修改上面下载的mmseg4j-analysis-1.9.1.zip解压后的mmseg4j-analysis目录下的类:MMSegTokenizer.java,修改reset()方法并加上下面注释中的这一句

  1. public void reset() throws IOException {
  2. //lucene 4.0
  3. //org.apache.lucene.analysis.Tokenizer.setReader(Reader)
  4. //setReader 自动被调用, input 自动被设置。
  5. super.reset(); //加这一句
  6. mmSeg.reset(input);
  7. }

修改后运行mvn clean package -DskipTests进行打包得到最新的mmseg4j-analysis-1.9.1.jar 并替换Tomcat下的solr下的WEB-INF/lib下的mmseg4j-analysis-1.9.1.jar。

重新启动Tomcat并访问Solr Admin Page,并在“Analysis”中输入中文进行分析,可以看到已经成功的进行分析。

这样这个Bug就解决了。

另外,mmseg4j中文分词和庖丁中文分词的对比效果可以参照下面的结果,从结果可以看出,mmseg4j比起庖丁中文分词来说,是更好的选择。

paoding 分词效果:

  1. --------------------------
  2. 清华大学
  3. 清华 | 大 | 华大 | 大学 |
  4. --------------------------
  5. 华南理工大学
  6. 华南 | 理工 | 大 | 大学 |
  7. --------------------------
  8. 广东工业大学
  9. 广东 | 工业 | 大 | 业大 | 大学 |
  10. --------------------------
  11. 西伯利亚
  12. 西伯 | 伯利 | 西伯利亚 |
  13. --------------------------
  14. 研究生命起源
  15. 研究 | 研究生 | 生命 | 起源 |
  16. --------------------------
  17. 为首要考虑
  18. 为首 | 首要 | 考虑 |
  19. --------------------------
  20. 化装和服装
  21. 化装 | 和服 | 服装 |
  22. --------------------------
  23. 中国人民银行
  24. 中国 | 国人 | 人民 | 银行 |
  25. --------------------------
  26. 中华人民共和国
  27. 中华 | 华人 | 人民 | 共和 | 共和国 |
  28. --------------------------
  29. 羽毛球拍
  30. 羽毛 | 羽毛球 | 球拍 |
  31. --------------------------
  32. 人民币
  33. 人民 | 人民币 |
  34. --------------------------
  35. 很好听
  36. 很好 | 好听 |
  37. --------------------------
  38. 下一个
  39. 下一 | 一个 |
  40. --------------------------
  41. 为什么
  42. 为什么 |
  43. --------------------------
  44. 北京首都机场
  45. 北京 | 首都 | 机场 |
  46. --------------------------
  47. 东西已经拍卖了
  48. 东西 | 已经 | 拍卖 | 卖了 |
  49. --------------------------
  50. 主人因之生气
  51. 主人 | 生气 |
  52. --------------------------
  53. 虽然某些动物很凶恶
  54. 动物 | 凶恶 |
  55. --------------------------
  56. 朋友真背叛了你了
  57. 朋友 | 真 | 背叛 |
  58. --------------------------
  59. 建设盒蟹社会
  60. 建设 | 盒蟹 | 社会 |
  61. --------------------------
  62. 建设盒少蟹社会
  63. 建设 | 盒少 | 少蟹 | 社会 |
  64. --------------------------
  65. 我们家门前的大水沟很难过。
  66. 我们 | 家门 | 前 | 门前 | 前的 | 大 | 大水 | 水沟 | 很难 | 难过 |
  67. --------------------------
  68. 罐头不如果汁营养丰富。
  69. 罐头 | 不如 | 如果 | 果汁 | 营养 | 丰富 |
  70. --------------------------
  71. 今天真热,是游泳的好日子。
  72. 今天 | 天真 | 热 | 游泳 | 日子 | 好日子 |
  73. --------------------------
  74. 妹妹的数学只考十分,真丢脸。
  75. 妹妹 | 数学 | 只考 | 十分 | 真 | 丢脸 |
  76. --------------------------
  77. 我做事情,都是先从容易的做起。
  78. 做事 | 事情 | 都是 | 先从 | 从容 | 容易 | 容易的 | 做起 |
  79. --------------------------
  80. 老师说明天每个人参加大队接力时,一定要尽力。
  81. 老师 | 师说 | 说明 | 明天 | 每个 | 个人 | 人参 | 参加 | 大 | 加大 | 大队 | 接力 | 时 | 一定 | 定要 | 要尽 | 尽力 |
  82. --------------------------
  83. 小明把大便当作每天早上起床第一件要做的事
  84. 小明 | 大 | 大便 | 便当 | 当作 | 每天 | 早上 | 上起 | 起床 | 床第 | 第一 | 一件 | 要做 | 做的 | 的事 |

mmseg4j maxword 分词效果:

  1. --------------------------
  2. 清华大学
  3. 清华 | 大学 |
  4. --------------------------
  5. 华南理工大学
  6. 华南 | 理工 | 工大 | 大学 |
  7. --------------------------
  8. 广东工业大学
  9. 广东 | 工业 | 大学 |
  10. --------------------------
  11. 西伯利亚
  12. 西 | 伯利 | 利亚 |
  13. --------------------------
  14. 研究生命起源
  15. 研究 | 生命 | 起源 |
  16. --------------------------
  17. 为首要考虑
  18. 为首 | 要 | 考虑 |
  19. --------------------------
  20. 化装和服装
  21. 化装 | 和 | 服装 |
  22. --------------------------
  23. 中国人民银行
  24. 中国 | 国人 | 人民 | 银行 |
  25. --------------------------
  26. 中华人民共和国
  27. 中华 | 华人 | 人民 | 共和 | 国 |
  28. --------------------------
  29. 羽毛球拍
  30. 羽毛 | 球拍 |
  31. --------------------------
  32. 人民币
  33. 人民 | 币 |
  34. --------------------------
  35. 很好听
  36. 很好 | 好听 |
  37. --------------------------
  38. 下一个
  39. 下一 | 一个 |
  40. --------------------------
  41. 为什么
  42. 为 | 什么 |
  43. --------------------------
  44. 北京首都机场
  45. 北京 | 首都 | 机场 |
  46. --------------------------
  47. 东西已经拍卖了
  48. 东西 | 已经 | 拍卖 | 了 |
  49. --------------------------
  50. 主人因之生气
  51. 主人 | 因 | 之 | 生气 |
  52. --------------------------
  53. 虽然某些动物很凶恶
  54. 虽然 | 某些 | 动物 | 很 | 凶恶 |
  55. --------------------------
  56. 朋友真背叛了你了
  57. 朋友 | 真 | 背叛 | 了 | 你了 |
  58. --------------------------
  59. 建设盒蟹社会
  60. 建设 | 盒 | 蟹 | 社会 |
  61. --------------------------
  62. 建设盒少蟹社会
  63. 建设 | 盒 | 少 | 蟹 | 社会 |
  64. --------------------------
  65. 我们家门前的大水沟很难过。
  66. 我们 | 家 | 门前 | 的 | 大水 | 水沟 | 很难 | 过 |
  67. --------------------------
  68. 罐头不如果汁营养丰富。
  69. 罐头 | 不如 | 果汁 | 营养 | 丰富 |
  70. --------------------------
  71. 今天真热,是游泳的好日子。
  72. 今天 | 天真 | 热 | 是 | 游泳 | 的 | 好 | 日子 |
  73. --------------------------
  74. 妹妹的数学只考十分,真丢脸。
  75. 妹妹 | 的 | 数学 | 只 | 考 | 十分 | 真 | 丢脸 |
  76. --------------------------
  77. 我做事情,都是先从容易的做起。
  78. 我做 | 事情 | 都是 | 先 | 从容 | 易 | 的 | 做起 |
  79. --------------------------
  80. 老师说明天每个人参加大队接力时,一定要尽力。
  81. 老师 | 师说 | 明天 | 每个 | 个人 | 参加 | 大队 | 接力 | 时 | 一定 | 要 | 尽力 |
  82. --------------------------
  83. 小明把大便当作每天早上起床第一件要做的事
  84. 小明 | 把 | 大便 | 当作 | 每天 | 早上 | 起床 | 第一 | 一件 | 要做 | 的 | 事 |

paoding 几乎把所有的子词都拆出来,有时候还有最长的词,还没搞懂“华南理工大学”会分出“大”;mmseg4j 的 maxword 是在 complex分词后的结果再把子词都拆出来。

如“化装和服装” mmseg4j 的 complex是可以较好的分出来(“化装 | 和 | 服装”),而 paoding 少了字频的信息,比较难到这事。mmseg4j complex 也有个缺点:“都是先从容易的做起” 不能把“容易”分出来,这是因为 mmseg 算法是用 3 个chunk的原因,我认为把整句的 chunk (还是仅仅3个chunk)来处理的话,分词效果要好),当然要更多的开销,选3个可能是效果与性能平衡吧。

mmseg4j 没有加任何 stopword,这东西留给使用者自己加,因为我不认为加 stopword 是好的方法。如音乐搜索,给加上 the,this……,还能找到歌曲?

当然分词效果还与词库有关,sogou 的词库是统计得出,有些高频的单字组合也成了词,如“我们的”。如果还要提高 mmseg4j 的分词效果,还要在整理下词库。

mmseg4j中的词库: (强制使用 UTF-8):

    • data/chars.dic 是单字与语料中的频率,一般不用改动,1.5版本中已经加到mmseg4j的jar里了,我们不需要关心它,当然你在词库目录放这个文件可以覆盖它。
    • data/units.dic 是单字的单位,默认读jar包里的,你也可以自定义覆盖它,这个功能是试行,如果不喜欢它,可以用空的units.dic文件(放到你的词库目录下)覆盖它。
    • data/words.dic 是词库文件,一行一词,当然你也可以使用自己的,1.5版本使用 sogou 词库,1.0的版本是用 rmmseg 自带的词库。
    • data/wordsxxx.dic 1.6版支持多个词库文件,data 目录(或你定义的目录)下读到"words"前缀且".dic"为后缀的文件。如:data/words-my.dic。
    • 由于 utf-8 文件有带与不带 BOM 之分,建议词库第一行为空行或为无 BOM 格式的 utf-8 文件。

solr分词一:mmseg4j的更多相关文章

  1. solr4.5配置中文分词器mmseg4j

    solr4.x虽然提供了分词器,但不太适合对中文的分词,给大家推荐一个中文分词器mmseg4j mmseg4j的下载地址:https://code.google.com/p/mmseg4j/ 通过以下 ...

  2. solr 分词词库管理思路

    solr 分词词库管理思路 大概有以下几种思路: 1. 自定义 SolrRequestHandler        由 SolrRequestHandler 来进行对分词器,进行A)词库加载B)动态添 ...

  3. 搜索引擎solr系列---solr分词配置

    分词我理解的是,输入的一句话,按照它自己定义的规则分为常用词语. 首先,Solr有自己基本的类型,string.int.date.long等等.   对于string类型,比如在你的core/conf ...

  4. Java solr 分词

    代码如下: import java.io.IOException; import java.util.*; import org.apache.solr.client.solrj.SolrClient ...

  5. 全文检索引擎Solr系列——整合中文分词组件mmseg4j

    默认Solr提供的分词组件对中文的支持是不友好的,比如:“VIM比作是编辑器之神”这个句子在索引的的时候,选择FieldType为”text_general”作为分词依据时,分词效果是: 它把每一个词 ...

  6. solr学习篇(二) solr 分词器篇

    关于solr7.4搭建与配置可以参考 solr7.4 安装配置篇  在这里我们探讨一下分词的配置 目录 关于分词 配置分词 验证成功 1.关于分词 1.分词是指将一个中文词语拆成若干个词,提供搜索引擎 ...

  7. Solr分词搜索结果不准确

    Solr的schema.xml默认配置分词后条件取 OR 例如:大众1.6T  系统会自动分词为  [大众] [1.6T](ps:不同分词器分词效果不同)   会搜索出包含 [大众 OR  1.6T] ...

  8. ES 或 Solr 分词器的相关面试题:

    个人博客网:https://wushaopei.github.io/    (你想要这里多有) 1.ES 中的 IK 分词器能分中文和英语的原因是什么? ik分词器为中文分词器,默认可对中文分词:通过 ...

  9. 三、Solr多核心及分词器(IK)配置

    多核心的概念 多核心说白了就是多索引库.也可以理解为多个"数据库表" 说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索,不使用多核也没问题,这样带来的问题是 ...

随机推荐

  1. mysql-2 数据类型

    mysql中定义数据字段的类型对数据库的优化是非常重要的. mysql数据类型大致分为三类:数值.日期/时间.字符串(字符)类型. 数值类型 MySQL支持所有标准SQL数值数据类型. 这些类型包括严 ...

  2. Django的学习之路

    Django基础 Django框架基础 http协议及web框架 Django-2的路由层(URLconf) Django的视图层 Django框架之第三篇模板语法(重要!!!) Django框架之模 ...

  3. 在ubuntu14.04上搭建OpenVPN服务

    简介 在连接了不可信的网络环境后,让手机或者计算机安全的访问互联网,使用虚拟专用网络(Virtual Private Network,VPN)是一个解决办法.OpenVPN是一个SSL VPN完整解决 ...

  4. 30.概述strust2中的拦截器

    转自:https://wenku.baidu.com/view/84fa86ae360cba1aa911da02.html 拦截器是Struts2框架的核心,它主要完成解析请求参数.将请求参数赋值给A ...

  5. eclipse 预览Android界面报错

    This version of the rendering library is more recent than your version of ADT plug-in. Please update ...

  6. VS2013默认打开HTML文件没有设计视图

    打开VS菜单->工具->选项->文本编辑器->文件扩展名,右侧输入html,再下拉列表选HTML(Web窗体)编辑器,点添加,确定. 第二条是彻底解决VS2013不能编辑HTM ...

  7. MS SQL 2000 分配权限

    /** 分配权限 **/ use [master]create login [ln-tf\liaobin] from windows;gogrant control server to [ln-tf\ ...

  8. np的归纳总结

    1. np.sqrt(input)    # 求数的开方 import numpy as np print(np.sqrt(2)) 2. np.square(3)   # 求数的平方 import n ...

  9. How to Integrate JCaptcha in Spring Security

    The repository for JCaptcha is this one: <repository> <id>sourceforge-releases</id> ...

  10. clientX,offsetX,screenX,pageX 区别!

    先总结下区别: event.clientX.event.clientY 鼠标相对于浏览器窗口可视区域的X,Y坐标(窗口坐标),可视区域不包括工具栏和滚动条.IE事件和标准事件都定义了这2个属性 eve ...