solr+jieba结巴分词

为什么选择结巴分词

分词效率高
词料库构建时使用的是jieba (python)

结巴分词Java版本

下载

git clone https://github.com/huaban/jieba-analysis

编译

cd jieba-analysis

mvn install

注意

如果mvn版本较高，需要修改pom.xml文件，在plugins前面增加

solr tokenizer版本

https://github.com/sing1ee/analyzer-solr (solr 5)
https://github.com/sing1ee/jieba-solr.git (solr 4)

支持solr 6或7或更高

如果你的solr像我一样，版本比较新，需要对代码稍做修改，但改动其实不大。(根据给编译时报的错误做修改即可)

build.gradle的diff

diff --git a/build.gradle b/build.gradle

index 2a87525..06c5cc3 100644

--- a/build.gradle

+++ b/build.gradle

@@ -1,4 +1,4 @@

-group = 'analyzer.solr5'

+group = 'analyzer.solr7'

version = '1.0'

apply plugin: 'java'

apply plugin: "eclipse"

@@ -14,15 +14,14 @@ repositories {

dependencies {

testCompile group: 'junit', name: 'junit', version: '4.11'

- compile("org.apache.lucene:lucene-core:5.0.0")

- compile("org.apache.lucene:lucene-queryparser:5.0.0")

- compile("org.apache.lucene:lucene-analyzers-common:5.0.0")

- compile('com.huaban:jieba-analysis:1.0.0')

-// compile("org.fnlp:fnlp-core:2.0-SNAPSHOT")

+ compile("org.apache.lucene:lucene-core:7.1.0")

+ compile("org.apache.lucene:lucene-queryparser:7.1.0")

+ compile("org.apache.lucene:lucene-analyzers-common:7.1.0")

+ compile files('libs/jieba-analysis-1.0.3.jar')

compile("edu.stanford.nlp:stanford-corenlp:3.5.1")

}

task "create-dirs" << {

sourceSets*.java.srcDirs*.each { it.mkdirs() }

sourceSets*.resources.srcDirs*.each { it.mkdirs() }

-}

\ No newline at end of file

+}

编译

./gladlew build

集成到solr

拷贝jar包到solr的目录下：server/solr-webapp/webapp/WEB-INF/lib

schema修改

    <fieldType name="text_jieba" class="solr.TextField" positionIncrementGap="100">

      <analyzer type="index">

        <tokenizer class="analyzer.solr7.jieba.JiebaTokenizerFactory"  segMode="SEARCH"/>

        <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_ch.txt" />

        <filter class="solr.LowerCaseFilterFactory"/>

        <filter class="solr.SnowballPorterFilterFactory" language="English"/>

      </analyzer>

      <analyzer type="query">

        <tokenizer class="analyzer.solr7.jieba.JiebaTokenizerFactory"  segMode="SEARCH"/>

        <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_ch.txt" />

        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>

        <filter class="solr.LowerCaseFilterFactory"/>

        <filter class="solr.SnowballPorterFilterFactory" language="English"/>

      </analyzer>

    </fieldType>

solr+jieba结巴分词的更多相关文章

Python3.7+jieba(结巴分词)配合Wordcloud2.js来构造网站标签云(关键词集合)
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_138 其实很早以前就想搞一套完备的标签云架构了,迫于没有时间(其实就是懒),一直就没有弄出来完整的代码,说到底标签对于网站来说还是 ...
python调用jieba(结巴)分词加入自定义词典和去停用词功能
把语料从数据库提取出来以后就要进行分词啦,我是在linux环境下做的,先把jieba安装好,然后找到内容是build jieba PKG-INFO setup.py test的那个文件夹(我这边是ji ...
jieba结巴分词
pip install jieba安装jieba模块如果网速比较慢,可以使用豆瓣的Python源:pip install -i https://pypi.douban.com/simple/ jie ...
结巴（jieba）分词
一.介绍: jieba: “结巴”中文分词:做最好的 Python 中文分词组件 “Jieba” (Chinese for “to stutter”) Chinese text segmentatio ...
python 结巴分词(jieba)详解
文章转载:http://blog.csdn.net/xiaoxiangzi222/article/details/53483931 jieba “结巴”中文分词:做最好的 Python 中文分词组件 ...
jieba GitHUb 结巴分词
1.GitHub jieba-analysis 结巴分词: https://github.com/fxsjy/jieba 2.jieba-analysis 结巴分词(java版): https://g ...
python jieba分词(结巴分词)、提取词，加载词，修改词频，定义词库 -转载
转载请注明出处 “结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库. jieba的分词,提取关 ...
结巴分词 java 高性能实现，是 huaban jieba 速度的 2倍
Segment Segment 是基于结巴分词词库实现的更加灵活,高性能的 java 分词实现. 变更日志创作目的分词是做 NLP 相关工作,非常基础的一项功能. jieba-analysis 作 ...
模块 jieba结巴分词库中文分词
jieba结巴分词库 jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结. 安装jieba pip install jieba 简单用法结巴分词分为三种模式:精确 ...

随机推荐

js 读取xml文件
读取xml文件 [原创 2007-6-20 17:35:37] 字号:大中小 js中读取xml文件,简单的例子: <html><head><script> ...
Razor视图
@{ string name="jerry";} <div> @name </div> //显示jerry @{ string js="& ...
python---面向对象高级进阶
静态方法,调用静态方法后,该方法将无法访问类变量和实例变量 class Dog(object): def __init__(self,name): self.name = name def eat(s ...
JSPWiki安装配置及FCKEditor的集成
版本:JSPWiki-2.8.2 FCKeditor_2.6.3 安装方法我参照:http://doc.jspwiki.org/2.4/wiki/InstallingJSPWiki FCKEd ...
FFmpeg and x264 Encoding Guide
https://trac.ffmpeg.org/wiki/Encode/H.264 FFmpeg and H.264 Encoding Guide Contents Constant Rate Fac ...
ThinkPHP5从零基础搭建CMS系统（一）
了解学习thinkphp5应该是2016年年底的事情,当时还没有接触过thinkphp3版本,觉得通过手册直接上手学习tp5蛮轻松的,现在从零记录下,搭建可扩展的CMS. 1.ThinkPHP环境搭建 ...
HTML学习笔记 day two
HTML学习笔记 day two Charter three网站中的文本样式标签 3．1设置标题字体语法结构:<h#>标题文字</h#> 注:其中的#可以为1,2,3,4,5 ...
通过jdbc完成单表的curd操作以及对JDBCUtils的封装
概述:jdbc是oracle公司制定的一套规范(一套接口),驱动是jdbc的实现类,由数据库厂商提供.所以我们可以通过一套规范实现对不同的数据库操作(多态) jdbc的作用:连接数据库,发送sql语句 ...
python 面向对象进阶之元类metaclass
一:知识储备 exec exec:三个参数参数一:字符串形式的命令参数二:全局作用域(字典形式),如果不指定,默认为globals() 参数三:局部作用域(字典形式),如果不指定,默认为local ...
软件性能测试技术树（二）----Linux服务器性能
全图: 测试目的: 测试范围&性能指标: 测试与生产环境服务器配置不同的处理方法: 实时CPU监控: 实时内存监控: 实时网络监控: 实时磁盘监控: 万能命令: Linux下的进程追踪命令: ...

solr+jieba结巴分词

为什么选择结巴分词

结巴分词Java版本

solr tokenizer版本

支持solr 6或7或更高

编译

集成到solr

schema修改

solr+jieba结巴分词的更多相关文章

随机推荐

热门专题