Segment

Segment 是基于结巴分词词库实现的更加灵活，高性能的 java 分词实现。

变更日志

创作目的

分词是做 NLP 相关工作，非常基础的一项功能。

jieba-analysis 作为一款非常受欢迎的分词实现，个人实现的 opencc4j 之前一直使用其作为分词。

但是随着对分词的了解，发现结巴分词对于一些配置上不够灵活。

（1）有很多功能无法指定关闭，比如 HMM 对于繁简体转换是无用的，因为繁体词是固定的，不需要预测。

（2）最新版本的词性等功能好像也被移除了，但是这些都是个人非常需要的。

（3）对于中文繁体分词支持不友好。

所以重新实现了一遍，希望实现一套更加灵活，更多特性的分词框架。

而且 jieba-analysis 的更新似乎停滞了，个人的实现方式差异较大，所以建立了全新的项目。

Features 特点

面向用户的极简静态 api 设计
面向开发者 fluent-api 设计，让配置更加优雅灵活
详细的中文代码注释，便于源码阅读
基于 DFA 实现的高性能分词
基于 HMM 的新词预测
支持不同的分词模式
支持全角半角/英文大小写/中文繁简体格式处理
允许指定自定义词库

快速入门

准备

jdk1.7+

maven 3.x+

maven 引入

<dependency>

    <groupId>com.github.houbb</groupId>

    <artifactId>segment</artifactId>

    <version>0.1.2</version>

</dependency>

相关代码参见 SegmentHelperTest.java

默认分词示例

返回分词，下标等信息。

final String string = "这是一个伸手不见五指的黑夜。我叫孙悟空，我爱北京，我爱学习。";

List<ISegmentResult> resultList = SegmentHelper.segment(string);

Assert.assertEquals("[这是[0,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14), 我[14,15), 叫[15,16), 孙悟空[16,19), ，[19,20), 我爱[20,22), 北京[22,24), ，[24,25), 我爱[25,27), 学习[27,29), 。[29,30)]", resultList.toString());

指定返回形式

有时候我们根据自己的应用场景，需要选择不同的返回形式。

SegmentResultHandlers 用来指定对于分词结果的处理实现，便于保证 api 的统一性。

方法	实现	说明
`common()`	SegmentResultHandler	默认实现，返回 ISegmentResult 列表
`word()`	SegmentResultWordHandler	只返回分词字符串列表

默认模式

默认分词形式，等价于下面的写法

List<ISegmentResult> resultList = SegmentHelper.segment(string, SegmentResultHandlers.common());

只获取分词信息

final String string = "这是一个伸手不见五指的黑夜。我叫孙悟空，我爱北京，我爱学习。";

List<String> resultList = SegmentHelper.segment(string, SegmentResultHandlers.word());

Assert.assertEquals("[这是, 一个, 伸手不见五指, 的, 黑夜, 。, 我, 叫, 孙悟空, ，, 我爱, 北京, ，, 我爱, 学习, 。]", resultList.toString());

分词模式

分词模式简介

分词模式可以通过类 SegmentModes 工具类获取。

序号	方法	准确度	性能	备注
1	search()	高	一般	结巴分词的默认模式
2	dict()	较高	一般	和 search 模式类似，但是缺少 HMM 新词预测
3	index()	一般	高	尽可能多的返回词组信息，提高召回率
4	greedyLength()	一般	高	贪心最大长度匹配，对准确度要求不高时可采用。

使用方式

针对灵活的配置，引入了 SegmentBs 作为引导类，解决工具类方法配置参数过多的问题。

测试代码参见 SegmentModeTest.java

search 模式

segmentMode() 指定分词模式，不指定时默认就是 SegmentModes.search()。

final String string = "这是一个伸手不见五指的黑夜。";

List<ISegmentResult> resultList = SegmentBs.newInstance()

       .segmentMode(SegmentModes.search())

       .segment(string);

Assert.assertEquals("[这是[0,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

dict 模式

只依赖词库实现分词，没有 HMM 新词预测功能。

final String string = "这是一个伸手不见五指的黑夜。";

List<ISegmentResult> resultList = SegmentBs.newInstance()

        .segmentMode(SegmentModes.dict())

        .segment(string);

Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

index 模式

这里主要的区别就是会返回 伸手、伸手不见 等其他词组。

final String string = "这是一个伸手不见五指的黑夜。";

List<ISegmentResult> resultList = SegmentBs.newInstance()

        .segmentMode(SegmentModes.index())

        .segment(string);

Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手[4,6), 伸手不见[4,8), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

GreedyLength 模式

这里使用贪心算法实现，准确率一般，性能较好。

final String string = "这是一个伸手不见五指的黑夜。";

List<ISegmentResult> resultList = SegmentBs.newInstance()

        .segmentMode(SegmentModes.greedyLength())

        .segment(string);

Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

格式化处理

格式化接口

可以通过 SegmentFormats 工具类获取对应的格式化实现，在分词时指定即可。

序号	方法	名称	说明
1	defaults()	默认格式化	等价于小写+半角处理。
2	lowerCase()	字符小写格式化	英文字符处理时统一转换为小写
3	halfWidth()	字符半角格式化	英文字符处理时统一转换为半角
4	chineseSimple()	中文简体格式化	用于支持繁体中文分词
5	none()	无格式化	无任何格式化处理
6	chains(formats)	格式化责任链	你可以针对上述的格式化自由组合，同时允许自定义格式化。

默认格式化

全角半角+英文大小写格式化处理，默认开启。

这里的 Ｑ 为全角大写，默认会被转换处理。

String text = "阿Ｑ精神";

List<ISegmentResult> segmentResults = SegmentHelper.segment(text);

Assert.assertEquals("[阿Ｑ[0,2), 精神[2,4)]", segmentResults.toString());

中文繁体分词

无论是结巴分词还是当前框架，默认对繁体中文的分词都不友好。

默认分词示例

显然和简体中文的分词形式不同。

String text = "這是一個伸手不見五指的黑夜";

List<String> defaultWords = SegmentBs.newInstance()

        .segment(text, SegmentResultHandlers.word());

Assert.assertEquals("[這是, 一, 個, 伸手, 不見, 五指, 的, 黑夜]", defaultWords.toString());

启用中文繁体分词

指定分词中文格式化，可以得到符合我们预期的分词。

String text = "這是一個伸手不見五指的黑夜";

List<String> defaultWords = SegmentBs.newInstance()

        .segmentFormat(SegmentFormats.chineseSimple())

        .segment(text, SegmentResultHandlers.word());

Assert.assertEquals("[這是, 一個, 伸手不見五指, 的, 黑夜]", defaultWords.toString());

格式化责任链

格式化的形式可以有很多，我们可以根据自己的需求自由组合。

比如我们想同时启用默认格式化+中文简体格式化。

final String text = "阿Ｑ，這是一個伸手不見五指的黑夜";

List<String> defaultWords = SegmentBs.newInstance()

        .segmentFormat(SegmentFormats.chains(SegmentFormats.defaults(),

                SegmentFormats.chineseSimple()))

        .segment(text, SegmentResultHandlers.word());

Assert.assertEquals("[阿Ｑ, ，, 這是, 一個, 伸手不見五指, 的, 黑夜]", defaultWords.toString());

Benchmark 性能对比

性能对比

性能对比基于 jieba 1.0.2 版本，测试条件保持一致，保证二者都做好预热，然后统一处理。

验证下来，默认模式性能略优于 jieba 分词，贪心模式是其性能 3 倍左右。

备注：

（1）默认模式和结巴 Search 模式一致。

后期考虑 HMM 也可以配置是否开启，暂定为默认开启

（2）后期将引入多线程提升性能。

代码参见 BenchmarkTest.java

性能对比图

相同长文本，循环 1W 次耗时。（Less is Better）

后期 Road-Map

核心特性

HMM 词性标注
HMM 实体标注
CRF 算法实现
N 元组算法实现

优化

多线程的支持，性能优化
双数组 DFA 实现，降低内存消耗

辅助特性

拓展自定义词库的特性

创作感谢

感谢 jieba 分词提供的词库，以及 jieba-analysis 的相关实现。

结巴分词 java 高性能实现，是 huaban jieba 速度的 2倍的更多相关文章

Java动态编译优化——提升编译速度（N倍）
一.前言最近一直在研究Java8 的动态编译, 并且也被ZipFileIndex$Entry 内存泄漏所困扰,在无意中,看到一个第三方插件的动态编译.并且编译速度是原来的2-3倍.原本打算直接用这个 ...
java 支持分词的高性能拼音转换工具，速度是 pinyin4j 的两倍
pinyin pinyin 是 java 实现的高性能中文拼音转换工具. 变更日志创作目的想为 java 设计一款便捷易用的拼音工具. 如何为 java 设计一款高性能的拼音转换工具 pinyin ...
solr+jieba结巴分词
为什么选择结巴分词分词效率高词料库构建时使用的是jieba (python) 结巴分词Java版本下载 git clone https://github.com/huaban/jieba-ana ...
jieba GitHUb 结巴分词
1.GitHub jieba-analysis 结巴分词: https://github.com/fxsjy/jieba 2.jieba-analysis 结巴分词(java版): https://g ...
python 结巴分词学习
结巴分词(自然语言处理之中文分词器) jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径,找出基于 ...
Python3.7+jieba(结巴分词)配合Wordcloud2.js来构造网站标签云(关键词集合)
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_138 其实很早以前就想搞一套完备的标签云架构了,迫于没有时间(其实就是懒),一直就没有弄出来完整的代码,说到底标签对于网站来说还是 ...
python 结巴分词(jieba)详解
文章转载:http://blog.csdn.net/xiaoxiangzi222/article/details/53483931 jieba “结巴”中文分词:做最好的 Python 中文分词组件 ...
python调用jieba(结巴)分词加入自定义词典和去停用词功能
把语料从数据库提取出来以后就要进行分词啦,我是在linux环境下做的,先把jieba安装好,然后找到内容是build jieba PKG-INFO setup.py test的那个文件夹(我这边是ji ...
python jieba分词(结巴分词)、提取词，加载词，修改词频，定义词库 -转载
转载请注明出处 “结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库. jieba的分词,提取关 ...

随机推荐

Java反射机制（五）：使用反射增强简单工厂设计模式
关于简单工厂设计模式的讲解,可参考博文<设计模式: 简单工厂模式>,此处不再介绍: 我们先观察之前介绍的关于简单工厂: public class OperateFactory { pub ...
mybatis 一对多查询集合创建空对象的问题
在做 mybatis 一对多查询的时候, resultMap 里面用到了集合标签 collection ,后来发现当该条数据没有子集的时候, collection 会自动创建一个属性都是null的对 ...
java什么叫面向对象？
面向对象(Object-Oriented,简称OO)就是一种常见的程序结构设计方法. 面向对象思想的基础是将相关的数据和方法放在一起,组合成一种新的复合数据类型,然后使用新创建的复合数据类型作为项目的 ...
element-ui隐藏组件el-scrollbar
代码如下: <div class="main_wrapper"> <el-scrollbar wrapClass="scrollar_container ...
安装 NodeJ Koa2、3 + 独立插件 cli脚手架 npm cnpm Vue
安装 NodeJ npm cnpm Koa2.3 + 独立插件 cli脚手架 Vue 安装在这里写过了这两个分开了写 Nodej:下载 node.js 安装 10.0版 ...
2018-8-10-dot-net-core-使用-IPC-进程通信
title author date CreateTime categories dot net core 使用 IPC 进程通信 lindexi 2018-08-10 19:16:52 +0800 2 ...
在小程序内点击按钮分享H5网页给好友或者朋友圈
在小程序内点击按钮分享H5网页给好友或者朋友圈首先需要建立h5容器文件夹页面.wxml <navigator url="/pages/report-await/fouryearh5 ...
Linux 内核class_simple 接口
class_simple 接口意图是易于使用, 以至于没人会抱怨没有暴露至少一个包含设备的被分配的号的属性. 使用这个接口只不过是一对函数调用, 没有通常的和 Linux 设备模型关联的样板. 第 ...
mapstatetoprops更新state但props不更新渲染的问题
通过react-redux和redux实现react组件之间的通信,reducer.action.store都编写正确,mapDispatchToProps也能正确传值.唯独mapStateToPro ...
2018-2-13-win10-UWP-九幽数据分析
title author date CreateTime categories win10 UWP 九幽数据分析 lindexi 2018-2-13 17:23:3 +0800 2018-2-13 1 ...

结巴分词 java 高性能实现，是 huaban jieba 速度的 2倍

Segment

创作目的

Features 特点

最新变更

快速入门

准备

maven 引入

默认分词示例

指定返回形式

默认模式

只获取分词信息

分词模式

分词模式简介

使用方式

search 模式

dict 模式

index 模式

GreedyLength 模式

格式化处理

格式化接口

默认格式化

中文繁体分词

默认分词示例

启用中文繁体分词

格式化责任链

Benchmark 性能对比

性能对比

性能对比图

后期 Road-Map

核心特性

优化

辅助特性

创作感谢

结巴分词 java 高性能实现，是 huaban jieba 速度的 2倍的更多相关文章

随机推荐

热门专题