结巴分词 java 高性能实现,是 huaban jieba 速度的 2倍
Segment
Segment 是基于结巴分词词库实现的更加灵活,高性能的 java 分词实现。
创作目的
分词是做 NLP 相关工作,非常基础的一项功能。
jieba-analysis 作为一款非常受欢迎的分词实现,个人实现的 opencc4j 之前一直使用其作为分词。
但是随着对分词的了解,发现结巴分词对于一些配置上不够灵活。
(1)有很多功能无法指定关闭,比如 HMM 对于繁简体转换是无用的,因为繁体词是固定的,不需要预测。
(2)最新版本的词性等功能好像也被移除了,但是这些都是个人非常需要的。
(3)对于中文繁体分词支持不友好。
所以重新实现了一遍,希望实现一套更加灵活,更多特性的分词框架。
而且 jieba-analysis 的更新似乎停滞了,个人的实现方式差异较大,所以建立了全新的项目。
Features 特点
面向用户的极简静态 api 设计
面向开发者 fluent-api 设计,让配置更加优雅灵活
详细的中文代码注释,便于源码阅读
基于 DFA 实现的高性能分词
基于 HMM 的新词预测
支持不同的分词模式
支持全角半角/英文大小写/中文繁简体格式处理
允许指定自定义词库
最新变更
- 支持中文繁体分词
快速入门
准备
jdk1.7+
maven 3.x+
maven 引入
<dependency>
<groupId>com.github.houbb</groupId>
<artifactId>segment</artifactId>
<version>0.1.2</version>
</dependency>
相关代码参见 SegmentHelperTest.java
默认分词示例
返回分词,下标等信息。
final String string = "这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱学习。";
List<ISegmentResult> resultList = SegmentHelper.segment(string);
Assert.assertEquals("[这是[0,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14), 我[14,15), 叫[15,16), 孙悟空[16,19), ,[19,20), 我爱[20,22), 北京[22,24), ,[24,25), 我爱[25,27), 学习[27,29), 。[29,30)]", resultList.toString());
指定返回形式
有时候我们根据自己的应用场景,需要选择不同的返回形式。
SegmentResultHandlers 用来指定对于分词结果的处理实现,便于保证 api 的统一性。
| 方法 | 实现 | 说明 |
|---|---|---|
common() |
SegmentResultHandler | 默认实现,返回 ISegmentResult 列表 |
word() |
SegmentResultWordHandler | 只返回分词字符串列表 |
默认模式
默认分词形式,等价于下面的写法
List<ISegmentResult> resultList = SegmentHelper.segment(string, SegmentResultHandlers.common());
只获取分词信息
final String string = "这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱学习。";
List<String> resultList = SegmentHelper.segment(string, SegmentResultHandlers.word());
Assert.assertEquals("[这是, 一个, 伸手不见五指, 的, 黑夜, 。, 我, 叫, 孙悟空, ,, 我爱, 北京, ,, 我爱, 学习, 。]", resultList.toString());
分词模式
分词模式简介
分词模式可以通过类 SegmentModes 工具类获取。
| 序号 | 方法 | 准确度 | 性能 | 备注 |
|---|---|---|---|---|
| 1 | search() | 高 | 一般 | 结巴分词的默认模式 |
| 2 | dict() | 较高 | 一般 | 和 search 模式类似,但是缺少 HMM 新词预测 |
| 3 | index() | 一般 | 高 | 尽可能多的返回词组信息,提高召回率 |
| 4 | greedyLength() | 一般 | 高 | 贪心最大长度匹配,对准确度要求不高时可采用。 |
使用方式
针对灵活的配置,引入了 SegmentBs 作为引导类,解决工具类方法配置参数过多的问题。
测试代码参见 SegmentModeTest.java
search 模式
segmentMode() 指定分词模式,不指定时默认就是 SegmentModes.search()。
final String string = "这是一个伸手不见五指的黑夜。";
List<ISegmentResult> resultList = SegmentBs.newInstance()
.segmentMode(SegmentModes.search())
.segment(string);
Assert.assertEquals("[这是[0,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());
dict 模式
只依赖词库实现分词,没有 HMM 新词预测功能。
final String string = "这是一个伸手不见五指的黑夜。";
List<ISegmentResult> resultList = SegmentBs.newInstance()
.segmentMode(SegmentModes.dict())
.segment(string);
Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());
index 模式
这里主要的区别就是会返回 伸手、伸手不见 等其他词组。
final String string = "这是一个伸手不见五指的黑夜。";
List<ISegmentResult> resultList = SegmentBs.newInstance()
.segmentMode(SegmentModes.index())
.segment(string);
Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手[4,6), 伸手不见[4,8), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());
GreedyLength 模式
这里使用贪心算法实现,准确率一般,性能较好。
final String string = "这是一个伸手不见五指的黑夜。";
List<ISegmentResult> resultList = SegmentBs.newInstance()
.segmentMode(SegmentModes.greedyLength())
.segment(string);
Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());
格式化处理
格式化接口
可以通过 SegmentFormats 工具类获取对应的格式化实现,在分词时指定即可。
| 序号 | 方法 | 名称 | 说明 |
|---|---|---|---|
| 1 | defaults() | 默认格式化 | 等价于小写+半角处理。 |
| 2 | lowerCase() | 字符小写格式化 | 英文字符处理时统一转换为小写 |
| 3 | halfWidth() | 字符半角格式化 | 英文字符处理时统一转换为半角 |
| 4 | chineseSimple() | 中文简体格式化 | 用于支持繁体中文分词 |
| 5 | none() | 无格式化 | 无任何格式化处理 |
| 6 | chains(formats) | 格式化责任链 | 你可以针对上述的格式化自由组合,同时允许自定义格式化。 |
默认格式化
全角半角+英文大小写格式化处理,默认开启。
这里的 Q 为全角大写,默认会被转换处理。
String text = "阿Q精神";
List<ISegmentResult> segmentResults = SegmentHelper.segment(text);
Assert.assertEquals("[阿Q[0,2), 精神[2,4)]", segmentResults.toString());
中文繁体分词
无论是结巴分词还是当前框架,默认对繁体中文的分词都不友好。
默认分词示例
显然和简体中文的分词形式不同。
String text = "這是一個伸手不見五指的黑夜";
List<String> defaultWords = SegmentBs.newInstance()
.segment(text, SegmentResultHandlers.word());
Assert.assertEquals("[這是, 一, 個, 伸手, 不見, 五指, 的, 黑夜]", defaultWords.toString());
启用中文繁体分词
指定分词中文格式化,可以得到符合我们预期的分词。
String text = "這是一個伸手不見五指的黑夜";
List<String> defaultWords = SegmentBs.newInstance()
.segmentFormat(SegmentFormats.chineseSimple())
.segment(text, SegmentResultHandlers.word());
Assert.assertEquals("[這是, 一個, 伸手不見五指, 的, 黑夜]", defaultWords.toString());
格式化责任链
格式化的形式可以有很多,我们可以根据自己的需求自由组合。
比如我们想同时启用默认格式化+中文简体格式化。
final String text = "阿Q,這是一個伸手不見五指的黑夜";
List<String> defaultWords = SegmentBs.newInstance()
.segmentFormat(SegmentFormats.chains(SegmentFormats.defaults(),
SegmentFormats.chineseSimple()))
.segment(text, SegmentResultHandlers.word());
Assert.assertEquals("[阿Q, ,, 這是, 一個, 伸手不見五指, 的, 黑夜]", defaultWords.toString());
Benchmark 性能对比
性能对比
性能对比基于 jieba 1.0.2 版本,测试条件保持一致,保证二者都做好预热,然后统一处理。
验证下来,默认模式性能略优于 jieba 分词,贪心模式是其性能 3 倍左右。
备注:
(1)默认模式和结巴 Search 模式一致。
后期考虑 HMM 也可以配置是否开启,暂定为默认开启
(2)后期将引入多线程提升性能。
代码参见 BenchmarkTest.java
性能对比图
相同长文本,循环 1W 次耗时。(Less is Better)
后期 Road-Map
核心特性
HMM 词性标注
HMM 实体标注
CRF 算法实现
N 元组算法实现
优化
多线程的支持,性能优化
双数组 DFA 实现,降低内存消耗
辅助特性
- 拓展自定义词库的特性
创作感谢
感谢 jieba 分词提供的词库,以及 jieba-analysis 的相关实现。
结巴分词 java 高性能实现,是 huaban jieba 速度的 2倍的更多相关文章
- Java动态编译优化——提升编译速度(N倍)
一.前言 最近一直在研究Java8 的动态编译, 并且也被ZipFileIndex$Entry 内存泄漏所困扰,在无意中,看到一个第三方插件的动态编译.并且编译速度是原来的2-3倍.原本打算直接用这个 ...
- java 支持分词的高性能拼音转换工具,速度是 pinyin4j 的两倍
pinyin pinyin 是 java 实现的高性能中文拼音转换工具. 变更日志 创作目的 想为 java 设计一款便捷易用的拼音工具. 如何为 java 设计一款高性能的拼音转换工具 pinyin ...
- solr+jieba结巴分词
为什么选择结巴分词 分词效率高 词料库构建时使用的是jieba (python) 结巴分词Java版本 下载 git clone https://github.com/huaban/jieba-ana ...
- jieba GitHUb 结巴分词
1.GitHub jieba-analysis 结巴分词: https://github.com/fxsjy/jieba 2.jieba-analysis 结巴分词(java版): https://g ...
- python 结巴分词学习
结巴分词(自然语言处理之中文分词器) jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径,找出基于 ...
- Python3.7+jieba(结巴分词)配合Wordcloud2.js来构造网站标签云(关键词集合)
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_138 其实很早以前就想搞一套完备的标签云架构了,迫于没有时间(其实就是懒),一直就没有弄出来完整的代码,说到底标签对于网站来说还是 ...
- python 结巴分词(jieba)详解
文章转载:http://blog.csdn.net/xiaoxiangzi222/article/details/53483931 jieba “结巴”中文分词:做最好的 Python 中文分词组件 ...
- python调用jieba(结巴)分词 加入自定义词典和去停用词功能
把语料从数据库提取出来以后就要进行分词啦,我是在linux环境下做的,先把jieba安装好,然后找到内容是build jieba PKG-INFO setup.py test的那个文件夹(我这边是ji ...
- python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库 -转载
转载请注明出处 “结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库. jieba的分词,提取关 ...
随机推荐
- Java反射机制(五):使用反射增强简单工厂设计模式
关于简单工厂设计模式的讲解,可参考博文<设计模式: 简单工厂模式>,此处不再介绍: 我们先观察之前介绍的关于简单工厂: public class OperateFactory { pub ...
- mybatis 一对多查询 集合创建空对象的问题
在做 mybatis 一对多查询的时候, resultMap 里面用到了集合标签 collection ,后来发现 当该条数据没有子集的时候, collection 会自动创建一个属性都是null的对 ...
- java什么叫面向对象?
面向对象(Object-Oriented,简称OO)就是一种常见的程序结构设计方法. 面向对象思想的基础是将相关的数据和方法放在一起,组合成一种新的复合数据类型,然后使用新创建的复合数据类型作为项目的 ...
- element-ui隐藏组件el-scrollbar
代码如下: <div class="main_wrapper"> <el-scrollbar wrapClass="scrollar_container ...
- 安装 NodeJ Koa2、3 + 独立插件 cli脚手架 npm cnpm Vue
安装 NodeJ npm cnpm Koa2.3 + 独立插件 cli脚手架 Vue 安装 在 这里写过了 这两个分开了写 Nodej:下载 node.js 安装 10.0版 ...
- 2018-8-10-dot-net-core-使用-IPC-进程通信
title author date CreateTime categories dot net core 使用 IPC 进程通信 lindexi 2018-08-10 19:16:52 +0800 2 ...
- 在小程序内点击按钮分享H5网页给好友或者朋友圈
在小程序内点击按钮分享H5网页给好友或者朋友圈 首先需要建立h5容器文件夹 页面.wxml <navigator url="/pages/report-await/fouryearh5 ...
- Linux 内核class_simple 接口
class_simple 接口意图是易于使用, 以至于没人会抱怨没有暴露至少一个包含设备的被 分配的号的属性. 使用这个接口只不过是一对函数调用, 没有通常的和 Linux 设备模型 关联的样板. 第 ...
- mapstatetoprops更新state但props不更新渲染的问题
通过react-redux和redux实现react组件之间的通信,reducer.action.store都编写正确,mapDispatchToProps也能正确传值.唯独mapStateToPro ...
- 2018-2-13-win10-UWP-九幽数据分析
title author date CreateTime categories win10 UWP 九幽数据分析 lindexi 2018-2-13 17:23:3 +0800 2018-2-13 1 ...