Go语言中文分词技术使用技巧（一）

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。

中文分词（Chinese Word Segmentation）指的是将一个汉字序列（句子）切分成一个一个的单独的词，分词就是将连续的字序列按照一定的规则重新组合成词序列的过程。

现在分词方法大致有三种：基于字符串配置的分词方法、基于理解的分词方法和基于统计的分词方法。

今天为大家分享一个国内使用人数最多的中文分词工具GoJieba，源代码地址：GoJieba ，官方文档：GoJieba官方文档

官方介绍

支持多种分词方式，包括: 最大概率模式, HMM新词发现模式, 搜索引擎模式, 全模式
核心算法底层由C++实现，性能高效。
无缝集成到 Bleve 到进行搜索引擎的中文分词功能。
字典路径可配置，NewJieba(...string), NewExtractor(...string) 可变形参，当参数为空时使用默认词典(推荐方式)

模式扩展

精确模式：将句子精确切开，适合文本字符分析
全模式：把短语中所有的可以组成词语的部分扫描出来，速度非常快，会有歧义
搜索引擎模式：精确模式基础上，对长词再次切分，提升引擎召回率，适用于搜索引擎分词

主要算法

前缀词典实现高效的词图扫描，生成句子中汉字所有可能出现成词情况所构成的有向无环图（DAG）
采用动态规划查找最大概率路径，找出基于词频最大切分组合
对于未登录词，采用汉字成词能力的HMM模型，采用Viterbi算法计算
基于Viterbi算法做词性标注
基于TF-IDF和TextRank模型抽取关键词

编码实现

package main

import (

	"fmt"

	"github.com/yanyiwu/gojieba"

	"strings"

)

func main() {

	var seg = gojieba.NewJieba()

	defer seg.Free()

	var useHmm = true

	var separator = "|"

	var resWords []string

	var sentence = "万里长城万里长"

	resWords = seg.CutAll(sentence)

	fmt.Printf("%s\t全模式：%s \n", sentence, strings.Join(resWords, separator))

	resWords = seg.Cut(sentence, useHmm)

	fmt.Printf("%s\t精确模式：%s \n", sentence, strings.Join(resWords, separator))

	var addWord = "万里长"

	seg.AddWord(addWord)

	fmt.Printf("添加新词：%s\n", addWord)

	resWords = seg.Cut(sentence, useHmm)

	fmt.Printf("%s\t精确模式：%s \n", sentence, strings.Join(resWords, separator))

	sentence = "北京鲜花速递"

	resWords = seg.Cut(sentence, useHmm)

	fmt.Printf("%s\t新词识别：%s \n", sentence, strings.Join(resWords, separator))

	sentence = "北京鲜花速递"

	resWords = seg.CutForSearch(sentence, useHmm)

	fmt.Println(sentence, "\t搜索引擎模式：", strings.Join(resWords, separator))

	sentence = "北京市朝阳公园"

	resWords = seg.Tag(sentence)

	fmt.Println(sentence, "\t词性标注：", strings.Join(resWords, separator))

	sentence = "鲁迅先生"

	resWords = seg.CutForSearch(sentence, !useHmm)

	fmt.Println(sentence, "\t搜索引擎模式：", strings.Join(resWords, separator))

	words := seg.Tokenize(sentence, gojieba.SearchMode, !useHmm)

	fmt.Println(sentence, "\tTokenize Search Mode 搜索引擎模式：", words)

	words = seg.Tokenize(sentence, gojieba.DefaultMode, !useHmm)

	fmt.Println(sentence, "\tTokenize Default Mode搜索引擎模式：", words)

	word2 := seg.ExtractWithWeight(sentence, 5)

	fmt.Println(sentence, "\tExtract：", word2)

	return

}

运行结果

go build -o gojieba 

time ./gojieba 

万里长城万里长  全模式：万里|万里长城|里长|长城|万里|里长

万里长城万里长  精确模式：万里长城|万里|长

添加新词：万里长

万里长城万里长  精确模式：万里长城|万里长

北京鲜花速递    新词识别：北京|鲜花|速递

北京鲜花速递    搜索引擎模式： 北京|鲜花|速递

北京市朝阳公园  词性标注： 北京市/ns|朝阳/ns|公园/n

鲁迅先生        搜索引擎模式： 鲁迅|先生

鲁迅先生        Tokenize Search Mode 搜索引擎模式： [{鲁迅 0 6} {先生 6 12}]

鲁迅先生        Tokenize Default Mode搜索引擎模式： [{鲁迅 0 6} {先生 6 12}]

鲁迅先生        Extract： [{鲁迅 8.20023407859} {先生 5.56404756434}]

real    0m1.746s

user    0m1.622s

sys     0m0.124s

性能评测

语言	源码	耗时
C++版本	CppJieba	7.5 s
Golang版本	GoJieba	9.11 s
Python版本	Jieba	88.7 s

计算分词过程的耗时，不包括加载词典耗时，CppJieba性能是GoJieba的1.2倍。CppJieba性能详见jieba-performance-comparison，GoJieba由于是C++开发的CppJieba，性能方面仅次于CppJieba，如果追求性能还是可以考虑的。

Go语言中文分词技术使用技巧（一）的更多相关文章

NLP+词法系列（二）︱中文分词技术简述、深度学习分词实践（CIPS2016、超多案例）
摘录自:CIPS2016 中文信息处理报告<第一章词法和句法分析研究进展.现状及趋势>P4 CIPS2016 中文信息处理报告下载链接:http://cips-upload.bj.bce ...
深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)
Mahout简介 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目, 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建 ...
Python 自然语言处理（1）中文分词技术
中文分词技术中文自动分词可主要归纳为“规则分词”“统计分词”和“混合分词”,规则分词主要是通过人工设立词库,按照一定方式进行匹配切分,实现简单高效,但对新词很难进行处理,统计分词能够较好应对新词发现 ...
R语言中文分词包jiebaR
R语言中文分词包jiebaR R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据 ...
NLP+词法系列（一）︱中文分词技术小结、几大分词引擎的介绍与比较
笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的.所以这边看到有几家大牛都在中文分词以及NLP上越走越远 ...
NLP第3章中文分词技术
11大Java开源中文分词器的使用方法和分词效果对比，当前几个主要的Lucene中文分词器的比较
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
基于Deep Learning的中文分词尝试
http://h2ex.com/1282 现有分词介绍自然语言处理(NLP,Natural Language Processing)是一个信息时代最重要的技术之一,简单来讲,就是让计算机能够理解人类 ...
基于规则的中文分词 - NLP中文篇
之前在其他博客文章有提到如何对英文进行分词,也说后续会增加解释我们中文是如何分词的,我们都知道英文或者其他国家或者地区一些语言文字是词与词之间有空格(分隔符),这样子分词处理起来其实是要相对容易很多, ...

随机推荐

「每天五分钟，玩转 JVM」：对象访问定位
前言在「对象内存布局」一节中,我们了解到对象头中包含了一个叫做类型指针的东西,即对象指向它的类元数据的指针,虚拟机通过这个指针来确定这个对象是哪个类的实例.但是,并不是所有的虚拟机都是这么去做的.不 ...
C# 基础知识系列- 2 字符串
String的常见方法 String 变量的声明方式 C#中字符串常见的声明有两种: 直接使用字面值即String s = "12321"; 使用构造器,即String s = ...
idea 新建java类自动补充创建人，创建时间，版本等..
1.先进入 File 2.进入 Editor 找到 File and Code Templates 并点击 3.右侧点击 lncludes 4.第二项 File Header /** * @aut ...
全文搜索技术--Solr7.1之配置中文分析器
前言:中国文化博大精深,但是solr只能一个一个的识别,而是更加符合中国人的习惯,所以加了中文分析器. 1.安装中文分词器第一步:把中文分词器(ik-analyzer-solr7-7.x.jar)/ ...
[BJDCTF 2nd]old-hack
进入首页: 首页告诉了我们是thinkphp5的漏洞. 知道了是哪个版本的话就搜一搜喽:最后发现是thinkphp5.0.23的命令执行 payload_1:查看根目录文件,发现flag位置 http ...
python基础知识8——常见内置模块
Python之路-python(常用模块学习) 模块介绍 time &datetime模块 random os sys shutil shelve xml处理 yaml处理 configpar ...
Github桌面版使用方式（MAC）
Github是一个流行的代码管理网站,同时也是全球最大的同性交友网站(滑稽).Github网页上你可以自由地托管自己的项目,也可以fork别人的项目过来玩耍,非常之方便,今天笔者就来介绍一下githu ...
vim-0-indent(缩进)
缩进: 参考自http://liuzhijun.iteye.com/blog/1831548,http://blog.csdn.net/chenxiang6891/article/details/41 ...
知识图谱与机器学习 | KG入门 -- Part1-b 图深度学习
介绍我们正在定义一种新的机器学习方法,专注于一种新的范式 -- Data Fabric. 在上一篇文章中,我们对机器学习给出了新的定义: 机器学习是一种自动发现Data Fabric中隐藏的&quo ...
RMQ（倍增法求ST）
解决什么问题:区间查询最值倍增思想:每次得出结果的范围呈2的幂次增长,有人说相当于二分,目前我觉得相当于线段树的查找. 具体理解看代码: /*倍增法求ST*/ #include<math.h& ...

Go语言 中文分词技术使用技巧（一）

Go语言 中文分词技术使用技巧（一）的更多相关文章

随机推荐

热门专题

Go语言中文分词技术使用技巧（一）

Go语言中文分词技术使用技巧（一）的更多相关文章