中文分词算法之最大正向匹配算法（Python版）

最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法，分为正向和逆向，原理都是一样的。

正向最大匹配算法，故名思意，从左向右扫描寻找词的最大匹配。

首先我们可以规定一个词的最大长度，每次扫描的时候寻找当前开始的这个长度的词来和字典中的词匹配，如果没有找到，就缩短长度继续寻找，直到找到或者成为单字。

实例：

S1="计算语言学课程是三个课时" ,设定最大词长MaxLen = 5 ,S2= " "

字典中含有三个词：[计算语言学]、[课程]、[课时]

（1）S2=""；S1不为空，从S1左边取出候选子串W="计算语言学"；
（2）查词表，“计算语言学”在词表中，将W加入到S2中，S2=“计算语言学/ ”，并将W从S1中去掉，此时S1="课程是三个课时"；
（3）S1不为空，于是从S1左边取出候选子串W="课程是三个"；
（4）查词表，W不在词表中，将W最右边一个字去掉，得到W="课程是三"；
（5）查词表，W不在词表中，将W最右边一个字去掉，得到W="课程是"；
（6）查词表，W不在词表中，将W最右边一个字去掉，得到W="课程"
（7）查词表，W在词表中，将W加入到S2中，S2=“计算语言学/ 课程/ ”，并将W从S1中去掉，此时S1="是三个课时"；

（8）S1不为空，于是从S1左边取出候选子串W="是三个课时"；
（9）查词表，W不在词表中，将W最右边一个字去掉，得到W="是三个课"；
（10）查词表，W不在词表中，将W最右边一个字去掉，得到W="是三个"；
（11）查词表，W不在词表中，将W最右边一个字去掉，得到W="是三"
（12）查词表，W不在词表中，将W最右边一个字去掉，得到W=“是”，这时 W是单字，将W加入到S2中，S2=“计算语言学/ 课程/ 是/ ”，并将 W从S1中去掉，此时S1="三个课时"；
（13）S1不为空，从S1左边取出候选子串W="三个课时"；
（14）查词表，W不在词表中，将W最右边一个字去掉，得到W="三个课"；
（15）查词表，W不在词表中，将W最右边一个字去掉，得到W="三个"；
（16）查词表，W不在词表中，将W最右边一个字去掉，得到W=“三”，这时 W是单字，将W加入到S2中，S2=“计算语言学/ 课程/ 是/ 三/ ”，并将W从S1中去掉，此时S1="个课时"；

（17）S1不为空，从S1左边取出候选子串W="个课时"；
（18）查词表，W不在词表中，将W最右边一个字去掉，得到W="个课"；
（19）查词表，W不在词表中，将W最右边一个字去掉，得到W=“个”，这时W是单字，将W加入到S2中，S2=“计算语言学/ 课程/ 是/ 三/ 个/ "，并将W从S1中去掉，此时S1="课时"；
（20）S1不为空，从S1左边取出候选子串W="课时"；
（21）查词表，W在词表中，将W加入到S2中，S2=“计算语言学/ 课程/ 是/ 三/ 个/ 课时/ "，并将W从S1中去掉，此时S1=""。
（22）S1为空，输出S2作为分词结果，分词过程结束。

中文分词算法的Python实现：

脚本接受两个参数，一个是输入文件的路径，另一个是词典的路径。

它的运行方法如下：

python max-match.py <data> <dict>

#!/usr/bin/env python
import cPickle as pickle
import sys
 
window_size=5
 
def max_match_segment(line, dic):
    # write your code here
    chars = line.decode("utf8")
    words = []
    idx = 0
    while idx < len(chars):
        matched = False
        for i in xrange(window_size, 0, -1):
            cand=chars[idx:idx+i].encode("utf8")
            if cand in dic:
                words.append(cand)
                matched = True
                break
        if not matched:
            i = 1
            words.append(chars[idx].encode("utf8"))
        idx += i
 
    return words
 
if __name__=="__main__":
 
    try:
        fpi=open(sys.argv[1], "r")
    except:
        print >> sys.stderr, "failed to open file"
        sys.exit(1)
 
    try:
        dic = pickle.load(open(sys.argv[2], "r"))
    except:
        print >> sys.stderr, "failed to load dict %s" % sys.argv[2]
        sys.exit(1)
    try:
        fpo = open("out.txt","w")
    except:
        print >> sys.stderr, "failed to load out.txt"
        sys.exit(1)
    for line in fpi:
        fpo.write("\t".join( max_match_segment(line.strip(), dic) ))

当然，这只是最基础的，还可以有很多高级的优化，比如说改成Trie树版本的，控制最大词长度的等等。

实例参考自：北大詹卫东老师“中文信息处理基础”的课件：http://ishare.iask.sina.com.cn/f/22509596.html

中文分词算法之最大正向匹配算法（Python版）的更多相关文章

在Hadoop上运行基于RMM中文分词算法的MapReduce程序
原文:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/ 在Hadoop上运行基于RMM中文分词 ...
Mmseg中文分词算法解析
Mmseg中文分词算法解析 @author linjiexing 开发中文搜索和中文词库语义自己主动识别的时候,我採用都是基于mmseg中文分词算法开发的Jcseg开源project.使用场景涉及搜索 ...
分词 | 双向匹配中文分词算法python实现
本次实验内容是基于词典的双向匹配算法的中文分词算法的实现.使用正向和反向最大匹配算法对给定句子进行分词,对得到的结果进行比较,从而决定正确的分词方法. 算法描述正向最大匹配算法先设定扫描的窗口大小ma ...
【nlp】中文分词基础原则及正向最大匹配法、逆向最大匹配法、双向最大匹配法的分析
分词算法设计中的几个基本原则: 1.颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“公安局长”可以分为“公安局长”.“公安局长” ...
MMSeg中文分词算法
Java中有一些开源的分词项目,比如:IK.Paoding.MMSEG4J等等.这里主要说的是MMSEG4J中使用的MMSeg算法.它的原文介绍在:http://technology.chtsai.o ...
中文分词算法工具hanlp源码解析
词图词图指的是句子中所有词可能构成的图.如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B).一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图. 需要稀疏2维 ...
hanlp源码解析之中文分词算法详解
词图词图指的是句子中所有词可能构成的图.如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B).一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图. 需要稀疏2维 ...
MMSEG 中文分词算法翻译
算法原文位于:http://technology.chtsai.org/mmseg/ http://www.360doc.com/content/13/0217/15/11619026_2661428 ...
算法：二分查找（python版）
#!/usr/bin/env python #coding -*- utf:8 -*- #二分查找#时间复杂度O(logn)#一个时间常量O(1)将问题的规模缩小一半,则O(logn) import ...

随机推荐

10个值得我们关注的python博客
大家好,还记得我当时学习python的时候,我一直努力地寻找关于python的博客,但我发现它们的数量很少.这也是我建立这个博客的原因,向大家分享我自己学到的新知识.今天我向大家推荐10个值得我们关注 ...
Sitemesh3的使用及配置
1 . Sitemesh 3 简介 Sitemesh 是一个网页布局和修饰的框架,基于 Servlet 中的 Filter,类似于 ASP.NET 中的‘母版页’技术.参考:百度百科,相关类似技术:A ...
java Hastable使用
jdk:http://docs.oracle.com/javase/1.4.2/docs/api/java/util/Hashtable.html Hashtable numbers = new Ha ...
Event | Beijing Makerspace
Event | Beijing Makerspace CONTACT INFORMATION 4th Floor, Zhongguancun Dream Lab, Beijing, China Pho ...
Android SurfaceView实战带你玩转flabby bird （上）
转载请标明出处:http://blog.csdn.net/lmj623565791/article/details/42965779 ,本文出自:[张鸿洋的博客] 1.概述哈,记得以前写过Andro ...
Hadoop伪分布式模式部署
Hadoop的安装有三种执行模式: 单机模式(Local (Standalone) Mode):Hadoop的默认模式,0配置.Hadoop执行在一个Java进程中.使用本地文件系统.不使用HDFS, ...
SICP中sqrt（开方）的实现（附C#实现）
#lang racket (define (square x) (* x x)) (define (sqrt-iter guess x) (if (good-enough? guess x) gues ...
linux eclipse中运行android AVD 错误
当使用android的AVD时提示以下错误: Starting emulator for AVD 'NexusOne' ERROR: 32-bit Linux Android emulator bin ...
javascript笔记整理（正则）
RegExp 对象表示正则表达式,它是对字符串执行模式匹配的强大工具 var re=/e/; var re=new RegExp('e'); 正则表达式的 String 对象的方法 1.search- ...
oracle事务和锁(转)
If you use a SET TRANSACTION statement, then it must be the first statement in your transaction. How ...

中文分词算法之最大正向匹配算法（Python版）

中文分词算法之最大正向匹配算法（Python版）的更多相关文章

随机推荐

热门专题