前言

cutoff是一个比较冷门的概念,相比于DP经典算法的编辑距离,cutoff距离只局限于自然语言处理领域。提出cutoff距离的起因很简单,因为经典的编辑距离无法很好地衡量在字符串搜索过程中的编辑距离。

比如我们要对一个错误的字符串进行纠正,我们会用编辑距离去衡量可能正确字符串和错误字符串之间的差异。但是编辑距离有一个很大的问题就是对于自动机匹配过程存在缺陷,在自动机匹配的过程中编辑距离会变得很大。(很明显对于词库比较大的情况,必须要使用自动机)比如hello很有可能是hellx的正确单词,但是h和hellx的编辑距离是4,很明显就会存在自动机匹配难以进行的问题。

什么是cutoff?

针对上面提出的问题,kemal oflazer提出了cutoff算法。对于问题串stra和预测串strb,我们首先需要设置一个阈值,这个阈值作为编辑距离的限制条件。(也就是说符合编辑距离多少的为可能正确的单词)

定义strb的长度为blen,stra的长度为alen。l = max(1, blen - t),作为cutoff距离计算的下边界,u = min(alen, blen + t),作为cutoff距离计算的上边界。我们在计算cutoff距离的时候,就只需要计算min(ed(substr(stra,0,x),strb))(x>=l&&x<=u)即可。(此处substr表示截取0到x的字符为子串,包含x。ed表示编辑距离。min表示取最小值。)

例如reprter和repo的cutoff距离,计算过程如下:

如何实现?

这里给出cutoff算法的Python实现。

def ed_dis(stra, strb):
alen = len(stra)
blen = len(strb)
dp = [[0 for x in range(50)] for y in range(50)]
dp[0][0] = 0
for i in range(alen):
dp[i + 1][0] = i + 1
for j in range(alen):
dp[0][j + 1] = j + 1
for i in range(alen):
for j in range(blen):
if stra[i] == strb[j]:
dp[i + 1][j + 1] = min(min(dp[i + 1][j] + 1, dp[i][j + 1] + 1), dp[i][j])
else:
dp[i + 1][j + 1] = min(min(dp[i + 1][j] + 1, dp[i][j + 1] + 1), dp[i][j] + 1)
return dp[alen][blen] def cutoff_dis(stra, strb):
"""
:param stra: 错误串
:param strb: 预测串
:return: CUTOFF距离
"""
t = 1 # threshold
alen = len(stra)
blen = len(strb)
l = max(1, blen - t)
u = min(alen, blen + t)
min_ed = 1e10
for i in range(l, u + 1):
suba = stra[0:i + 1]
min_ed = min(min_ed, ed_dis(suba, strb))
return min_ed print(cutoff_dis('reprter', 'repo'))

cutoff距离如何使用?

计算出cutoff距离以后,究竟如何在自动机上使用cutoff距离?



具体的流程可以参考作者官方论文中给出的流程图。这个流程图是针对ababa这个问题串,对于aba和bab串形成的闭包进行单词推测。自动机的具体流程就不再详细描述了,一个很基础的自动机匹配流程,每次计算cutoff值作为权值即可。在大于阈值的权值结点处停止。

匹配的过程中对于一些特殊节点需要特殊标记,这种节点要求权值==阈值,且所有子节点无法继续扩展,也就是所有子节点权值大于阈值。可以看到图中有三个权值为1的结点符合这种要求。

对于这三个节点所对应的字符串,我们需要再次进行编辑距离计算,如果编辑距离恰好符合阈值,则该字符串是符合条件的字符串,也就是可能正确的字符串。

参考论文

Oflazer K. Error-tolerant finite-state recognition with applications to morphological analysis and spelling correction[J]. Computational Linguistics, 1996, 22(1): 73-89.

单词拼写检查之cutoff距离的更多相关文章

  1. WPF 4 单词拼写检查(SpellCheck)

    原文:WPF 4 单词拼写检查(SpellCheck)      在WPF中 Textbox 和RichTextBox 控件都内置了拼写检查属性,但该属性目前默认仅支持English.Spanish. ...

  2. 怎么设置IDEA,去除单词拼写检查,或者添加自定义的单词

    如图所示,添加自定义的单词,这样IDEA检查的时候,就不会报错了.估计默认是根据英文单词来释义的.

  3. android stuido - 关闭单词拼写检查

    "File"-"Settings"-"Editor "-"Inspections" 在Spelling栏取消选中,再点击 ...

  4. idea开启/关闭单词拼写检查

  5. python 拼写检查代码(怎样写一个拼写检查器)

    原文:http://norvig.com/spell-correct.html 翻译:http://blog.youxu.info/spell-correct.html 怎样写一个拼写检查器 Pete ...

  6. 如何写一个拼写检查器-by Peter Norvig

    本文原著:Peter Norvig  中文翻译:徐宥 上个星期, 我的两个朋友 Dean 和 Bill 分别告诉我说他们对 Google 的快速高质量的拼写检查工具感到惊奇. 比如说在搜索的时候键入 ...

  7. solr入门之solr的拼写检查功能的应用级别尝试

    今天主要是收集了些拼写检查方面的资料和 尝试使用一下拼写检查的功能--=遇到了不少问题 拼写检查的四种配置眼下我仅仅算是成功了半个吧 --------------------------------- ...

  8. Emacs中的拼写检查

    无论是在Emacs中写英文日记(diary).Org mode笔记,还是撰写程序的注释和文档,拼写检查都是一项提高工作效率.保证成果品质的必不可缺的工具.拼写检查对于常见的文字处理软件(如Word.L ...

  9. [Swift]LeetCode966.元音拼写检查器 | Vowel Spellchecker

    Given a wordlist, we want to implement a spellchecker that converts a query word into a correct word ...

随机推荐

  1. HTML5新特性: 自定义属性前缀data-以及dataset的使用

    HTML5规定可以为元素添加非标准的属性,但要添加前缀 data- ,目的是为元素提供与渲染无关的信息,或者提供语义信息.这些属性可以任意添加.随便命名,只要以 data- 开头即可 添加了自定义属性 ...

  2. java 数据格式验证类

    作为一个前端,懂一点java,php之类的,甚好. 我所在的项目前端采用的就是java的spring mvc框架,所以我们也写java,掐指一算,也快一年了. 前端而言,验证是一个坎,绕不过去的,前面 ...

  3. Mysql查询不为null值

    Mysql本以为查询不为null就是!=null可是结果查询出来什么都没有,后来才发现不为null应该是is not null ,为null应该是is null.

  4. Java框架之Spring(五)

    本文主要介绍Spring中, 1 Spring JDBC 2 使用注解方式管理事务的传播行为 3 采用XML 方式配置事务 4 SH 整合 5 SSH 整合 一.Spring JDBC 1) 导包 , ...

  5. 算法8 五大查找之:二叉排序树(BSTree)

    上一篇总结了索引查找,这一篇要总结的是二叉排序树,又称为二叉搜索树(BSTree) . 构造一棵二叉排序树的目的,其实并不是为了排序,而是为了提高查找和插入删除的效率. 什么是二叉排序树呢?二叉排序树 ...

  6. file中private_data

    这个是Linux下连接VFS文件系统框架和不同文件/文件系统底层实现之间的一个核心数据结构,虽然它只是一个指针,但是一个指针可以解决所有问题,有了它,妈妈再也不用担心我的学习.我们回想一下用户态线程的 ...

  7. RabbitMQ入门HelloWorld(C#)(翻译)

    介绍 先决条件 本教程假定RabbitMQ已安装并在标准端口(5672)上的本地主机上运行.如果您使用不同的主机,端口或凭据,连接设置将需要调整. 在哪里得到帮助 如果您在阅读本教程时遇到困难,可以  ...

  8. UINavigationController 返回手势与 leftBarButtonItem

    UINavigationController 返回手势与 leftBarButtonItem UINavigationController 自带从屏幕左侧边缘向右滑动的返回手势,可以通过这个手势实现 ...

  9. 集合 (set) 的增删改查及 copy()方法

    一.集合 1.集合的创建 set1 = set({1,2,'barry'}) set2 = {1,2,'barry'} print(set1,type(set1)) print(set2,type(s ...

  10. linux(八)linux系统中查找文件二

    前面介绍的是find命令,我们发现一个find命令居然有那么多的命令,我看到都要晕了,不管没有关系,加油.相信自己! 一.grep命令 1.1.作用 Linux系统中grep命令是一种强大的文本搜索工 ...