NFA转DFA - json数字识别

json的主页上，提供了number类型的符号识别过程，如下：

图片引用：http://www.json.org/json-zh.html

实际上这张图片表示的是一个状态机，只是状态没有标出来。因为这个状态机上存在ε转换，所以它是一个NFA（不确定有限自动机）。ε转换也即不需要输入串就能进行的转换，例如从开始状态到0之前的状态。而我们进行识别的时候，使用DFA（确定有穷自动机）会简单方便得多。所以首先应该将这个NFA转成DFA。

首先把这个NFA规范一下，写成状态与箭头的形式：

NFA转DFA最常用的方法是子集法，不过由于这个状态机的字符类型比较多，使用表格方式会使得表格很大并且很稀疏。这里用简便的记法，直接从左至右进行确定化：

考虑初始状态0，ε-closure(0)={0,1}，就直接简记为{0,1}状态，写出它相邻的状态，如果相邻状态包含ε，则做同样的处理：

然后再选定{2,6,10}，写出它的相邻状态：

用同样的方式，写出1、{2,3,6,10}的相邻状态，得到状态4和{7,8}，这里需要注意的是1跟{0,1}是两个不同的状态。并且{2,3,6,10}是包含{2,6,10}的，因此可以利用之前{2,6,10}的结果来简化运算，所以只需要考虑3的相邻状态，有点像动态规划思想。重复以上步骤，最终得到一个不含ε的DFA：

得到这个DFA之后并不一定是最简的，我们可以对它进行简化。首先为了方便，对它的状态都用字母替代吧：

简化的主要思路就是将状态的集合不断划分成子集。划分的办法是用一个集合相关的符号去测试这个集合中的状态，如果发现某个状态测试结果与其他状态不同，则划分状态，如果无法区分，则放到同一个集合中。

比如上述的DFA，首先可以肯定的是所有状态可以划分成“非终止状态”和“终止状态”两个集合，因为非终止状态总要转换到终止状态的。由于状态机是从左至右写出的，所以通常情况下，只需要考虑相邻的状态是否等价。并且，如果把这个状态机写成状态转换表，表项是很稀疏的，所以实际上可以合并的状态很少。具体过程如下：

对于终结符{A,C,F,G}每两个都互不等价，因此划分成四个状态{A},{C},{F},{G}

对于非终结符{S,B,D,E,G}，E和G不等价，原因在于E对于+/-结果为G，而G不能通过+/-，并且E,G可以通过digit转换到H，而其他都不能这样转换，所以原集合可以划分成{S,B,D},{E},{G}

{S,B}和{D}很明显是不等价的，而对于S和B，唯一的区别就是S能够通过-转换到B，而B不能通过-

任何状态都不能合并，所以上述的状态机已经不能再简化。

用正规式把上面的状态机写出来就是（非通常的正则表达式语法）：

A=0|-0

C=([1-9]|-[1-9])d*

F=(A|C).dd*

H=(A|C|F)(e|E)(d|(+|-)d)d*

有了以上的状态机，我们就可以实现一个number识别程序了。

程序见：

https://github.com/lianera/lianera.github.io/blob/master/code/json_number_recognize/json_number_recognize.cpp

NFA转DFA - json数字识别的更多相关文章

利用子集构造法实现NFA到DFA的转换
概述 NFA非有穷自动机,即当前状态识别某个转换条件后到达的后继状态不唯一,这种自动机不便机械实现,而DFA是确定有限状态的自动机,它的状态转换的条件是确定的,且状态数目往往少于NFA,所以DFA能够 ...
TensorFlow 之手写数字识别MNIST
官方文档: MNIST For ML Beginners - https://www.tensorflow.org/get_started/mnist/beginners Deep MNIST for ...
MINST手写数字识别（二）—— 卷积神经网络（CNN）
今天我们的主角是keras,其简洁性和易用性简直出乎David 9我的预期.大家都知道keras是在TensorFlow上又包装了一层,向简洁易用的深度学习又迈出了坚实的一步. 所以,今天就来带大家写 ...
【转】机器学习教程十四-利用tensorflow做手写数字识别
模式识别领域应用机器学习的场景非常多,手写识别就是其中一种,最简单的数字识别是一个多类分类问题,我们借这个多类分类问题来介绍一下google最新开源的tensorflow框架,后面深度学习的内容都会基 ...
求子串-KPM模式匹配-NFA／DFA
求子串数据结构中对串的5种最小操作子集:串赋值,串比较,求串长,串连接,求子串,其他操作均可在该子集上实现数据结构中串的模式匹配 KPM模式匹配算法基本的模式匹配算法 //求字串subStrin ...
防止在iOS设备中的Safari将数字识别为电话号码
在测试中发现iPad上的Safari总会把长串数字识别为电话号码,文字变成蓝色,点击还会弹出菜单添加到通讯录. 别的地方倒也罢了,如果在用户名中出现数字(手机注册新浪微博的话用户名就是“手机用户xxx ...
C#中调用Matlab人工神经网络算法实现手写数字识别
手写数字识别实现设计技术参数:通过由数字构成的图像,自动实现几个不同数字的识别,设计识别方法,有较高的识别率关键字:二值化投影矩阵目标定位 Matlab 手写数字图像识别简介: 手写 ...
禁止苹果浏览器Safari将数字识别成电话号码的方法
偶然发现用ipad访问我的网站时,发现网站上的一串数字变颜色了(原来是红色的),现在变成了蓝色.一开始以为网站出了什么问题,后来在PC端查看,发现颜色依旧是红色.在ipad上点击还会弹出菜单呼叫的选项 ...
CNN 手写数字识别
1. 知识点准备在了解 CNN 网络神经之前有两个概念要理解,第一是二维图像上卷积的概念,第二是 pooling 的概念. a. 卷积关于卷积的概念和细节可以参考这里,卷积运算有两个非常重要特性, ...

随机推荐

iterator接口
Iterator用来做遍历,所有实现Collection接口的容器都有一个Iterator的方法以返回一个Iterator接口的对象
linux 批量kill进程
ps -ef | grep module- | grep -v module-mxm | cut -c 9-15 | xargs kill -9 ps -ef | grep module- 查找关键字 ...
destoon公司搜索页面显示公司类型
首先找到前台模板文件:/template/default/company/search.htm 看到51行 {template 'list-company', 'tag'} 打开 /template/ ...
effective OC2.0 52阅读笔记（七系统框架）
47 熟悉系统框架总结:将代码封装为动态库,并提供接口的头文件,就是框架.平时的三方应用都用静态库(因为iOS应用程序不允许在其中包含动态库),并不是真正的框架,然而也经常视为框架.例如:NSLin ...
myeclipse（2015）中创建简单的Maven项目的步骤（用于生成可执行jar文件）------》myeclipse2015
利用MyEclipse的引导,可以很方便的创建简单的.用于生成可执行jar文件的Maven项目: 1.New -> Project... 选择 Maven Project, 点击Next > ...
解决log4j:WARN No appenders could be found for logger
这个问题是因为我们的log4j.properties文件配置不够完整,所以我们给它配置齐了就不会再出现这个问题. log4j.properties不完整配置如下: log4j.rootLogger=D ...
关于装完系统出现a disk read error occurred的解决方法
今天偶遇一台老电脑,很久都没有用了,而且只有几百兆的内存,160G的硬盘,无奈只好装XP系统,GHOST完之后,开机发现出现a disk read error occurred的错误,但是用U盘引导可 ...
BlockingQueue使用
import java.util.concurrent.ArrayBlockingQueue; import java.util.concurrent.BlockingQueue; import ja ...
Linux 第06天
Linux 第06天 1.SAMBA服务器————(linux和windows的文件共享) 1.1 安装 yum install samba -yum 1.2 配置文件 /etc/samba/smb. ...
hierarchyid
hierarchyid: http://www.cnblogs.com/shanyou/archive/2011/07/01/2095968.html RABBITMQ: http://www.rab ...

NFA转DFA - json数字识别

NFA转DFA - json数字识别的更多相关文章

随机推荐

热门专题