OCR技术浅探：文字定位和文本切割（2）

文字定位

经过前面的特征提取，我们已经较好地提取了图像的文本特征，下面进行文字定位。主要过程分两步：

1、邻近搜索，目的是圈出单行文字；

2、文本切割，目的是将单行文本切割为单字。

邻近搜索

我们可以对提取的特征图进行连通区域搜索，得到的每个连通区域视为一个汉字。这对于大多数汉字来说是适用，但是对于一些比较简单的汉字却不适用，比如“小”、“旦”、“八”、“元” 这些字，由于不具有连通性，所以就被分拆开了，如图13。因此，我们需要通过邻近搜索算法，来整合可能成字的区域，得到单行的文本区域。

图13 直接搜索连通区域，会把诸如“元”之类的字分拆开。

邻近搜索的目的是进行膨胀，以把可能成字的区域“粘合”起来.。如果不进行搜索就膨胀，那么膨胀是各个方向同时进行的，这样有可能把上下行都粘合起来了。因此，我们只允许区域向单一的一个方向膨胀。我们正是要通过搜索邻近区域来确定膨胀方向(上、下、左、右)：

邻近搜索* 从一个连通区域出发，可以找到该连通区域的水平外切矩形，将连通区域扩展到整个矩形。当该区域与最邻近区域的距离小于一定范围时，考虑这个矩形的膨胀，膨胀的方向是最邻近区域的所在方向。

既然涉及到了邻近，那么就需要有距离的概念。下面给出一个比较合理的距离的定义。

距离

图14 两个示例区域

如上图，通过左上角坐标(x,y)和右下角坐标(z,w)就可以确定一个矩形区域，这里的坐标是以左上角为原点来算的。这个区域的中心是( (x+z) / 2, (y+w) / 2 )。对于图中的两个区域S和S′，可以计算它们的中心向量差

如果直接使用作为距离是不合理的，因为这里的邻近应该是按边界来算，而不是中心点。因此，需要减去区域的长度：

距离定义为

至于方向，由的幅角进行判断即可。

然而，按照前面的“邻近搜索*”方法，容易把上下两行文字粘合起来，因此，基于我们的横向排版假设，更好的方法是只允许横向膨胀：

邻近搜索 从一个连通区域出发，可以找到该连通区域的水平外切矩形，将连通区域扩展到整个矩形。当该区域与最邻近区域的距离小于一定范围时，考虑这个矩形的膨胀，膨胀的方向是最邻近区域的所在方向，当且仅当所在方向是水平的，才执行膨胀操作。

结果

有了距离之后，我们就可以计算每两个连通区域之间的距离，然后找出最邻近的区域。我们将每个区域向它最邻近的区域所在的方向扩大4分之一，这样邻近的区域就有可能融合为一个新的区域，从而把碎片整合。

实验表明，邻近搜索的思路能够有效地整合文字碎片，结果如图15。

图15 通过邻近搜索后，圈出的文字区域

文本切割

经过前面文字定位得到单行的文本区域之后，我们就可以想办法将单行的文本切割为单个的字符了。因为第三步的模型师针对单个的字符建立的，因此这一步也是必须的。

均匀切割

基于方块汉字的假设，事实上最简单的切割方法是均匀切割，也就是说不加任何判断，直接按照高度来将单行文本切割为一个个的正方形图片。这种思路可以应对大部分的单行文本，如下图。

当然，均匀切割的弊端也是很明显的。大多数汉字都是方块汉字，但多数英语和数字都不是，因此如果出现中英文混排的时候，均匀切割就失效了，如上图。

统计切割

从图15中可以看出，经过前面的操作，字与字都被很好地分离开了。因此，另外一种比较简单的思路是对单行的文字图片进行垂直方向的求和，和为0的所在的列就是被切割的的列。

用这种统计的思路可以很好地解决中英文混排的单行文字图片分割的问题，但是它也存在一定的弊端。最明显的就是诸如“小”、“的”等字就被切割开为两部分了。

前后比较

一个更好的思路是结合前面两部分结果，通过比较前后两部分区域是否组成方形来确定是否切割。具体步骤是：

1。通过统计求和的思路，得出候选的切割线；

2。如果该候选切割线到左右两条候选切割线的距离之和超过宽长度的1。2倍，那么该候选切割线确定为切割线；

3。如果得到的区域是一个明显的长条矩形，并且没办法按照上面两个步骤切割，那个就均匀切割。

这三个步骤比较简单，基于两个假设：

1、数字、英文字符的底与高之比大于60%；

2、汉字的底与高之比低于1.2。经过测试，该算法可以很好地用于前面步骤所提取的图片文本特征的分割。