现代办公要将纸质文档转换为电子文档的需求越来越多,目前针对这种应用场景的系统为OCR系统,也就是光学字符识别系统,例如对于古老出版物的数字化.但是目前OCR系统主要针对文字的识别上,对于出版物的版面以及版面文字的格式的恢复,并没有给出相应的解决方案.对于版面恢复中主要遇到的困难是文字字体的恢复.对于汉字字体识别问题,目前主要有几种方法,但是都是基于人工特征提取的方法.以往的方法主要分为两大类,第一种为整体分析法,将一整片数据看做采用小波纹理分析抽取字体特征用于分类:使用滤波器提取文字的全局文字特…