自己来实现一个简易的OCR

来做个简易的字符识别，既然是简易的那么我们就不能用任何的第三方库。啥谷歌的 tesseract-ocr， opencv 之类的那些玩意是叼至少图像处理机器视觉这类课题对我这种高中没毕业的人来说是一座高山对于大多数程序员都应该算难度不小吧。但是我们这里这么简陋的功能还用那些玩意作为一个程序员的自我修养你还玩个球。管他代码写得咋个low 效率咋个低被高手嗤之以鼻也好其实那些高手也就那样把你的代码走起来，这是一件很好玩的事情。以前一直觉着这玩意挺神奇什么OCR optical character Recognition 高大上，这三个单词一直记不住。好了正题：

二值化和对象分割

拿到图像首先二值化就是用一种无脑的方式把浅色的背景去掉变成纯白色，书上都是说二值化这样说感觉是要叼一些专业一些那么我也这样说了。图像上的像素数据都是一堆无意义的离散的数据。那么第一步就是要把这些离散的像素数据组织成有逻辑的数据也就是对象分割了，一块整的图片把他分割成一个个的字符小图片。网上看到别人用投影直方图的方式这样做可以很容易分割一行排的字符。但是我原来还想做一个简易的“数细胞”的算法干脆就一并实现了吧正好这里也可以用得上，数细胞明白否就是一副白纸上一坨一坨的每一坨的形状都不一样我们要用程序判断它总共有多少坨只要是连在一起哪怕是一根细线连着的都算一坨。当然也可以分割开涉及到形态学啥的这里面太深奥了暂时我还没准备深入研究。基于他的原理你们也知道了不能判断小写字母i 这样的因为一点加一竖的方式。这也是为啥那些成熟的OCR软件里都容易把扫描文本里比较粗糙有毛边的i 识别成 1 加 ' 。好我们就用这种方式只是为了演示原理我们这里也只准备进行数字识别，正好数字0~9 每一个字符也都是连着的。

我们还是用我原来的巡路用过的算法扩散大法，书面叫广度搜索本来在原来是用来进行路径联通测试的，说明这玩意的用处还挺多的威力无穷啊。就这样随便从黑坨里取一个像素作为种子就像一滴水一样让他去扩散污染整个池塘。什么时候返回也很简单当触角不能再延伸了自然就返回了。污染后把整个池塘删除放到逻辑数据集里去，然后又从所有黑色像素里取一个种子像素如此往复就把这一堆离散的像素点变得有意义了，我们一个个的字符也分割出来了并且还有个好处单个字符的每个像素点我们都知晓进而可以计算字符的像素面积，这就可以把小的噪点过滤掉然后还可以定位每个字符的位置宽高。上面的做法效率是很低的尤其字符面积过大，其实正统的做法应该是使用边缘查找，边缘查找的原理：假设从上下左右有四堵墙往中间推把遇到的所有第一个黑色像素确定为边缘。然后找一个像素八方向查找依次连城一个路径直到找到起始点则连成一个完整的闭塞区域,当然这个东西也不是那么简单的比如遇到238这样的，任何东西运行都要有严密而行得通的理论支持。

对象分割的部分核心代码：

 public Bitmap objSegmentation()

 {

     if (stu > Status.readyToTransform)

         return sourceImg;

     else if (stu == Status.waitSourceImg)

         return null;

     if (sourceImg == null)

         return null;

     bool Over = false;

     while (Over == false)

     {

         //取得一个种子像素

         node pxs = null;

         foreach (var item in blackPixs)

         {

             if (item.accessed == false)

             {

                 pxs = item;

                 break;

             }

         }

         //根据种子像素找出被污染的区域 并把对应的位置设置为已访问

         //设置第一个节点

         startPoint = new Point(pxs.x, pxs.y);

         zouguo = new Dictionary<int, List<node>>();

         int qibu = ;

         List<node> stepOne = new List<node>();

         stepOne.Add(new node() { parent = startPoint, current = startPoint });

         zouguo.Add(qibu, stepOne);

         qibu++;

         //进行广度搜索 直到搜索完一片区域为止

         bool isgogogo = false;

         do

         {

             isgogogo = besideOf(qibu - );

             qibu++;

             //if (qibu > 10)

             //    break;

         } while (isgogogo);

         //遍历当前被腐蚀的那一片区域

         //并把所有节点添加到一个线性数组里去

         int top = height - ;

         int bottom = ;

         int left = cols - ;

         int right = ;

         RegionOfObj bedestory = new RegionOfObj();

         bedestory.pixs = new List<Point>();

         foreach (var item in zouguo.Values)

         {

             foreach (var item2 in item)

             {

                 bedestory.pixs.Add(item2.current);

                 //找出黑色像素里已经被腐蚀过的 把标示设置为已访问

                 for (int i = ; i < blackPixs.Count; i++)

                 {

                     if (item2.current.X == blackPixs[i].x && item2.current.Y == blackPixs[i].y)

                     {

                         blackPixs[i].accessed = true;

                         if (blackPixs[i].x > right)

                             right = blackPixs[i].x;

                         if (blackPixs[i].x < left)

                             left = blackPixs[i].x;

                         if (blackPixs[i].y < top)

                             top = blackPixs[i].y;

                         if (blackPixs[i].y > bottom)

                             bottom = blackPixs[i].y;

                     }

                 }

             }

         }

         Rectangle rec = new Rectangle(left, top, right - left + , bottom - top + );

         bedestory.rect = rec;

         //往最终呈现数据里加入结果

         groupedObj.Add(bedestory);

         //直到黑色像素所有的区域都被访问 就退出

         Over = true;

         foreach (var item in blackPixs)

         {

             if (item.accessed == false)

             {

                 Over = false;

                 break;

             }

         }

         //break;

     }

     stu = Status.readyToRecognition;

     return sourceImg;

 }

模板匹配

然后就是进行识别了网上随便一找都知道是用模板匹配的方式，翻了两本书也都是说的用这种方式。要说的话这确实没啥技术含量挺简单的，就是简单的像素比对差异化的像素占总像素比过大则认为不匹配。我们也不是无脑的拿固定大小的模板图片去比对既然我们字符都分割定位了宽高都知道，首先我们的模板字符是比较大比较清晰的然后缩放到分割字符的大小然后才进行像素比对。

模板匹配部分核心代码：

 public string recognition()

 {

     if (stu == Status.waitSourceImg)

         return "";

     else if (stu > Status.readyToRecognition)

         return recognition_result;

     else if (stu == Status.readyToTransform)

         objSegmentation();

     //如果没有模板文件 则生成他

     if (File.Exists("0.png") == false || File.Exists("1.png") == false || File.Exists("2.png") == false ||

         File.Exists("3.png") == false || File.Exists("4.png") == false || File.Exists("5.png") == false ||

         File.Exists("6.png") == false || File.Exists("7.png") == false || File.Exists("8.png") == false ||

         File.Exists("9.png") == false)

         createTempleFile();

     //载入模板

     Image[] templateImg = new Image[]{

         Image.FromFile("0.png"),Image.FromFile("1.png"),Image.FromFile("2.png"),Image.FromFile("3.png"),Image.FromFile("4.png"),

     Image.FromFile("5.png"),Image.FromFile("6.png"),Image.FromFile("7.png"),Image.FromFile("8.png"),Image.FromFile("9.png")};

     GraphicsUnit uu = GraphicsUnit.Pixel;

     string result = "";

     for (int i = ; i < groupedObj.Count; i++)//遍历所有对象

     {

         float mach = 0.000f;

         string chr_tmp = " ";

         for (int j = ; j < templateImg.Length; j++)//0-9每个字符进行比对

         {

             //处理等比例缩放 算了也不用等比例了。

             Bitmap scaleImg = new Bitmap(groupedObj[i].rect.Width, groupedObj[i].rect.Height);

             Graphics gph = Graphics.FromImage(scaleImg);

             gph.Clear(Color.White);

             gph.DrawImage(templateImg[j], scaleImg.GetBounds(ref uu), templateImg[j].GetBounds(ref uu), GraphicsUnit.Pixel);

             float mach_tmp = ;

             for (int k = ; k < scaleImg.Height; k++)

             {

                 for (int l = ; l < scaleImg.Width; l++)

                 {

                     Color tmp_cor = scaleImg.GetPixel(l, k);

                     Color trg_cor = sourceImg.GetPixel(groupedObj[i].rect.Location.X + l, groupedObj[i].rect.Location.Y + k);

                     if (tmp_cor.R == trg_cor.R && tmp_cor.G == trg_cor.G && tmp_cor.B == trg_cor.B)//如果像素匹配上

                         mach_tmp += ;

                 }

             }

             if ((mach_tmp / (float)(groupedObj[i].rect.Width * groupedObj[i].rect.Height)) > mach)

             {

                 mach = (mach_tmp / (float)(groupedObj[i].rect.Width * groupedObj[i].rect.Height));

                 chr_tmp = j.ToString();

             }

         }

         if (mach < 0.6f)

             result += "?";

         else

             result += chr_tmp;

     }

     recognition_result = result;

     stu = Status.complete;

     return result;

 }

本来准备把模板跟目标区域进行等比例缩放的，后来仔细一想算了这不是多事吗并且这样还有一个好处，就是高度进行压缩了的字符也可以识别出来。搞完了看得出来我们这个只算是最初级最初级的只能够去识别那种解放前水平的验证码。现在的验证码也不是那么好识别的做验证码的人只要大概了解识别原理都可以给识别的人制造成倍的难度，对于现在的有些验证码即使是高手做自动识别都不是那么容易的。

不要问我这可不可以用来识别身份证号之类的。我可以负责的告诉你肯定是可以的。身份证号识别那个本身难度就是比较低的。首先身份证号的位置在整个身份证版面中都是固定的把那一块截取出来进行处理就可以了，然后身份证号所使用的字体叫 "OCR-B 10 BT" 我也不知道啥意思意思是专利于进行OCR识别的字体？OCR-B: An isO recognized machine-readable typeface that is designed to be more legible to humans than OCR-A 这种字体电脑上是没有的需要进行安装下打开OCR-B 10 BT.ttf 点安装即可。然后就可以进行识别了。

运行结果：

自己来实现一个简易的OCR的更多相关文章

.NET Core的文件系统[5]：扩展文件系统构建一个简易版“云盘”
FileProvider构建了一个抽象文件系统,作为它的两个具体实现,PhysicalFileProvider和EmbeddedFileProvider则分别为我们构建了一个物理文件系统和程序集内嵌文 ...
基于 getter 和 setter 撸一个简易的MVVM
Angular 和 Vue 在对Angular的学习中,了解到AngularJS 的两个主要缺点: 对于每一次界面时间,Ajax 或者 timeout,都会进行一个脏检查,而每一次脏检查又会在内部循环 ...
探秘Tomcat——一个简易的Servlet容器
即便再简陋的服务器也是服务器,今天就来循着书本的第二章来看看如何实现一个servlet容器. 背景知识既然说到servlet容器这个名词,我们首先要了解它到底是什么. servlet 相比你或多或少 ...
使用Windows Form 制作一个简易资源管理器
自制一个简易资源管理器----TreeView控件第一步.新建project,进行基本设置:(Set as StartUp Project:View/Toolbox/TreeView) 第二步.开始 ...
[后端人员耍前端系列]AngularJs篇：使用AngularJs打造一个简易权限系统
一.引言上一篇博文已经向大家介绍了AngularJS核心的一些知识点,在这篇博文将介绍如何把AngularJs应用到实际项目中.本篇博文将使用AngularJS来打造一个简易的权限管理系统.下面不多 ...
ENode 2.0 - 第一个真实案例剖析-一个简易论坛（Forum）
前言经过不断的坚持和努力,ENode 2.0的第一个真实案例终于出来了.这个案例是一个简易的论坛,开发这个论坛的初衷是为了验证用ENode框架来开发一个真实项目的可行性.目前这个论坛在UI上是使用了 ...
使用MVVM框架avalon.js实现一个简易日历
最近在做公司内部的运营管理系统,因为与日历密切相关,同时无需触发条件直接显示在页面上,所以针对这样的功能场景,我就用avalon快速实现了一个简易日历,毕竟也是第一次造日历这种轮子,所以这里记录下我当 ...
做了一个简易的git 代码自动部署脚本
做了一个简易的git 代码自动部署脚本 http://my.oschina.net/caomenglong/blog/472665 发表于2个月前(2015-06-30 21:08) 阅读(200 ...
C 基于UDP实现一个简易的聊天室
引言本文是围绕Linux udp api 构建一个简易的多人聊天室.重点看思路,帮助我们加深对udp开发中一些api了解.相对而言udp socket开发相比tcp socket开发注意的细节要少 ...

随机推荐

关于DOM的操作以及性能优化问题-重绘重排
写在前面: 大家都知道DOM的操作很昂贵. 然后贵在什么地方呢? 一.访问DOM元素二.修改DOM引起的重绘重排一.访问DOM 像书上的比喻:把DOM和JavaScript(这里指ECMScri ...
PHP-生成缩略图和添加水印图-学习笔记
1.开始在网站上传图片过程,经常用到缩略图功能.这里我自己写了一个图片处理的Image类,能生成缩略图,并且可以添加水印图. 2.如何生成缩略图生成缩略图,关键的是如何计算缩放比率. 这里,我根据 ...
JavaScript权威指南 - 函数
函数本身就是一段JavaScript代码,定义一次但可能被调用任意次.如果函数挂载在一个对象上,作为对象的一个属性,通常这种函数被称作对象的方法.用于初始化一个新创建的对象的函数被称作构造函数. 相对 ...
【探索】无形验证码 —— PoW 算力验证
先来思考一个问题:如何写一个能消耗对方时间的程序? 消耗时间还不简单,休眠一下就可以了: Sleep(1000) 这确实消耗了时间,但并没有消耗 CPU.如果对方开了变速齿轮,这瞬间就能完成. 不过要 ...
C# Excel导入、导出【源码下载】
本篇主要介绍C#的Excel导入.导出. 目录 1. 介绍:描述第三方类库NPOI以及Excel结构 2. Excel导入:介绍C#如何调用NPOI进行Excel导入,包含:流程图.NOPI以及C#代 ...
const extern static 终极指南
const extern static 终极指南不管是从事哪种语言的开发工作,const extern static 这三个关键字的用法和原理都是我们必须明白的.本文将对此做出非常详细的讲解. co ...
Drawable实战解析：Android XML shape 标签使用详解（apk瘦身，减少内存好帮手）
Android XML shape 标签使用详解一个android开发者肯定懂得使用 xml 定义一个 Drawable,比如定义一个 rect 或者 circle 作为一个 View 的背景. ...
RSA非对称加密，使用OpenSSL生成证书，iOS加密，java解密
最近换了一份工作,工作了大概一个多月了吧.差不多得有两个月没有更新博客了吧.在新公司自己写了一个iOS的比较通用的可以架构一个中型应用的不算是框架的一个结构,并已经投入使用.哈哈说说文章标题的相关的 ...
XAMARIN.ANDROID SIGNALR 实时消息接收发送示例
SignalR 是一个开发实时 Web 应用的 .NET 类库,使用 SignalR 可以很容易的构建基于 ASP.NET 的实时 Web 应用.SignalR 支持多种服务器和客户端,可以 Host ...
Linux基础介绍【第一篇】
Linux简介什么是操作系统? 操作系统,英文名称Operating System,简称OS,是计算机系统中必不可少的基础系统软件,它是应用程序运行以及用户操作必备的基础环境支撑,是计算机系统的核心 ...

自己来实现一个简易的OCR

自己来实现一个简易的OCR的更多相关文章

随机推荐

热门专题