Android应用开发进阶篇-场景文字识别

因为研究生毕业项目须要完毕一个基于移动终端的场景文字识别系统。尽管离毕业尚早，但出于兴趣的缘故，近一段抽时间完毕了这样一套系统。

主要的架构例如以下：

client：Android应用实现拍摄场景图片，大致划出感兴趣文字区域，通过socket通信上传server端识别;

服务器端：Python server进行socket通信监听，连通后调用文字识别引擎（exe可运行程序），将识别结果返回;

以下是系统执行演示样例图：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvc2VhbndhbmdfMjU=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="" align="top" height="420" width="680">

1. client

包括两个Activity,： MainActivity主界面如上图左1，选择拍摄后调用系统内部的拍照服务如上图左2；拍照完毕进入KernelActivity如上图左3，大致划出感兴趣文字区域后上传server端，获取识别结果如上图左4。

client拍照和建立网络通信须要注意在AndroidManifestxml文件里声明权限

    <!-- 授权使用相机 -->

    <uses-permission android:name="android.permission.CAMERA" />

    <!-- 在SD卡中创建与删除文件的权限 -->

    <uses-permission android:name="android.permission.MOUNT_UNMOUNT_FILESYSTEMS" />

    <!-- 向SD卡中写入数据权限 -->

    <uses-permission android:name="android.permission.WRITE_EXTERNAL_STORAGE" />

    <!-- 授权訪问互联网 -->

    <uses-permission android:name="android.permission.INTERNET" />

clientAndroid编程时连接server端利用socket进行通信，在编程过程中有几点须要注意的问题。不然非常easy导致出错：

1.1 主线程中不能直接建立网络连接

为了防止线程堵塞，android 4.0以上的版本号不同意直接在主线程建立网络连接（socket通信须要连接网络）。因此，在须要socket通信时。应新开线程用于网络连接，使用示比例如以下

new Thread(){//主线程不能直接连接网络，需新建子线程

	@Override

	public void run(){

		//TODO

	}

}.start();

1.2 clientsocket收发数据流不宜使用close()方法

client须要同一时候接受和发送数据，因此会有例如以下两个对象out和in

							//開始socket通信

							Socket socket = new Socket("210.77.27.123", 9058);	//此处IP依据自己的server端设定

							//写输出（上传）数据

							DataOutputStream out = new DataOutputStream(socket.getOutputStream());	

							//写输入（获得）数据

							BufferedReader in = new BufferedReader(new InputStreamReader(socket.getInputStream(), "gb2312")); //设置字符编码格式，以便正确读取中文

假设在out向server端发送完数据后，想着out已经不须要了，则可能会想使用 out.close() 关闭对象。假设这样。那么在使用in对象接收数据时便会抛出异常“socket closed”！原因是，in或out对象的close()方法使用后会造成socket的关闭。所以。假设须要关闭，能够考虑使用shutdownInput()和shutdownOutput()方法。或者不处理而待最后socket.close()就可以。

1.3 子线程不能更新UI

获得server端识别结果时。须要使用这个内容更新clientUI（左下角的TextView），假设在上面说到的进行socket通信的子线程中直接使用 text.setText()方法试图更新UI的话。结论是不可行的。

所以，为了更新UI须要借助Handler对象。在其handleMessage()方法内更新UI。

子线程中将server端结果存入message并向提前定义的handler对象发送消息

							String response = in.readLine();

							Message msg = handler.obtainMessage();//子线程中不能更新UI。需借助handler

							msg.obj = response;

							handler.sendMessage(msg);

紧接着handler会调用其 handleMessage()方法更新UI，handleMessage()定义例如以下

		handler = new Handler(){

			@Override

			public void handleMessage(Message msg){

				String message = (String)msg.obj;

				if(message != null)

				    text.setText(message);

				else

				    text.setText("抱歉，未能识别");

				super.handleMessage(msg);//这一句必需要有！

不然无法更新UI

			}

		};

2.server端

服务器端主要部署python脚本进行socket监听，一旦建立连接则调用开发好的场景文字识别引擎（STREngine.exe），并将结果返回client。

python server脚本内容例如以下

#####################################

#                                   #

#       STC Recognition Server      #

#                                   #

#####################################

import socket

import os

s = socket.socket()

host = socket.gethostname()

port = 9058

s.bind((host, port))

s.listen(5)

while True:

    c, addr = s.accept()

    print 'Got connection from' , addr

    #get uploaded params

    params = c.recv(19)

    lst = params.split(' ')

    if len(lst) < 4:

        c.close()

        continue

    print 'x=%d, y=%d, w=%d, h=%d' % (int(lst[0]),int(lst[1]),int(lst[2]),int(lst[3]))

    #get uploaded image size info

    size = int(c.recv(4))

    #save uploaded image

    f = open('.\\upload\\tmp.jpg', 'wb')

    for i in range(size):

        f.write(c.recv(1024))

    f.close()

    print 'Image received, size %dKB' % size

    #execute STREngine on server and send back the result

    result = os.popen('STREngine ./upload/tmp.jpg ' + params).read()

    print 'Recognition result:', result

    c.send(result + '\n')

    print 'Close connection with', addr, '\n'

    c.close()

文字识别引擎的内部代码不便分享。但会将可运行文件分享给感兴趣的朋友。

server端有一点非常重要的地方。不注意的话可能会给你带来无尽的烦恼，我就花了两个晚上才发现这个非常小的问题，在此分享以免再浪费别人的时间：

在server端返回识别结果给client时，一定要在字符串后面加换行符‘\n’结尾！

假设不加，则client in.readline()方法会因找不到行末而一直堵塞。则无法利用返回结果更新clientUI。这个问题很恼人，由于假设你在服务端返回不加‘\n'的话，在本地电脑上利用android虚拟机是没问题的，虚拟机上正常更新UI，可是一旦换到手机上就没反应了（不更新UI）。

总结：

事实上。client手动划取感兴趣文字上传后。这个区域位置在ImageView和实际图像中是须要细致换算的。这里就不细说了。有须要的朋友直接看代码吧。

或者强烈建议自己分析推导一番，自己找出这个关系。会对加深对ImageView和Bitmap的理解有极大帮助。

此外。因为不是做产品。对效率的考虑并没有在意。如今的话是将手机拍照后的整幅图片上传，尽管进行了压缩，但一副图仍有几百KB大小。这对流量实在太过浪费。解决的话也简单。仅仅要将划取的文字区域单独取出来上传就可以（但四周须要一定程度的扩展），大小应该减小几十倍。

client和服务端源码（包含识别引擎可运行程序）已分享至CSDN，有问题欢迎随时随时交流指正。

Android应用开发进阶篇-场景文字识别的更多相关文章

Android JNI开发提高篇
有关JNI的开发技术,我们继续围绕Android平台进行,JNI可以支持C或C++,从目前为止我们写过的JNI代码均为C实现的,即文件名为.C而C++的和这些有什么不同呢? Android平台上的JN ...
[转]抢先Mark！微信公众平台开发进阶篇资源集锦
FROM : http://www.csdn.net/article/2014-08-01/2820986 由CSDN和<程序员>杂志联合主办的 2014年微信开发者大会将于8月23日在 ...
Android应用开发基础篇（1）-----Button
Android应用开发基础篇(1)-----Button 一.概述 Button,顾名思义就是按钮的意思,它主要的功能是响应用户按下按钮时的动作. 二.应用新建一个工程, ...
Android应用开发提高篇（1）-----获取本地IP
链接地址:http://www.cnblogs.com/lknlfy/archive/2012/02/21/2361802.html 一.概述习惯了Linux下的网络编程,在还没用智能机之前就一直想 ...
浅析点对点(End-to-End)的场景文字识别(图片文字)
一.背景随着智能手机的广泛普及和移动互联网的迅速发展,通过手机等移动终端的摄像头获取.检索和分享资讯已经逐步成为一种生活方式.基于摄像头的 (Camera-based)的应用更加强调对拍摄场景的理解 ...
android 串口开发第二篇:利用jni实现android和串口通信
一:串口通信简介由于串口开发涉及到jni,所以开发环境需要支持ndk开发,如果未配置ndk配置的朋友,或者对jni不熟悉的朋友,请查看上一篇文章,android 串口开发第一篇:搭建ndk开发环境以 ...
mysql 开发进阶篇系列 55 权限与安全(安全事项 )
一. 操作系统层面安全对于数据库来说,安全很重要,本章将从操作系统和数据库两个层面对mysql的安全问题进行了解. 1. 严格控制操作系统账号和权限在数据库服务器上要严格控制操作系统的账号和权限, ...
mysql 开发进阶篇系列 47 物理备份与恢复(xtrabackup 的完全备份恢复，恢复后重启失败总结)
一. 完全备份恢复说明 xtrabackup二进制文件有一个xtrabackup --copy-back选项,它将备份复制到服务器的datadir目录下.下面是通过 --target-dir 指定完全 ...
mysql 开发进阶篇系列 46 物理备份与恢复( xtrabackup的选项说明，增加备份用户，完全备份案例)
一. xtrabackup 选项说明在操作xtrabackup备份与恢复之前,先看下该工具的选项,下面记录了xtrabackup二进制文件的部分命令行选项,后期把常用的选项在补上.点击查看xtrab ...

随机推荐

for 循环的中的i
for循环中的i,如果倒过来判断从某数一直到0,一定不能用unsigned int类型的i,因为unsigned int不可能小于0,当i=0后,i--将达到最大的unsigned int,依旧> ...
ACM_买粽子（UVA唯一的雪花）
买粽子 Time Limit: 2000/1000ms (Java/Others) Problem Description: 端午节快到了,小蛋准备到集市上买粽子.于是周六这天,小蛋和舍友搭着公交到了 ...
MyBatis动态条件、一对多、整合spring（二）
输入映射和输出映射 Mapper.xml映射文件定义了操作数据库的sql,每一个sql是一个statement,映射文件是mybatis的核心. parameterType输入类型 1.传递简单类型 ...
UML基本关系
UML-Unified Model Language 统一建模语言,又称标准建模语言.是用来对软件密集系统进行可视化建模的一种语言.UML的定义包括UML语义和UML表示法两个元素. UML是在开发阶 ...
javascript跨域的几种方法
以下的例子包含的文件均为为 http://www.a.com/a.html .http://www.a.com/c.html 与 http://www.b.com/b.html,要做的都是从a.htm ...
mysql数据库知识点总结
一.数据库的基本操作 --------------------------------------------------------------数据库的安装以后更新----------------- ...
python--3、函数
定义: 定义函数时,也相当于定义变量.会把函数体内的代码存入开辟的内存空间中.使用函数时,通过func() 声明是函数,其对应的值为代码.函数是指将一组语句的集合通过一个名字(函数名)封装起来,要想执 ...
Leetcode0019--Remove Nth Node From End of List 移除链表第N个结点
[转载请注明]http://www.cnblogs.com/igoslly/p/8672656.html 看一下题目: Given a linked list, remove the nth node ...
编译带加密功能的sqlite
以为编译wxsqlite是很难的事情,竟然这么顺利. 1.下载wxsqlite代码,解压(wxcode.sourceforge.net/components/wxsqlite3/) 2.下载Prema ...
Redmine使用指南
公司之前使用JIRA登bug,但是客户在美国,他们习惯于用Redmine登bug,所以我们也开始在Redmine登bug,找来一个比较全面的Redmine使用指南,不懂时直接查看. http://bl ...

Android应用开发进阶篇-场景文字识别

Android应用开发进阶篇-场景文字识别的更多相关文章

随机推荐

热门专题