最近在日志数据清洗时遇到中文乱码，如果只要有非中文字符就将该字符串过滤掉，这种方法虽简单但并不可取，因为比如像Xperia™主題、天天四川麻将Ⅱ这样的字符串也会被过滤掉。

1. Unicode编码

Unicode编码是一种涵盖了世界上所有语言、标点等字符的编码方式，简单一点说，就是一种通用的世界码；其编码范围：U+0000 .. U+10FFFF。按Unicode硬编码的区间进行划分，Unicode编码被分成若干个block ( Unicode block)；每一个Unicode编码专属于唯一的Unicode block，Unicode block之间互不重叠。从码字的本身的属性出发，Unicode编码被分成了若干script ( Unicode script)；比如，与中文相关的字符、标点的scriptHan包括block如下：

CJK Radicals Supplement
Kangxi Radicals
CJK Symbols and Punctuation中的15个字符
CJK Unified Ideographs Extension A
CJK Unified Ideographs
CJK Compatibility Ideographs
CJK Unified Ideographs Extension B
CJK Unified Ideographs Extension C
CJK Unified Ideographs Extension D
CJK Unified Ideographs Extension E
CJK Compatibility Ideographs Supplement

其中，常见的中文字符在CJK Unified Ideographs block；此外，考虑繁体字及不常见字等，CJK还有A、B、C、D、E五个extension。Basic Latin block完整地包含了ASCII码的控制字符、标点字符与英文字母字符。

Unicode编码与block、script之间的映射关系，具体可参看这里。

2. Java的字符编码

JDK完整实现Unicode的block与script：

Char c = '☎'

Character.UnicodeBlock ub = Character.UnicodeBlock.of(c)

Character.UnicodeScript uc = Character.UnicodeScript.of(c);

Java中的字符char内置的编码方式是UTF-16，当char强转成int类型时，其返回值是unicode编码值，只有当getbyte时才返回的是utf-8编码的byte：

String s = "\u00a0";

String.format("\\u%04x", (int) s.charAt(0)) // --> \u00a0

import org.apache.commons.codec.binary.Hex;

Hex.encodeHex(s.getBytes()) // --> c2a0

UTF-8是Unicode字符的变长前缀编码的一种实现，二者之间的对应关系在这里.现在我们回到开篇过滤中文乱码的问题，有一个基本解决思路：

去掉各种标点字符、控制字符，
计算剩下字符中非中文字符所占的比例，如果超过阈值，则认为该字符串为乱码串

完整代码如下：

public class ChineseUtill {

    private static boolean isChinese(char c) {

    	Character.UnicodeScript sc = Character.UnicodeScript.of(c);

        if (sc == Character.UnicodeScript.HAN) {

            return true;

        }

        return false;

    }

    public static boolean isPunctuation(char c) {

        Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);

        if (    // punctuation, spacing, and formatting characters

        		ub == Character.UnicodeBlock.GENERAL_PUNCTUATION

        		// symbols and punctuation in the unified Chinese, Japanese and Korean script

                || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION

                // fullwidth character or a halfwidth character

                || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS

                // vertical glyph variants for east Asian compatibility

                || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_FORMS

                // vertical punctuation for compatibility characters with the Chinese Standard GB 18030

                || ub == Character.UnicodeBlock.VERTICAL_FORMS

                // ascii

                || ub == Character.UnicodeBlock.BASIC_LATIN

                ) {

            return true;

        } else {

            return false;

        }

    }

    private static Boolean isUserDefined(char c) {

    	Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);

    	if (ub == Character.UnicodeBlock.NUMBER_FORMS

    			|| ub == Character.UnicodeBlock.ENCLOSED_ALPHANUMERICS

    			|| ub == Character.UnicodeBlock.LETTERLIKE_SYMBOLS

    			|| c == '\ufeff'

    			|| c == '\u00a0'

    			)

    		return true;

    	return false;

    }

    public static Boolean isMessy(String str)  {

    	float chlength = 0;

    	float count = 0;

    	for(int i = 0; i < str.length(); i++) {

    		char c = str.charAt(i);

    		if(isPunctuation(c) || isUserDefined(c))

    			continue;

    		else {

    			if(!isChinese(c)) {

    				count = count + 1;

    			}

    			chlength ++;

    		}

    	}

    	float result = count / chlength;

    	if(result > 0.3)

    		return true;

    	return false;

    }

}

为了得到更为完整的可接受的字符表，定义isUserDefined方法（具体字符表与日志中的字符有关系）；加上了Number Forms、Enclosed Alphanumerics、Letterlike Symbols这三个block，以及\u00a0（Non-breaking space）字符与\ufeff（ZERO WIDTH NO-BREAK SPACE）字符。

3. 参考资料

[1] Wikipedia, Unicode block.

[2] Tong Zeng, Java 中文字符判断中文标点符号判断.

Java实现过滤中文乱码的更多相关文章

java socket输入输出中文乱码问题
http://hi.baidu.com/linjk03/item/e2028bfd990c14ea1a111feb 统一了输入输出的编码格式,是不会有乱码问题出现的. 构造Reader或Write ...
java: jsp:param中文乱码
java: jsp:param中文乱码假如a.jsp/b.jsp文件中 a.jsp代码: 需要加入:request.setCharacterEncoding("UTF-8") ...
Java编程中中文乱码问题的研究及解决方案
0 引言 Java最大的特性是与平台的无关性及开发环境的多样性.字符串被Java应用程序转化之前,是根据操作系统默认的编码方式编码.Java语言内部采用Unicode编码,它是定长双字节编码,即任何符 ...
java开发中中文乱码总结
1.jsp页面内容显示乱码这种乱码原因很简单,一般的工具或解码程序对中文字符解析时采用默认的解码方式: <%@ page contentType="text/html; charse ...
java链接mysql 中文乱码
{转!} 背景: 由于最近在开发一个APP的后台程序,需要Java连接远程的MySQL数据库进行数据的更新和查询操作,并且插入的数据里有中文,在插入到数据库后发现中文都是乱码.网上查了很多教程,最后都 ...
201671010127 2016—2017—2 Java怎样解决Java程序中中文乱码的问题。
这是本次第二次分享新手在编程中遇到的问题,相信很多Java新手和我一样,在Java编程中会遇到中文乱码的情况,下面我就给大家分享我遇到问题和解决问题的具体过程. 我先用Notepad++写了一个如下的 ...
解决Ubuntu下的Eclipse打开Windows编写的java代码的中文乱码
其实所有的中文乱码问题都是编码不同所导致的.这里要想让eclipse能正常显示出汉字,就要修改它的字符编码步骤如下: 1 ,点击菜单栏中的Window(窗口),选择Preferences(首选项) ...
java 页面传输中文乱码解决方式
post 中文乱码解决方案接受数据的时候设置 request.setCharacterEncoding("utf-8");//编码必须和页面编码一致页面设置 <%@pag ...
JAVA下载文件中文乱码问题
http://blog.itpub.net/92037/viewspace-788900/ 最后的中文乱码没有解决现在我在系统中用到了两个组件,smartupload,一个支持中文,一个不支持.但是 ...

随机推荐

AWIT DBackup 0.0.20 发布，备份系统
AWIT DBackup 0.0.20 修复了几个小 bug. AllWorldIT DBackup 是一个备份系统,为每个目录创建一个独立的压缩包,这更便于搜索. 特点: 使用 xz, bzip2, ...
linux下用rpm包安装默认配置
rpm安装默认目录:数据文件:/var/lib/mysql/配置文件模板:/usr/share/mysqlmysql客户端工具目录:/usr/bin日志目录:/var/log/pid,sock文件目录 ...
file /usr/share/mysql/... conflicts with file from package mysql-libs-5.1.73-3.el6_5.x86_ 64 MySQL安装
在CentOS 6.5安装MySQL 5.6.17,安装到最后一个rpm文件MySQL-server时安装命令是:rpm -ivh MySQL-server-5.6.17-1.el6.x86_64. ...
[后端人员耍前端系列]AngularJs篇：使用AngularJs打造一个简易权限系统
一.引言上一篇博文已经向大家介绍了AngularJS核心的一些知识点,在这篇博文将介绍如何把AngularJs应用到实际项目中.本篇博文将使用AngularJS来打造一个简易的权限管理系统.下面不多 ...
我的前端架构之二--统一扩展Js方法
我的前端架构汇总 MyJs_Core.js 这是一个核心的Js文件,它扩展了原生的Js方法.如下: Array对象: 1) indexOf 2) max 3) min 4) removeAt 5) i ...
【吉光片羽】之 Web API
1.在asp项目中直接添加apiController,需要新增Global.asax文件.再增加一个webapiConfig,如果需要访问方式为"api/{controller}/{acti ...
Git学习笔记（4）——添加远程仓库，克隆远程库，以及库的推送
本文记录了远程库的连接和库的克隆和推送. 远程仓库简介 Git是分布式版本控制系统,同一个Git仓库,可以分布到不同的机器上.有一台机器有一个原始版本库,此后,别的机器可以“克隆”这个原始版本库,而且 ...
Redis集群~StackExchange.Redis(10月6号版1.1.608.0)连接Twemproxy支持Auth指令了
回到目录对于StackExchange.Redis这个驱动来说,之前的版本在使用Proxy为Twemproxy代理时,它是不支持Password属性的,即不支持原始的Auth指令,而我也修改过源代码 ...
大叔也说Xamarin~Android篇~日志的记录
回到目录无论哪个平台,开始哪种应用程序,日志总是少不了的,大家在Lind.DDD里也可以看到大叔的日志组件,而在xamarin进行移动开发时,为了更好的调试,记录运行的情况,日志也是必须的,这讲主要 ...
05- Shell脚本学习--函数
函数可以让我们将一个复杂功能划分成若干模块,让程序结构更加清晰,代码重复利用率更高.像其他编程语言一样,Shell 也支持函数.Shell 函数必须先定义后使用. 函数定义 Shell 函数的定义格式 ...

Java实现过滤中文乱码

1. Unicode编码

2. Java的字符编码

3. 参考资料

Java实现过滤中文乱码的更多相关文章

随机推荐

热门专题