最近在日志数据清洗时遇到中文乱码,如果只要有非中文字符就将该字符串过滤掉,这种方法虽简单但并不可取,因为比如像Xperia™主題.天天四川麻将Ⅱ这样的字符串也会被过滤掉. 1. Unicode编码 Unicode编码是一种涵盖了世界上所有语言.标点等字符的编码方式,简单一点说,就是一种通用的世界码:其编码范围:U+0000 .. U+10FFFF.按Unicode硬编码的区间进行划分,Unicode编码被分成若干个block ( Unicode block):每一个Unicode编码专属于唯一的…