一个高效过滤非UTF8字符的C函数（也可用来判断是否utf8）

/*

UTF-8 valid format list:

0xxxxxxx

110xxxxx 10xxxxxx

1110xxxx 10xxxxxx 10xxxxxx

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

*/

char *filter_none_utf8_chars(char *src, int *len)

{

        unsigned char *p;

        unsigned char *pSub;

        unsigned char *pStrEnd;

        unsigned char *pCharEnd;

        int bytes;

        unsigned char *filtered;

        unsigned char *pDest;

        unsigned char *pInvalidCharStart;

        pStrEnd = (unsigned char *)src + (*len);

        p = (unsigned char *)src;

        pInvalidCharStart = NULL;

        while (p < pStrEnd)

        {

                if (*p < 0x80)

                {

                        p++;

                        continue;

                }

                if ((*p & 0xE0) == 0xC0)  //110xxxxx

                {

                        bytes = ;

                }

                else if ((*p & 0xF0) == 0xE0) //1110xxxx

                {

                        bytes = ;

                }

                else if ((*p & 0xF8) == 0xF0) //11110xxx

                {

                        bytes = ;

                }

                else if ((*p & 0xFC) == 0xF8) //111110xx

                {

                        bytes = ;

                }

                else if ((*p & 0xFE) == 0xFC) //1111110x

                {

                        bytes = ;

                }

                else

                {

                        pInvalidCharStart = p;

                        break;

                }

                p++;

                pCharEnd = p + bytes;

                if (pCharEnd > pStrEnd)

                {

                        pInvalidCharStart = p - ;

                        break;

                }

                for (; p<pCharEnd; p++)

                {

                        if ((*p & 0xC0) != 0x80)

                        {

                                break;

                        }

                }

                if (p != pCharEnd)

                {

                        pInvalidCharStart = pCharEnd - (bytes + );

                        break;

                }

        }

        if (pInvalidCharStart == NULL) //all chars are valid

        {

                return src;

        }

        filtered = (unsigned char *)malloc(sizeof(char) * (*len));

        if (filtered == NULL)

        {

                *len = ;

                *src = '\0';

                return src;

        }

        pDest = filtered;

        bytes = (char *)pInvalidCharStart - src;

        if (bytes > )

        {

                memcpy(pDest, src, bytes);

                pDest += bytes;

        }

        p = pInvalidCharStart + ; //skip this invalid char

        while (p < pStrEnd)

        {

                if (*p < 0x80)

                {

                        *pDest++ = *p++;

                        continue;

                }

                if ((*p & 0xE0) == 0xC0)  //110xxxxx

                {

                        bytes = ;

                }

                else if ((*p & 0xF0) == 0xE0) //1110xxxx

                {

                        bytes = ;

                }

                else if ((*p & 0xF8) == 0xF0) //11110xxx

                {

                        bytes = ;

                }

                else if ((*p & 0xFC) == 0xF8) //111110xx

                {

                        bytes = ;

                }

                else if ((*p & 0xFE) == 0xFC) //1111110x

                {

                        bytes = ;

                }                

                else  //invalid char

                {

                        p++;

                        continue;

                }

                pSub = p + ;

                pCharEnd = pSub + bytes;

                if (pCharEnd > pStrEnd)

                {

                        p++;

                        continue;

                }

                for (; pSub<pCharEnd; pSub++)

                {

                        if ((*pSub & 0xC0) != 0x80)

                        {

                                break;

                        }

                }

                if (pSub != pCharEnd)

                {

                        p++;

                        continue;

                }

                bytes += ;

                memcpy(pDest,  pSub-bytes, bytes);

                pDest += bytes;

                p += bytes;

        }

        *len = pDest - filtered;

        memcpy(src, filtered, *len);

        * (src + (*len)) = '\0';

        free(filtered);

        return src;

}

http://bbs.chinaunix.net/forum.php?mod=viewthread&tid=1230313

一个高效过滤非UTF8字符的C函数（也可用来判断是否utf8）的更多相关文章

过滤3个字节以上的utf-8字符
/** * 过滤掉超过3个字节的UTF8字符 * @param text * @return * @throws UnsupportedEncodingException */ public stat ...
Unicode其实是Latin1的扩展。只有一个低字节的Uncode字符其实就是Latin1字符——附各种字符编码表及转换表
一.概念 1,ASCII ASCII(American Standard Code for Information Interchange),中文名称为美国信息交换标准代码.是 ...
字符编码笔记：ASCII，Unicode和UTF-8
很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节". 再后来,他们又做了一些可以处理 ...
字符编码笔记：ASCII，Unicode和UTF-8 转
本文出处 http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html 只是为了记录一下省得要去搜. 今天中午,我突然想搞清楚 ...
[转]字符编码笔记：ASCII，Unicode和UTF-8
转自:http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html 作者: 阮一峰日期: 2007年10月28日今天中午, ...
字符编码笔记：ASCII，Unicode和UTF-8(转载)
作者: 阮一峰日期: 2007年10月28日今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步 ...
ASCII 非打印字符
项目出了问题,因为AscII非打印字符的原因,后来找了一下啊ASCII的非打印字符,总共有31个,然后我们直接全部替换成问号了. 解决方式为先找到非打印字符,这是我从网上找的非打印字符表: 进制十六 ...
字符编码笔记：ASCII，Unicode和UTF-8【转载】
作者: 阮一峰日期: 2007年10月28日今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步 ...
【转】字符编码笔记：ASCII，Unicode和UTF-8
今天整理笔记,关于NSString转NSData时,什么时候使用NSUTF8StringEncoding,或者NSASCIIStringEncoding,或者 NSUnicodeStringEncod ...

随机推荐

Oralce Exp 与 Imp 的使用方法
1.完全:EXP SYSTEM/SYSTEM@ORCL FILE=C:\FULL.DMP LOG=C:\FULL.DMP.LOG FULL=Y BUFFER=819200如果要执行完全导出, ...
WPF使用Log4net.dll库的demo(转载加个人观点)
原文地址:http://blog.csdn.net/linraise/article/details/50547149 配置文件解析地址:http://blog.csdn.net/pfe_nova/a ...
C# 实现磁性窗体
可以实现窗体的吸附移动分离 using System; using System.Drawing; using System.Collections.Generic; using Sys ...
测试heightlight
var a = '综合型律师事务所'; if (a == '综合型律师事务所') { initradio('ls_classes', '综合型律师事务所'); } else { initradio(' ...
python学习之 dictionary 、list、tuple操作
python 内置类型数据有dictionary(字典).list(列表)和tuple(元组) 一.Dictionary Dictionary 是 Python 的内置数据类型之一,它定义了键和值之 ...
手机端 UI一些插件
手机弹出框 http://yun.baidu.com/share/link?shareid=3523128425&uk=2685891615
ECSHOP 开发总结
今天算是仔细学习ecshop 的第一天,实话说,如果不是任务紧,肯定不用这个东西.2013年之后都不再维护了.使用起来万一出什么BUG 就不好了.而且不是纯粹的MVC ,看代码也是怪怪的呢.但是都已经 ...
python自学笔记（一）简单了解python
脚本解释型语言的内部机制 python先将脚本编译成字节码文件(pyc,pyo) python虚拟机解释并运行字节码文件编译型语言的内部机制先将源代码编译成机器码(机器能读懂的代码),生成可执行文 ...
解决：sudo: parse error in /etc/sudoers near line 24 ...报错
ubuntu系统下由于添加用户权限的时候直接用的vim对 /etc/sudoers 文件编辑,保存退出的时候,再使用sudo su 等等命令一直报错如下: sudo: parse error in / ...
Ext Store Proxy Ajax
使用Store ajax的方式来获取数据 <div id="grid1"> </div> <script> Ext.onReady(functi ...

一个高效过滤非UTF8字符的C函数（也可用来判断是否utf8）

一个高效过滤非UTF8字符的C函数（也可用来判断是否utf8）的更多相关文章

随机推荐

热门专题