utf8 ucs4

这个问题不好回答，首先UTF-8编码只不过是一种Unicode的转换，兼容ASCII。
所以，UTF-8编码支持的最大字符编码应该是Unicode支持的最大字符编码。

理论上，UTF-8编码可以支持最大6字节：
00000000-0000007F 0xxxxxxx
00000080-000007FF 110yyyxx 10xxxxxx
00000800-0000FFFF 1110yyyy 10yyyyxx 10xxxxxx
00010000-001FFFFF 11110zzz 10zzyyyy 10yyyyxx 10xxxxxx
00020000-03FFFFFF 111110aa 10zzzzzz 10zzyyyy 10yyyyxx 10xxxxxx
04000000-7FFFFFFF 1111110a 10aaaaaa 10zzzzzz 10zzyyyy 10yyyyxx 10xxxxxx

UCS4最多可以表示2^32个字符，但UTF-8最多只能表示2^31个字符，现实当中，Unicode规范根本就还没有规定这么多字符，目前最多也就规定到Plane 16，最多1114111个字符，所以网上关于UTF-8编码，大多截止到4字节：
00000000-0000007F 0xxxxxxx
00000080-000007FF 110yyyxx 10xxxxxx
00000800-0000FFFF 1110yyyy 10yyyyxx 10xxxxxx
00010000-0010FFFF 11110zzz 10zzyyyy 10yyyyxx 10xxxxxx

Unicode规范规定，10FFFE和10FFFF作为内部保留，所以Plane 16支持的最大字符编码是：10FFFD
转换成UTF-8编码是：F48FBFBD

但是，到底这个字符能否正常显示出来，还要看你系统里装的字体到底支持多少字符。

所以，“utf-8里现在已经用到的字符最大编码是多少”这个问题的答案依赖于Unicode规范的版本、具体字体字库的支持。

0x00-0x7F 同ASCII，也不可能作为任何其他多字节UTF-8字符的一部分
0xC0-0xDF 多字节UTF-8字符的开始字节，而且据此可以判断出该UTF-8字符的长度（字节数）
0x80-0xBF 多字节UTF-8字符的跟随字节
0xFE-0xFF UTF-8未使用

> 字节数	位数	表示
> 1	7	0bbbbbbb
> 2	11	110bbbbb 10bbbbbb
> 3	16	1110bbbb 10bbbbbb 10bbbbbb
> 4	21	11110bbb 10bbbbbb 10bbbbbb 10bbbbbb
> 5	26	111110bb 10bbbbbb 10bbbbbb 10bbbbbb 10bbbbbb
> 6	31	1111110b 10bbbbbb 10bbbbbb 10bbbbbb 10bbbbbb 10bbbbbb
> 7	36	11111110 10bbbbbb 10bbbbbb 10bbbbbb 10bbbbbb 10bbbbbb 10bbbbbb
> 8	42	11111111 10bbbbbb 10bbbbbb 10bbbbbb 10bbbbbb 10bbbbbb 10bbbbbb 10bbbbbb

typedef uint8 utf8;

//typedef    uint16    utf16; // removed typedef to prevent usage, as utf16 is not supported (yet)

typedef    uint32    utf32;

// return number of code units in a null terminated string

    size_type utf_length(const utf8* utf8_str) const

    {

        size_type cnt = ;

        while (*utf8_str++)

            cnt++;

        return cnt;

    }

    // return number of code units in a null terminated string

    size_type utf_length(const utf32* utf32_str) const

    {

        size_type cnt = ;

        while (*utf32_str++)

            cnt++;

        return cnt;

    }

上面是计算utf8所占的字节数和 utf32 占用的字节数

// return number of utf32 code units required to re-encode given utf8 data as utf32.  len is number of code units in 'buf'.

    size_type encoded_size(const utf8* buf, size_type len) const

    {

        utf8 tcp;

        size_type count = ;

        while (len--)

        {

            tcp = *buf++;

            ++count;

            size_type size = ;

            if (tcp < 0x80)

            {

            }

            else if (tcp < 0xE0)

            {

                size = ;

                ++buf;

            }

            else if (tcp < 0xF0)

            {

                size = ;

                buf += ;

            }

            else

            {

                size = ;

                buf += ;

            }

            if (len >= size)

                len -= size;

            else

                break;

        }

        return count;

    }

计算utf8的文字个数

// return the number of utf8 code units required to encode the given utf32 code point

    size_type encoded_size(utf32 code_point) const

    {

        if (code_point < 0x80)

            return ;

        else if (code_point < 0x0800)

            return ;

        else if (code_point < 0x10000)

            return ;

        else

            return ;

    }

计算ucs4的转到utf8 的字节个数

size_type encode(const utf8* src, utf32* dest, size_type dest_len, size_type src_len = ) const

    {

        // count length for null terminated source...

        if (src_len == )

        {

            src_len = utf_length(src);

        }

        size_type destCapacity = dest_len;

        // while there is data in the source buffer, and space in the dest buffer

        for (uint idx = ; ((idx < src_len) && (destCapacity > ));)

        {

            utf32    cp;

            utf8    cu = src[idx++];

            if (cu < 0x80)

            {

                cp = (utf32)(cu);

            }

            else if (cu < 0xE0)

            {

                cp = ((cu & 0x1F) << );

                cp |= (src[idx++] & 0x3F);

            }

            else if (cu < 0xF0)

            {

                cp = ((cu & 0x0F) << );

                cp |= ((src[idx++] & 0x3F) << );

                cp |= (src[idx++] & 0x3F);

            }

            else

            {

                cp = ((cu & 0x07) << );

                cp |= ((src[idx++] & 0x3F) << );

                cp |= ((src[idx++] & 0x3F) << );

                cp |= (src[idx++] & 0x3F);

            }

            *dest++ = cp;

            --destCapacity;

        }

        return dest_len - destCapacity;

    }

从utf8 转到utf32 即ucs4

size_type encode(const utf32* src, utf8* dest, size_type dest_len, size_type src_len = ) const

    {

        // count length for null terminated source...

        if (src_len == )

        {

            src_len = utf_length(src);

        }

        size_type destCapacity = dest_len;

        // while there is data in the source buffer,

        for (uint idx = ; idx < src_len; ++idx)

        {

            utf32    cp = src[idx];

            // check there is enough destination buffer to receive this encoded unit (exit loop & return if not)

            if (destCapacity < encoded_size(cp))

            {

                break;

            }

            if (cp < 0x80)

            {

                *dest++ = (utf8)cp;

                --destCapacity;

            }

            else if (cp < 0x0800)

            {

                *dest++ = (utf8)((cp >> ) | 0xC0);

                *dest++ = (utf8)((cp & 0x3F) | 0x80);

                destCapacity -= ;

            }

            else if (cp < 0x10000)

            {

                *dest++ = (utf8)((cp >> ) | 0xE0);

                *dest++ = (utf8)(((cp >> ) & 0x3F) | 0x80);

                *dest++ = (utf8)((cp & 0x3F) | 0x80);

                destCapacity -= ;

            }

            else

            {

                *dest++ = (utf8)((cp >> ) | 0xF0);

                *dest++ = (utf8)(((cp >> ) & 0x3F) | 0x80);

                *dest++ = (utf8)(((cp >> ) & 0x3F) | 0x80);

                *dest++ = (utf8)((cp & 0x3F) | 0x80);

                destCapacity -= ;

            }

        }

        return dest_len - destCapacity;

    }

从utf32 转utf8

utf8 ucs4的更多相关文章

跨平台字符编码转换GBK、UTF8
#if (defined _WIN32 || defined _WIN64) # include <windows.h> # include <stdio.h> # inclu ...
std::u32string conversion to/from std::string and std::u16string
I need to convert between UTF-8, UTF-16 and UTF-32 for different API's/modules and since I know have ...
php &#编码/php unicode转码/php &#数字编码
今天使PHP开发用到了Unicode的编码与解码,将unicode转为中文,再将中文转Unicode这样的操作是非常常见的,所以小编将这两个unicode中文互转函数给作为一个笔记保存起来,非常的简单 ...
细说：Unicode, UTF-8, UTF-16, UTF-32, UCS-2, UCS-4
1. Unicode与ISO 10646 全世界很多个国家都在为自己的文字编码,并且互不想通,不同的语言字符编码值相同却代表不同的符号(例如:韩文编码EUC-KR中“한국어”的编码值正好是汉字编码GB ...
C++11之后，对源代码增加了UTF8和UCS4的支持（Windows内部使用Unicode，因为nt内核用的是ucs2，那是89年，utf8到了92年才发明出来）
在C++编程中, 我们常打交道的无非是编辑器和编译器, 对编辑器起来说,我们常遇到就是乱码问题, 比如中文注释显示或是保存不了等, 解决办法就是把你的文件保存成Unicode(UTF8). 对于编译器 ...
C++11与Unicode及使用标准库进行UTF-8、UTF-16、UCS2、UCS4/UTF-32编码转换
zt https://blog.poxiao.me/p/unicode-character-encoding-conversion-in-cpp11/ Unicode Unicode是计算机领域的一项 ...
[转]utf8编码原理详解
from : http://blog.csdn.net/baixiaoshi/article/details/40786503 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态 ...
unicode 和 utf8
关于 unicode utf8 文章来自于 http://blog.csdn.net/tge7618291/article/details/7599902 ascii 主要来表示英文.但是要全世界那么 ...
趣谈unicode，ansi，utf-8，unicode big endian这些编码有什么区别（转载）
从头讲讲编码的故事.那么就让我们找个草堆坐下,先抽口烟,看看夜晚天空上的银河,然后想一想要从哪里开始讲起.嗯,也许这样开始比较好…… 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同 ...

随机推荐

转：安装Chrome不成功,显示代码为“0xa0430721”的解决办法
转自:https://www.douban.com/note/475994923/ Step1: Open your Application Data Folder. For Windows XP: ...
LVS之NAT模型、DR模型配置和持久连接
前言:继LVS概述,本篇实现NAT模型和DR模型下的负载均衡. NAT模型: LVS-NAT基于cisco的LocalDirector.VS/NAT不需要在RealServer上做任何设置,其只要能提 ...
ubuntu下上传本地代码到github
在github上有两种方法上传代码,一种是通过https,一种是通过SSH,这篇主要分享的是通过https的方法上传首先,将你项目的所有代码放在一个文件夹中,然后在github上创建一个新的仓库然 ...
php 找出异常发生的地方
多层嵌套发生异常,找到异常最早发生的地方. final public int Exception::getLine ( void ) final public string Exception::ge ...
linux下Anaconda安装使用Tensorflow
# linux下Anaconda安装使用Tensorflow ### 环境------------------------------ Ubuntu 18.04 ### 环境准备----------- ...
C#学习笔记（22）——C#创建文本文件txt并追加写入数据
说明(2017-7-31 16:25:06): 1. 有两种办法,第一种是用FileStream创建txt,用StreamWriter写入数据,期间还要加上判断,是否存在这个txt文件,如果不存在就创 ...
迷你版mvc框架执行过程
一.把路由添加到路由表, 二.注册ControllerBuilder(老板)和默认工厂(DefaultControllerFactory) 2.1默认工厂获取可以创建的Controller. 三.由于 ...
【卡西欧Fx-5800p系列教程】Pol（）和Rec（）正反算妙用
一.背景概述我要单独把这两个公式列出来写篇文章, 我觉得搞测量的如果能熟练运用 Pol()和Rec()这两个公式,那么他是会用卡西欧计算器的里程碑事件,也就是说,你开始入门了. 为什么呢?他虽然是内 ...
LInux 文件系统 tmpfs 分区不显示解决
因为不小心把 kernel 的 tmpfs 的选项去掉,导致文件系统内的 tmpfs 分区不显示. kernel 打开如下选项即可在文件系统内就会有相关显示
python 全局变量的使用
我尝试使用类似 C 语言的方式去调用 python 的全局变量,发现不行,后经过尝试,要使用 global 进行调用 test_num = 0; # 首先声明一个全局变量 def test_fun ...

utf8 ucs4

utf8 ucs4的更多相关文章

随机推荐

热门专题