c++的字符串中的每一个元素都是一个字节。所以在装入utf8字符串的时候,其实是按照一定的规则编码的。

字符的8位中 如果0开头 则自己就是一个单位。

1字节 0xxxxxxx 
2字节 110xxxxx 10xxxxxx 
3字节 1110xxxx 10xxxxxx 10xxxxxx
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

所以知道这个就好办了。这里有一个类,用来专门处理utf-8的字符串,实现了字符串截取,索引,长度等功能~

#ifndef __IUTF8_STRING__
#define __IUTF8_STRING__

class iutf8string
{
    public:
        iutf8string(const std::string& );

        iutf8string(const char* );

        ~iutf8string();

    public:

        int length();

        std::string substring(int start_index, int length);

        std::string get(int index);

        iutf8string operator + (iutf8string& );

        std::string operator [](int index);

        std::string stlstring();

        const char* c_str();

        iutf8string utf8substr(int u8start_index, int u8_length);

        std::string substr(int u8start_index, int u8_length);

    private:

        std::string data;
        int* offerset;
        int _length;

        void refresh();
};

#endif
#include <iostream>
#include <string>
#include "iutf8string.h"

using namespace std;

iutf8string::iutf8string(const string& str)
{
    data = str;
    refresh();
}

iutf8string::iutf8string(const char* str)
{
    data = string(str);
    refresh();
}

iutf8string::~iutf8string()
{
    delete[] offerset;
}

string iutf8string::stlstring()
{
    return data;
}

const char* iutf8string::c_str()
{
    return data.c_str();
}

iutf8string iutf8string::operator +(iutf8string& ustr)
{
    string temp = data + ustr.stlstring();

    return iutf8string(temp);
}

int iutf8string::length()
{

    return _length;
}

string iutf8string::get(int index)
{
    if(index >= _length) return "";
    ] - offerset[index]);

    return temp;
}

string iutf8string::operator [](int index)
{
    if(index >= _length) return "";
    ] - offerset[index]);

    return temp;
}

string iutf8string::substr(int u8_start_index, int u8_length)
{
    if(u8_start_index + u8_length >= _length) return "";

    return data.substr(offerset[u8_start_index], offerset[u8_start_index+u8_length] - offerset[u8_start_index]);
}

iutf8string iutf8string::utf8substr(int u8_start_index, int u8_length)
{
    if(u8_start_index + u8_length >= _length) return iutf8string("");
    string ret = data.substr(offerset[u8_start_index], offerset[u8_start_index+u8_length] - offerset[u8_start_index]);

    return iutf8string(ret);
}

void iutf8string::refresh()
{
    int *tmp = new int[data.length()];
    ;
    ; i < data.length(); i++)
    {
        )||(!((()))
        {
            tmp[tmpidx] = i;
            tmpidx++;
        }
    }

    tmp[tmpidx] = data.length();

    int *tmp2 = new int[tmpidx];
    ; i < tmpidx; i++)
    {
        tmp2[i] = tmp[i];
    }

    delete[] tmp;
    offerset = tmp2;
    _length = tmpidx;
}

//----------------test code ----------------------------
int main()
{
    iutf8string str1("_我Love你!中国  ,!");
    cout << "字符串长度:" <<str1.length() <<endl;
    int i; cout << "[" ;
    ; i < str1.length(); i++)
    {
        cout << str1[i] << " ";
    }
    cout << "]" << endl;
    ,);
    cout << one << endl;

    string s1("我们都是好孩子!");
    iutf8string str2(s1);
    cout << "[" ;
    ; i < str2.length(); i++)
    {
        cout << str2[i] << " ";
    }
    cout << "]" << endl;
}

最后祝您,提乾涉经。告辞。

c++ 处理utf-8字符串的更多相关文章

  1. 聊聊Node.js 独立日漏洞

    背景 Node.js 社区近期在美国独立日周末的狂欢之时爆出漏洞 https://medium.com/@iojs/important-security-upgrades-for-node-js-an ...

  2. Python基础2 编码和逻辑运算符

    编码: AscII码 :标准ASCII码是采用7位二进制码来编码的,当用1个字节(8位二进制码)来表示ASCII码时,就在最高位添加1个0. 一个英文字母占一个字节 8位(bit)==一个字节(byt ...

  3. python基础(三)编码,深浅copy

    编码,深浅copy encode,decode在python2中使用的一些迷糊,python3中更容易理解 要理解encode和decode,首先我们要明白编码,字符和二进制的相关概念,简单来说,计算 ...

  4. 廖雪峰Python3笔记

    主要复习过一遍 简介 略 安装 略 *** 第一个Python程序 第一行的注释: # _*_ coding: utf-8 _*_ #!/usr/bin/env python3 print() 可以接 ...

  5. Python基础2 字符编码和逻辑运算符

    编码 AscII码 :标准ASCII码是采用7位二进制码来编码的,最高为0,没有0000 0000,所以就是2**7-1=127个字符 , 当用1个字节(8位二进制码)来表示ASCII码时,就在最高位 ...

  6. Python小白学习之路(十六)—【内置函数一】

    将68个内置函数按照其功能分为了10类,分别是: 数学运算(7个) abs()   divmod()  max()  min()  pow()  round()  sum() 类型转换(24个) bo ...

  7. Java中I/O流之数据流

    Java 中的数据流: 对于某问题:将一个 long 类型的数据写到文件中,有办法吗?    转字符串 → 通过 getbytes() 写进去,费劲,而且在此过程中 long 类型的数需要不断地转换. ...

  8. java 聊天程序

    package cn.apr.chart; import java.net.*; import java.io.*; import java.util.*; public class ChatServ ...

  9. python3.7 文件操作

    #!/usr/bin/env python __author__ = "lrtao2010" #python3.7 文件操作 # r 只读,默认打开方式,当文件不存在时会报错 # ...

  10. JNI教程与技术手册

    转载请标明出处:http://blog.csdn.net/shensky711/article/details/52806794 本文出自: [HansChen的博客] 概述 对于JNI,有些童鞋在没 ...

随机推荐

  1. HashMap 1.8的源码分析二

    hashmap的构造方法: public HashMap(int initialCapacity, float loadFactor) { ) throw new IllegalArgumentExc ...

  2. 类关系/self/特殊成员

    1.依赖关系 在方法中引入另一个类的对象 2.关联关系.聚合关系.组合关系 #废话少说 直接上代码===>选课系统 # coding:utf-8 class Student(object): d ...

  3. nodejs創建目錄命令mkdir失敗

    Windows系統 學習nodejs創建目錄命令:mkdir var fs = require('fs'); fs.mkdir('./tmp/test',function (err) { if(err ...

  4. PyCharm出现module 'matplotlib' has no attribute 'verbose'解决方案

    其实不是你安装错了,也不是你代码问题,这就是PyCharm的锅! 虽然有三种解法办法,我觉得还是改IDE配置是最佳方法 把这个钩去掉就行了...... # -*- coding: utf-8 -*- ...

  5. css兼容写法

    css3 1.box-shadow: filter:progid:DXImageTransform.Microsoft.Shadow(color=#,direction=,strength=);/*兼 ...

  6. 前端CSS css引入方式 css选择器 css选择器优先级

    一.       CSS介绍 CSS(Cascading Style Sheet,层叠样式表)定义如何显示HTML元素,给HTML设置样式,让它更加美观. 当浏览器读到一个样式表,它就会按照这个样式表 ...

  7. appium ios 真机自动化环境搭建

    近期由于工作需要,本小菜在弄appium+ios+iphone真机的移动自动化,在网上找寻各种资料,发现针对IOS方面的资料少之又少,公司其它部门的弄过的同事也寥寥无几,即使有,也是安卓方面的.本次书 ...

  8. 隐藏win10中“此电脑”里的6个子文件夹

    删除点击此电脑后6个子文件夹 运行regedit: HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Explorer\Fold ...

  9. 支付宝支付集成中:refund_fastpay_by_platform_nopwd接口服务器通知验签不通过

    在做p2p配资平台,也就是公司的项目,遇到了一个问题:refund_fastpay_by_platform_nopwd接口服务器通知验签不通过 下面是实录: 通知服务器的POST过来的数据: 1.si ...

  10. JavaScript中使用ActiveXObject操作本地文件夹的方法

    转载地址    http://www.jb51.net/article/48538.htm 在Windows平台上, js可以调用很多Windows提供的ActivexObject,本文就使用js来实 ...