boost-字符文本处理

1、lexical_cast

一些常见的数值，字符互转函数：

整型int：
itoa()、_itoa_s
atoi()、_ttoi

无符号整型unsigned int：
_ultoa_s()、_ultot_s
strtoul()、_tcstoul

长整型long long：
_i64toa_s()、_i64tot_s
_atoi64()、_ttoi64，strtoll(C99/C++11)

无符号长整型unsigned long long：
_ui64toa_s()、_ui64tot_s
_strtoui64()、_tcstoui64，strtoull(C99/C++11)

浮点型double：
atof()、_ttof，strtod
char buf[10] = {0};
_gcvt_s(buf, 10, 12.345, 5);//最后一个参数为要转换的位数

boost的lexical_cast提供数字、字符串之间的相互转换，可以用来替代上面的atoi、itoa、strtol等，使用需要包含boost\lexical_cast.hpp：

    int x = lexical_cast<int>("");

    double d = lexical_cast<double>("3.14");

    string str = lexical_cast<string>();

    string str2 = lexical_cast<string>(3.14);

需要注意的是当浮点数float、double转化为字符串的时候会将不精确的数字也转换，如上面的3.14转换成了"3.1400000000000001"，如果需要指定小数位数的转换的话可以使用下面的format。

当lexical_cast无法执行转换操作时会抛出bad_lexical_cast异常，它是std::bad_cast的派生类，我们可以实现一个模板函数来判断用户输入的是否是有效的数值：

template<typename T>

bool num_valid(const char* pStr)

{

    try

    {

        lexical_cast<T>(pStr);

        return true;

    }

    catch (bad_lexical_cast)

    {

        return false;

    }

}

bool bRet;

char* pInputStr = "";

bRet = num_valid<int>(pInputStr); //输入有效

pInputStr = "123test";

bRet = num_valid<int>(pInputStr); //输入无效

lexcical_cast对于转换对象有三个要求：转换起点对象是可流输出的，即定义了operator<<；转换终点对象是可流输入的，即定义了operator>>；转换终点对象必须是可缺省构造和拷贝构造的。C++中的内建类型int、double等以及std::string都满足前面的可转换条件，而STL中的容器则不可转换，对于用户自定义类型需要满足前面三个条件可以进行转换。

2、format

format可以把参数格式化到一个字符串中，而且是类型安全的，使用format需要包含头文件"boost\format.hpp"，使用示例：

    string str = "value";

    int num = ;

    cout << format("%s: %d \n") % str % num; //format支持流输出，可以直接向输出流cout输出内部保存的字符串，输出value: 100

    format fmt("%s: %d, %s: %d \n");

    fmt % str % num;

    fmt % str % num; //可以多次输入参数

    string strFmt = fmt.str(); //strFmt为 value: 100, value: 100

    fmt.clear();

    fmt % "test" %  % "test2" %;

    cout << fmt;

    format fot("%1%: %2%, %1%: %2% \n"); // %n%用来指定使用的参数

    fot % str % num;

    cout << fot; //输出 value: 100, value: 100

    fot.parse("%f \n");

    fot % 3.14;

    cout << fot; //输出 3.140000

format对象的一些成员函数：

str()：返回内部已经格式化好的字符串
size()：相当于str().size()
clear()：清空内部缓存，执行后立即调用str()或size()会抛出异常
parse()：清空内部缓存并使用一个新的格式化字符串，执行后立即调用str()或size()会抛出异常

参数及其数量必须匹配格式化字符串中要求的参数及数量，否则使用<<输出format对象、调用成员函数str()、size()等会抛出异常，所以使用format的时候最好加上异常处理。

format基本继承了printf的格式化语法，如：

%05d：输出宽度为5的整数，不足位用0填充
%-8.3f：输出左对齐，宽度为8，小数位3位的浮点数
% 10s：输出宽度为10的字符串，不足位用空格填充
%5X：输出宽度为5的大写十六进制整数

format要比printf速度慢几倍，可以先建立const format对象，然后拷贝这个对象进行格式化操作，这样比直接使用format对象能够提高一些速度：

    const format fmt("%d, %d");

    string str = (format(fmt) %  % ).str();

3、string_algo

string_algo是一个非常全面的字符串算法库，使用它需要包含头文件"boost\algorithm\string.hpp"，算法库的命名规范符合标准库的惯例：前缀i表示是大小写不敏感的，后缀_copy即为不改变原输入的copy版本，后缀_if表示使用一个谓词函数对象，很多算法都有包含这三个版本的函数，使用示例：

#include "boost\algorithm\string.hpp"

int main()

{

    string str("readme.txt");

    boost::to_upper(str);

    string strUpper = boost::to_lower_copy(str);

    bool bRet = boost::starts_with(str, "read");

    bRet = boost::iends_with(strUpper, "txt");

    bRet = boost::contains(str, "me");

    boost::all(str, boost::is_lower()); //判断每个字符是否都是小写

    boost::all(str, boost::is_alpha()); //判断每个字符是否都是字母

    boost::all(str, boost::is_digit()); //判断每个字符是否都是十进制数字

    boost::all(str, boost::is_alnum()); //判断每个字符是否都是字母或数字

    boost::all(str, boost::is_any_of("*+-")); //判断每个字符是否都是*或+或-

    boost::trim(str);

    boost::trim_if(str, boost::is_lower() || boost::is_digit());//清除两端小写的字符或数字

    boost::trim_left(str);

    str = "readme.txt";

    boost::iterator_range<string::iterator> rge; //boost::iterator_range相当于容器(string)的子区间类型，它有begin()、end()、size()、empty()等成员函数。

    rge = boost::find_first(str, "me"); //查找首次出现的位置

    if (rge/*!rge.empty()*/) //rge可以隐式转换为bool，所以有两种方法判断查找的结果

    {

        int iFoundPos = rge.begin() - str.begin(); //iFoundPos为4

        string strFind(rge.begin(), rge.end()); //strFind为"me"

        string strFull(rge.begin(), str.end()); //strFull为me.txt

        int a = ;

    }

    boost::find_last(str, "txt"); //查找最后一次出现的位置

    boost::find_nth(str, "dm", ); //查找"dm第二次出现的位置"

    str = "abc, TestD, test";

    vector<string> vs;

    boost::ifind_all(vs, str, "test"); //查找所有出现的位置

    for (auto obj : vs)

    {

        string s = obj;

        cout << s << ","; //输出为Test, test

    }

    vector<boost::iterator_range<string::iterator>> vr;

    boost::ifind_all(vr, str, "test");

    for (auto obj : vr)

    {

        string strSub(obj.begin(), obj.end());

        cout << strSub << ","; //输出为Test, test

        string strTemp(obj.begin(), str.end());

        cout << strTemp << ";"; //输出为TestD, test; test

        int iFoundPos = obj.begin() - str.begin();

        cout << iFoundPos << ","; //输出为5, 12

    }

    replace / erase_all(); //替换/删除所有出现的字符串

    replace / erase_first(); //替换/删除第一次出现的字符串

    replace / erase_last(); //替换/删除所有出现的字符串

    replace / erase_nth(); //替换/删除第n + 1次出现的字符串

    replace / erase_head(); //替换/删除开头的n个字符串

    replace / erase_tail(); //替换/删除结尾的n个字符串

    //split()以指定单个字符分割字符串到一个容器中，其参数列表的最后是一个带默认参数，取值可为token_compress_on、token_compress_off

    //token_compress_on表示连续两个分割字符出现时视为一个，token_compress_off为正常操作（会分割出一个空字符串来）。

    str = "c++ java c#";

    list<string> l;

    boost::split(l, str, boost::is_space()); //以空格分割

    auto it = l.begin();

    for (; it != l.end(); ++it)

    {

        string str = *it;

        cout << str << ","; //输出为c++, java, c#

    }

    std::vector<std::string> vc;
    boost::split(vc, str, boost::is_any_of(" ")); //以空格分割
    for (auto& item : vc)
　　 {
　　　　cout << item << ","; //输出为c++, java, c#,
　　 }

    struct SIs_space

    {

        bool operator()(const char& ch)const

        {

            return ch == ' ';

        }

    };

    list<boost::iterator_range<string::iterator>> lr;

    boost::split(lr, str, SIs_space());

    auto iter = lr.begin();

    for (; iter != lr.end(); ++iter)

    {

        string strSub(iter->begin(), iter->end());

        cout << strSub << ","; //输出为c++, java, c#

        string strTemp(iter->begin(), str.end());

        cout << strTemp << ";"; //输出为c++ java c#; java c#; c#

        int iFoundPos = iter->begin() - str.begin();

        cout << iFoundPos << ","; //输出为0, 4, 9

    }

    //使用分割迭代器来分割字符串，可以以多个字符来分割

    str = "Samus || samus || mario |||| Link";

    typedef boost::split_iterator<string::iterator> string_split_iterator;

    string_split_iterator p, endp;

    for (p = boost::make_split_iterator(str, boost::first_finder("||", boost::is_equal())); p != endp; ++p)

    {

        string strSub = string(p->begin(), p->end());

        //cout << strSub << ","; //输出为Samus , samus , mario ,, Link

        string strFull = string(p->begin(), str.end());

        cout << strFull << ","; //输出为 Samus || samus || mario |||| Link,  samus || mario |||| Link,  mario |||| Link, || Link, Link

        int iPos = p->begin() - str.begin();

        cout << iPos << ","; //输出为0, 8, 17, 26, 28

    }

    return ;

}

4、tokenizer

使用tokenizer库可以很容易的执行分词操作，但它只支持使用单个字符进行分词，而且它对wstring(unicode)缺乏完善的考虑。通常建议使用string_algo或正则表达式来替换它的工作。

5、xpressive

xpressive是一个功能强大的正则表达式库，它比原正则表达式库boost.regex速度更快，而且不用编译。xpressive不仅是一个类似boost.regex的正则表达式解析器，还是一个类似于boost.spirit的语法分析器，并且将这两种不相交的文本处理方式融合在了一起。

c++11中已经有了正则表达式类regex。

boost-字符文本处理的更多相关文章

.NET 中字符文本中的字符太多错误处理
错误截图问题描述在ASP.NET中使用多层引号,要引起注意,引号使用不当会引起“字符文本中字段太多”编译错误!今天我就遇到了这个错误,整理于此! “字符文本中字段太多”错误提示过 ...
C# Split 字符文本中的字符太多
问题: ] { '<h1>', '</h1>' }); 原因: Split()里面是用char类型不是string字符串类型,所以只能用一个字符,必须先把多个字符替换成一个字符 ...
纯手动拉WebPanel页面保存出现错误提示 "error：字符文本中的字符太多"
环境为.Net 没有使用WorkWithPlus 纯手拉WebFrom页面问题出现情况如下:在拉页面的过程中拖了3个Value类型的变量到Table中页面如下但是在我保存的时候发现提示如下错 ...
查看文本[Linux]
查看文本不分屏查看 cat (默认标准输入到标准输出) -n(行号) 连接...并显示 -E(每行行尾打印$) 翻屏:shift+pageUp/pageDown tac reverse cat 分屏 ...
PHP实现把文本中的URL转换为链接的auolink()
转载:http://www.jb51.net/article/52916.htm 其实我在<把文本中的URL地址转换为可点击链接的JavaScript.PHP自定义函数>一文中介绍过PHP ...
【转】关于字符编码，你所需要知道的（ASCII,Unicode,Utf-8,GB2312…）
转载地址:http://www.imkevinyang.com/2010/06/%E5%85%B3%E4%BA%8E%E5%AD%97%E7%AC%A6%E7%BC%96%E7%A0%81%EF%BC ...
cut - 小巧的文本截取工具
简介 cut命令是Unix下的一个命令行程序.cut命令是以行为单位来处理的.cut命令处理的是标准输入,所以可以结合管道来进行文本的处理. 命令格式 cut option… [file]… cut命 ...
UTF8与GBK、GB2312等其他字符编码的相互转换
utf8与其他字符编码的转换是国际化必然遇到的问题. windows的api函数对: WideCharToMultiByte和MultiByteToWideChar 个人喜欢的跨平台库: 单纯做字符编 ...
CSS文本
CSS文字及文本导航:1.文字及文本2.例子 1.文字及文本文字: 单个字符文本: 多个字符的组合体 2.例子2.1.文字的颜色颜色属性被用来设置文字的颜色格式: color:色值颜色是通过CSS最 ...
使用sklearn做文本特征提取
提取文本的特征,把文本用特征表示出来,是文本分类的前提,使用sklearn做文本的特征提取,需要导入TfidfVectorizer模块. from sklearn.feature_extraction ...

随机推荐

rest api方式实现对文档库的管理
写在前面刚入职一家新公司,在对接app的时候需要获取到某公司的sharepoint上面的文档库,获取文档库列表,团队文档库中的文件和文件夹列表,个人文档库中的文件文件夹列表,及在app端进入文件夹的 ...
element-vue-koa2-mysql实现文件上传
友情提示:这篇博客不会详细说明搭建过程阅读群体建议:第一次使用node或者koa2写文件上传或者下载,因为你不知道用fs的哪个方法,我也是从fs里试水试了一天,各种百度才搞出来的,特别学过java的 ...
vue+窗格切换+田字+dicom显示_03
环境:vue+webpack+cornerstone ide:vs code 需求:窗格设置+拼图设置代码: 主体:printPage.vue <div class="div mid ...
Android 开发框架系列 Android-Universal-Image-Loader 图片加载使用demo
Android-Universal-Image-Loader github地址:https://github.com/nostra13/Android-Universal-Image-Loader 加 ...
nginx gunicorn 部署flask，带参数链接不可用的现象（笔记）
微信小程序后台,开启 gunicorn之后屏幕会输出打印结果,一旦关闭shell 带参数链接不可用,只有开启shell才能使用, 一针见血 : 注释掉所有print语句,关闭shell 带参数的链接 ...
iOS开发中didSelectRowAtIndexPath tap事件响应延迟
为UITableViewCell添加tapped事件,代码如下: class VideoViewController: UIViewController , UITableViewDataSource ...
spring boot 之错误：SpelEvaluationException: EL1008E: Property or field 'timestamp' cannot be found on object of type 'java.util.HashMap'
这个错误我也见过很多次了,今天终于理解了其出现的原因. 错误是这样的: 2017-11-23 18:05:39.504 ERROR 4092 --- [nio-8080-exec-3] o.a.c.c ...
subString(index,end) 用法
sb = sb.Substring(0, sb.Length - 1); 获取当前字符串的前一部分去掉最后一个字符
Python导出MySQL数据库中表的建表语句到文件
为了做数据对象的版本控制,需要将MySQL数据库中的表结构导出成文件进行版本化管理,试写了一下,可以完整导出数据库中的表结构信息 # -*- coding: utf-8 -*- import os i ...
canvas刮刮乐游戏等
裁剪 ctx.clip():当前路径外的区域不再绘制 <canvas id="cans" width=500 height=500></canvas> &l ...

boost-字符文本处理

boost-字符文本处理的更多相关文章

随机推荐

热门专题