NSCharacterSet 关于字符串编码
此文转自:http://nshipster.cn/nscharacterset/
只为个人为了查找问题方便才复制过来的。。。。。。。
正如之前提前过的,基础类库(Foundation)拥有最好的、功能也最全的string类的实现。
但是仅当程序员熟练掌握它时,一个string的实现才是真的好。所以本周,我们将浏览一些基础类库的string生态系统中经常用到且用错的重要组成部分:NSCharacterSet
。
如果你对什么是字符编码搞不清楚的话(即使你有很好的专业知识),那么你应该抓住这次机会反复阅读Joel Spolsky的这篇经典的文章"The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)"。在头脑中保持新鲜感将对你理解我们将要探讨的话题非常有帮助。
NSCharacterSet
,以及它的可变版本NSMutableCharacterSet
,用面向对象的方式来表示一组Unicode字符。它经常与NSString
及NSScanner
组合起来使用,在不同的字符上做过滤、删除或者分割操作。为了给你提供这些字符是哪些字符的直观印象,请看看NSCharacterSet
提供的类方法:
alphanumericCharacterSet
capitalizedLetterCharacterSet
controlCharacterSet
decimalDigitCharacterSet
decomposableCharacterSet
illegalCharacterSet
letterCharacterSet
lowercaseLetterCharacterSet
newlineCharacterSet
nonBaseCharacterSet
punctuationCharacterSet
symbolCharacterSet
uppercaseLetterCharacterSet
whitespaceAndNewlineCharacterSet
whitespaceCharacterSet
与它的名字所表述的相反,NSCharacterSet
跟 NSSet
一点关系都没有。
虽然底层实现不太一样,但是 NSCharacterSet
在概念上跟 NSIndexSet
还有点相似的。NSIndexSet
,之前提到过,表示一个有序的不重复的无符号整数的集合。Unicode字符跟无符号整数类似,大致对应一些拼写表示。所以,一个 NSCharacterSet +lowercaseCharacterSet
字符集与一个包含97到122范围的 NSIndexSet
是等价的。
现在我们对理解 NSCharacterSet
的基本概念已经有了少许自信,让我们来看一些它的模式与反模式吧:
去掉空格
NSString -stringByTrimmingCharactersInSet:
是个你需要牢牢记住的方法。它经常会传入 NSCharacterSet +whitespaceCharacterSet
或 +whitespaceAndNewlineCharacterSet
来删除输入字符串的头尾的空白符号。
需要重点注意的是,这个方法 仅仅 去除了 开头 和 结尾 的指定字符集中连续字符。这就是说,如果你想去除单词之间的额外空格,请看下一步。
挤压空格
假设你去掉字符串两端的多余空格之后,还想去除单词之间的多余空格,这里有个非常简便的方法:
NSString *string = @"Lorem ipsum dolar sit amet.";
string = [string stringByTrimmingCharactersInSet:[NSCharacterSet whitespaceCharacterSet]];
NSArray *components = [string componentsSeparatedByCharactersInSet:[NSCharacterSet whitespaceCharacterSet]];
components = [components filteredArrayUsingPredicate:[NSPredicate predicateWithFormat:@"self <> ''"]];
string = [components componentsJoinedByString:@" "];
首先,删除字符串首尾的空格;然后用 NSString -componentsSeparatedByCharactersInSet:
在空格处将字符串分割成一个 NSArray
;再用一个 NSPredicate
去除空串;最后,用 NSArray -componentsJoinedByString:
用单个空格符将数组重新拼成字符串。注意:这种方法仅适用于英语这种用空格分割的语言。
现在看看反模式吧。请先看看 the answers to this question on StackOverflow。
在写这篇文章的时候,排行第二的正确答案有 58 个顶和 2 个踩。排行第一的有 84 个顶和 24 个踩。
如今,排名第一的答案却不是正确答案是不太正常的,但是这个问题已经破了不重复答案数(10个)的记录,同时也破了不重复、完全错误的答案数(9个)的记录。
言归正传,这里有 9 个错误答案:
- "Use
stringByTrimmingCharactersInSet
" - 正如你所知道的,它只去掉首尾的空格。 - "Replace ' ' with ''" - 这个去除了所有的空格,劳而无功。
- "Use a regular expression" - 有点用,但它没有处理首尾的空格。用正则表达式有点大材小用了。
- "Use Regexp Lite" - 说真的,正则表达式真心没必要。同时为了这点功能增加第三方库很不值。
- "Use OgreKit" - 同上,添加了第三方库。
- "Split the string into components, iterate over them to find components with non-zero length, and then re-combine" - 很接近了,但是
componentsSeparatedByCharactersInSet:
已经让遍历变得没必要。 - "Replace two-space strings with single-space strings in a while loop" - 错误且浪费计算资源。
- "Manually iterate over each
unichar
in the string and useNSCharacterSet -characterIsMember:
" - 用了一个复杂到让人吃惊的程度的方法,却忘了标准库中已经有方法可以用。 - "Find and remove all of the tabs" - 有谁提到了制表符了?不过还是谢谢了吧。
我个人并不是想责怪回答问题的人——只是指出完成这个功能有多少种不同的方法,而这些方法有多少是完全错误的。
字符串分词
不要用 NSCharacterSet
来分词。 用 CFStringTokenizer
来替代它。
你用 componentsSeparatedByCharactersInSet:
来清理用户输入是可以谅解的,但是用它来做更复杂的事情,你将陷入痛苦的深渊。
为什么?请记住,语言并不是都用空格作为词的分界。虽然实际上以空格分界的语言使用非常广泛。但哪怕只算上中国和日本就已经有十多亿人,占了世界人口总量的 16%。
……即使是用空格分隔的语言,分词也有一些模棱两可的边界条件,特别是复合词汇和标点符号。
以上只为说明:如果你想将字符串分成有意义的单词,那么请用 CFStringTokenizer
(或者 enumerateSubstringsInRange:options:usingBlock:
)吧。
从字符串解析数据
NSScanner
是个用以解析任意或半结构化的字符串的数据的类。当你为一个字符串创建一个扫描器时,你可以指定忽略哪些字符,这样可以避免那些字符以各种各样的方式被包含到解析出来的结果中。
例如,你想从这样一个字符串中解析出开门时间:
Mon-Thurs: 8:00 - 18:00
Fri: 7:00 - 17:00
Sat-Sun: 10:00 - 15:00
你会 enumerateLinesUsingBlock:
并像这样用一个 NSScanner
来解析:
let skippedCharacters = NSMutableCharacterSet()
skippedCharacters.formIntersectionWithCharacterSet(NSCharacterSet.punctuationCharacterSet())
skippedCharacters.formIntersectionWithCharacterSet(NSCharacterSet.whitespaceCharacterSet())
string.enumerateLines { (line, _) in
let scanner = NSScanner(string: line)
scanner.charactersToBeSkipped = skippedCharacters
var startDay, endDay: NSString?
var startHour: Int = 0
var startMinute: Int = 0
var endHour: Int = 0
var endMinute: Int = 0
scanner.scanCharactersFromSet(NSCharacterSet.letterCharacterSet(), intoString: &startDay)
scanner.scanCharactersFromSet(NSCharacterSet.letterCharacterSet(), intoString: &endDay)
scanner.scanInteger(&startHour)
scanner.scanInteger(&startMinute)
scanner.scanInteger(&endHour)
scanner.scanInteger(&endMinute)
}
我们首先从空格字符集和标点符号字符集的并集构造了一个 NSMutableCharacterSet
。告诉 NSScanner
忽略这些字符以极大地减少解析这些字符的必要逻辑。
scanCharactersFromSet:
传入字母字符集得到每项中一星期内的开始和结束(可选)的天数。scanInteger
类似地,得到下一个连续的整型值。
NSCharacterSet
和 NSScanner
让你可以快速而充满自信地编码。这两者真是完美组合。
NSCharacterSet
是基础类库中字符串处理系统中的一员,可能是最容易被用错或是误解的一员。在脑中记住这些模式与反模式,你将不仅能做一些很有用的诸如管理空格及从字符串中读信息之类的事情,更重要的是,你将避免误入歧途。
NSCharacterSet 关于字符串编码的更多相关文章
- 关于python中的字符串编码理解
python2.x 中中间编码为unicode,一个字符串需要decode为unicode,再encode为其它编码格式(gbk.utf8等) 以gbk转utf8为例: s = "我是字符串 ...
- Swift3.0语言教程获取字符串编码与哈希地址
Swift3.0语言教程获取字符串编码与哈希地址 Swift3.0语言教程获取字符串编码与哈希地址,以下将讲解字符串中其它内容的获取方法. 1.获取字符串编码 在NSString中可以使用2个属性获取 ...
- python 字符串编码
通过字符串的decode和encode方法 1 encode([encoding,[errors]]) #其中encoding可以有多种值,比如gb2312 gbk gb18030 bz2 zlib ...
- JS 字符串编码函数(解决URL特殊字符传递问题):escape()、encodeURI()、encodeURIComponent()区别详解
javaScript中有三个可以对字符串编码的函数,分别是: escape,encodeURI,encodeURIComponent,相应3个解码函数:unescape,decodeURI,decod ...
- PHP字符串——编码与转义
因为PHP程序经常与HTML页.Web地址(URL)以及数据库交互,所以PHP提供一些函数来帮助你处理这些类型的数据.HTML.Web页地址和数据库命令都是字符串,但是它们每个都要求不同的字符以不同的 ...
- Mapreduce中的字符串编码
Mapreduce中的字符串编码 $$$ Shuffle的执行过程,需要经过多次比较排序.如果对每一个数据的比较都需要先反序列化,对性能影响极大. RawComparator的作用就不言而喻,能够直接 ...
- 不得不知道的Python字符串编码相关的知识
开发经常会遇到各种字符串编码的问题,例如报错SyntaxError: Non-ASCII character 'ascii' codec can't encode characters in posi ...
- JAVA 字符串编码总结
java 为了解决跨平台,字符串编码的有点特殊 String newStr = new String(oldStr.getBytes(), "UTF-8");java中的Strin ...
- js 字符串编码转换函数
escape 方法 对 String 对象编码以便它们能在所有计算机上可读, escape(charString) 必选项 charstring 参数是要编码的任意 String 对象或文字. 说明 ...
随机推荐
- openLDAP 2
一.安装OPENLDAP 二.打开安装目录中的文件 slapd.conf 三.安装完成后退出 编辑文本,输入以下内容,并命名为test.ldif dn: dc=company objectClass: ...
- 275. H-Index II 递增排序后的论文引用量
[抄题]: Given an array of citations in ascending order (each citation is a non-negative integer) of a ...
- 第一个Django应用程序_part2
一.数据库配置 此文延续第一个Django应用程序_part1. 打开mystic/settings.py.这是一个普通的Python模块,其模块变量表示Django配置 默认情况下,配置使用SQLi ...
- 安装操作系统CentOS-7.x
一.创建虚拟机 使用VMware Fusion创建虚拟机 二.系统安装 为了统一环境,保证实验的通用性,将网卡名称设置为eth*,不使用CentOS 7默认的网卡命名规则.所以需要在安装的时候,增加内 ...
- DPDK收发包全景分析
前言:DPDK收发包是基础核心模块,从网卡收到包到驱动把包拷贝到系统内存中,再到系统对这块数据包的内存管理,由于在处理过程中实现了零拷贝,数据包从接收到发送始终只有一份,对这个报文的管理在前面的mem ...
- loadrunner添加load generator连接失败解决办法
1.到防火墙设置里面“允许程序和功能通过windows防火墙”,然后添加Loadrunner Agent Procss,到列表中,在“专用”和“公用”打勾,然后重启一下LR和Loadrunner Ag ...
- RedisHelper in C#
自己写了一个RedisHelper,现贴出来,希望各位大神能够指正和优化. using System; using StackExchange.Redis; using System.Configur ...
- NAT穿透的详细讲解及分析.RP
原创出处:https://bbs.pediy.com/thread-131961.htm 转载来源: https://blog.csdn.net/g_brightboy/article/details ...
- 常用数据库连接池 (DBCP、c3p0、Druid) 配置说明.RP
1. 引言 1.1 定义 数据库连接是一种关键的有限的昂贵的资源,这一点在多用户的网页应用程序中体现得尤为突出.对数据库连接的管理能显著影响到整个应用程序的伸缩性和健壮性,影响到程序的性能指标.数据库 ...
- Lucene.Net(转)
出处:http://www.cnblogs.com/piziyimao/archive/2013/01/31/2887072.html 做过站内搜索的朋友应该对Lucene.Net不陌生,没做过的也许 ...