正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索,替换,匹配验证都不在话下. 当然,对于爬虫来说,有了它,从HTML里提取想要的信息就非常方便了. 先看一下常用的匹配规则: \w:匹配字母.数字及下划线 \W:匹配不是字母.数字及下划线 \s:匹配任意空白字符,等价于[\t\n\r\f] \S:匹配任意非空字符 \d:匹配任意数字,等价于[0-9] \D:匹配任意飞数字的字符 \A:匹配字符串开头 \Z:匹配字符串结尾,如果存在换行,只匹配到换行前得结束字字符串…