需要解决的问题:要匹配字符串,字符串中字母的大小写不确定,如何匹配?

问题出现之前是使用字符串比较的方式,比如要匹配'abc',则用语句:

 if s == 'abc':#s为需要匹配的字符串
print '匹配成功\n'

现在的问题是s可能是Abc、ABC等等,所以需要大小写不敏感的匹配,如果把需要匹配的模式的大小写进行罗列,那即使是三个字母的短模式也是很麻烦,查了一下,正则表达式re模块中有个参数flags=re.I,这样就可以大小写不敏感的匹配了,示例如下:

 import re

 s = 'Abc'
p = 'abc'
p = re.compile(p,re.I)
print re.search(p,s).group()

匹配成功,输出结果:'Abc'

Re模块中compile函数的使用 :

预编译在python正则匹配中不是必须的,但是最好预编译一下,提升效率(多次使用,及时存缓存,也节省了查缓存等时间)。Re模块中的flag参数值可选范围如下表:

(可查文档re模块)

标志

含义

DOTALL, S

使 . 匹配包括换行在内的所有字符

IGNORECASE, I

使匹配对大小写不敏感

LOCALE, L

做本地化识别(locale-aware)匹配

MULTILINE, M

多行匹配,影响 ^ 和 $

VERBOSE, X

能够使用 REs 的 verbose 状态,使之被组织得更清晰易懂

这个表中Flags参数的值对search函数直接用也是可以的,如re.searchi(pattern,string,flags)

下一个问题,如何匹配大小写不确定的xml元素中的属性名呢:

既然可以不敏感的匹配字母的大小写,那么如果要匹配xml元素节点,要获取该节点的值怎么做呢?

思路是这样的:要获取属性值,则要得到属性名,但是怎么准确知道属性名哪个字母大写哪个字母小写呢,这是个问题

方法是利用元素tag找到所在元素,然后取出元素的所有属性名,挨个匹配,找出所需的就停止,这样匹配元素属性名成功后,re.search(p,s,f).group()就是该属性当前的名了

需要解析的xml文件(abc.xml)如下:

 <root>
<element name = 'who' /element1>
<element Name = 'am' /element1>
<element NAME = 'I' /element1>
</root>

解析的代码如下:

 import re
import xml.etree.Element as etree file = 'abc.xml'
p = 'name'
pattern = re.compile(p,re.I)
tree = etree.parse(file)
root = tree.getroot()
result = []
result = tree.findall('.//element')
for i in result:
for j in i.attrib.keys():
try:
r = re.search(pattern,j).group()
#输出匹配的name属性名和对应的属性值
print 'attrib is %s,and the value is %s\n'%r%i.attrib[r]
break
except AttributeError,e:
pass

输出的结果如下:

 attrib is name,and the value is who
attrib is Name,and the value is am
attrib is NAME,and the value is I

最后记录下:Str.Strip()参数为空可以去掉字符串首尾的特殊字符,很好用~

Python正则匹配字母大小写不敏感在读xml中的应用的更多相关文章

  1. 用python处理时间、utf8文本、正则匹配、序列化、目录路径搜索、xml解析

    python 处理时间 import time import re now = time.strftime("%Y-%m-%d %H:%M:%S", time.gmtime()) ...

  2. python 正则匹配中文(unicode)(转)

    由于 需求原因,需要匹配 提取中文,大量google下,并没有我需要的.花了一个小时大概测试,此utf8中文通过,特留文.    参考: http://hi.baidu.com/nivrrex/blo ...

  3. python正则匹配——中文字符的匹配

    # -*- coding:utf-8 -*- import re '''python 3.5版本 正则匹配中文,固定形式:\u4E00-\u9FA5 ''' words = 'study in 山海大 ...

  4. python 正则匹配

    正则表达式模式 模式字符串使用特殊的语法来表示一个正则表达式: 字母和数字表示他们自身.一个正则表达式模式中的字母和数字匹配同样的字符串. 多数字母和数字前加一个反斜杠时会拥有不同的含义. 标点符号只 ...

  5. python 正则之字母匹配

    \A:匹配字符串的开始   \b:匹配一个单词边界   取出a边界单词的个数 >>> len(re.findall(r"\ba"," ab abc ad ...

  6. Python正则匹配多行,多个数据

    最近用Python做一个crawler工具的时候,发现用一个正则表达式可以匹配到个数据的时候用match.group()只能打印出第一个数据,其它数据不能打印出来.最后找到解决方法,现在记录一下,直接 ...

  7. Python 正则匹配网页内的IP地址及端口号

    #!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-30 20:38:23 # @Author : EnderZhou (z ...

  8. python正则匹配示例

    text="山东省临沂市兰山区 市委大院中区21号楼4单元 276002 奥特曼1号 18254998111" #匹配手机号 m=re.findall(r"1\d{10} ...

  9. [Python]正则匹配字符串 | 蒲公英二维码图片url

    代码示例: import re def Find(string): # findall() 查找匹配正则表达式的字符串 url = re.findall('http[s]?://(?:[a-zA-Z] ...

随机推荐

  1. http head

    Accept HTTP_ACCEPT Accept-Charset HTTP_ACCEPT-CHARSET Accept-Encoding HTTP_ACCEPT-ENCODING Accept-La ...

  2. JQuery this和$(this)的区别及获取$(this)子元素对象的方法

    1.JQuery this和$(this)的区别 相信很多刚接触JQuery的人,很多都会对$(this)和this的区别模糊不清,那么这两者有什么区别呢? 首先来看看JQuery中的  $()  这 ...

  3. ESM CORR

    http://infosecnirvana.com/arcsight-corr-install/ http://www.softpanorama.org/Admin/Event_correlation ...

  4. 自制单片机之四……LCD1602的驱动

    LCD1602已很普遍了,具体介绍我就不多说了,市面上字符液晶绝大多数是基于HD44780液晶芯片的,控制原理是完全相同的,因此HD44780写的控制程序可以很方便地应用于市面上大部分的字符型液晶.字 ...

  5. Qt编程之qrc文件的链接

    在Qt里面,.qrc文件是一种类似XML结构的文件,用结构化数据描述应用程序所需要的资源位置,例如图片,应用程序的图标文件等.它最终是与.ui文件类似都被通过Qt提供的命令行工具生成对应的qrc_XX ...

  6. HTTP 504 错误

    5xx(服务器错误)这些状态代码表示,服务器在尝试处理请求时发生内部错误.这些错误可能是服务器本身的错误,而不是请求出错. 504(网关超时) 服务器作为网关或代理,未及时从上游服务器接收请求. 50 ...

  7. sql management studio 附加mdf文件出错的解决办法

    将mdf文件所在文件夹的权限改为everyone.,完全控制即可.

  8. 【转】Android Service完全解析,关于服务你所需知道的一切(下) ---- 不错

    原文网址:http://blog.csdn.net/guolin_blog/article/details/9797169 转载请注册出处:http://blog.csdn.net/guolin_bl ...

  9. Python partial函数

    以前都是摘录的其他网友的博客,很少是自己写的,学习阶段,多多学习.今天开始自己写了,首先写一下刚刚遇到的partial函数. 1.partial函数主要是对参数的改变,假如一个函数有两个参数,而其中一 ...

  10. 至Webserver构造svgz的文件需要http头,让你的浏览器中打开svgz档

    IE8以及IE8不支持以下浏览器SVG的.svgz它是svg压缩文件格公式,本文介绍的配置独立的浏览器,但浏览svgz请IE9+要么Firefox,Chrome和其他现代的浏览器打开. 让我们以正确显 ...