在python中,我们可以使用re模块来使用正则表达式。

正则表达式使用\对特殊字符进行转义,因为python本身也是用\作为转义,所以在使用正则的时候会出现这样的情况,'python\\.org',有两个斜杠,为了避免出现这种情况,我们可以使用如下方法:

  1. r'python\.org'

re模块一些常用的方法。

findall

以列表形式返回所有匹配的字符串,如果没有匹配的就返回一个空列表。

还可以指定字符串的开始位置和结束位置。

  1. import re
  2. string = "abcd2135asdfasfd3425"
  3. re = re.compile(r'\d+')
  4. result1 = re.findall(string)
  5. result2 = re.findall(string,0,8) # 指定起始位置,从第一个字符到第八个字符,所以最后的数字不会匹配上
  6. print(result1)
  7. print(result2)
  8.  
  9. 结果:
  10. ['', '']
    ['']

search

只要找到一个匹配结果就返回,也可以指定起始位置。

  1. import re
  2. string = "abcd2135asdfasfd3425"
  3. re = re.compile(r'\d+')
  4. result1 = re.search(string)
  5. result2 = re.search(string,0,6) # 指定起始位置,匹配从第1个字符到第6个字符中的数字
  6. print(result1.group())
  7. print(result2.group())
  8.  
  9. 结果:
  10. 2135
  11. 21

match

不指定起始位置,默认匹配字符串的头部。如果没有匹配上返回None。

  1. import re
  2. string = "abcd2135asdfasfd3425"
  3. re = re.compile(r'\d+')
  4. result1 = re.match(string)
  5. result2 = re.match(string,2,6) # 从c开始匹配,又因为match是默认匹配字符串头部,而头部是c不是数字
  6. result3 = re.match(string,4,6) # 从2开始匹配
  7. print(result1)
  8. print(result2)
  9. print(result3.group())
  10.  
  11. 结果:
  12. None
  13. None
  14. 21

在线正则表达式匹配网站:https://regex101.com/ 我们可以在这里进行正则表达式的调试。

如上图,首先我们选择python,其次把目标字符串放入TEST STRING下面,然后在REGULAR EXPRESSION处写正则表达式进行匹配,如果匹配上了,下面的匹配上的字符串会实时改变颜色。

练习:

匹配下面这个html里面的skuid和skuimgurl两部分内容。

  1. import re
  2. import requests
  3.  
  4. url = "http://qwd.jd.com/fcgi-bin/qwd_searchitem_ex?skuid=26878432382%7C1658610413%7C26222795271%7C25168000024%7C11731514723%7C26348513019%7C20000220615%7C4813030%7C25965247088%7C5327182%7C19588651151%7C1780924%7C15495544751%7C10114188069%7C27036535156%7C10123099847%7C26016197600%7C10503200866%7C16675691362%7C15904713681"
  5.  
  6. session = requests.session()
  7. r = session.get(url)
  8. html = r.text
  9.  
  10. reg = re.compile(r"\"skuid\":\"(\d+)\",\s+\"\S+\s+\"skuurl\"\S+\s+\"skuimgurl\":\"(\S+)\",") # 这里是正则部分
  11. result = reg.findall(html) # 因为我们要找到该网页中的所有的匹配的结果,所以用findall
  12. print(result)

返回的结果如下:

  1. [('', 'https://img11.360buyimg.com/n7/jfs/t18226/169/1318243724/390477/5b0718ff/5ac44edcNa350dbd9.jpg'),
    ('', 'https://img11.360buyimg.com/n7/jfs/t17461/138/1837663326/68820/5f8da5cd/5ad9b1e2N42bce837.jpg'),...........]

上面的正则部分还可以写成如下格式:

  1. \"skuid\":\"*(\d+)\"\S\s+\"\w+\":\".*?\"skuimgurl\":\"(.*?.jpg)

在正则表达式中常用的元字符有如下:

\    转义字符

\s  匹配空白字符

\S  匹配非空白字符

\w  匹配包括下划线的任何单词字符

\W 匹配非单词字符

\d 匹配数字

|   代表左右表达式任意匹配一个

^ 匹配字符串开始

$ 匹配字符串结尾

python正则二的更多相关文章

  1. python 正则,常用正则表达式大全

    Nginx访问日志匹配 re.compile #re.compile 规则解释,改规则必须从前面开始匹配一个一个写到后面,前面一个修改后面全部错误.特殊标准结束为符号为空或者双引号:  改符号开始 从 ...

  2. 认识python正则模块re

    python正则模块re python中re中内置匹配.搜索.替换方法见博客---python附录-re.py模块源码(含re官方文档链接) 正则的应用是处理一些字符串,phthon的博文python ...

  3. Python正则式的基本用法

    Python正则式的基本用法 1.1基本规则 1.2重复 1.2.1最小匹配与精确匹配 1.3前向界定与后向界定 1.4组的基本知识 2.re模块的基本函数 2.1使用compile加速 2.2 ma ...

  4. python 正则使用笔记

    python正则使用笔记 def remove_br(content): """去除两边换行符""" content = content.r ...

  5. Python正则处理多行日志一例

    正则表达式基础知识请参阅<正则表达式基础知识>,本文使用正则表达式来匹配多行日志并从中解析出相应的信息. 假设现在有这样的SQL日志: SELECT * FROM open_app WHE ...

  6. Python正则匹配字母大小写不敏感在读xml中的应用

    需要解决的问题:要匹配字符串,字符串中字母的大小写不确定,如何匹配? 问题出现之前是使用字符串比较的方式,比如要匹配'abc',则用语句: if s == 'abc':#s为需要匹配的字符串 prin ...

  7. Python 基础 二

    Python 基础 二 今天对昨天学习的Python基础知识进行总结,学而不思则惘,思而不学则殆! 一.先对昨天学习的三大循环的使用情况进行总结: 1.while循环的本质就是让计算机在满足某一条件的 ...

  8. 初学Python(二)——数组

    初学Python(二)——数组 初学Python,主要整理一些学习到的知识点,这次是数组. # -*- coding:utf-8 -*- list = [2.0,3.0,4.0] #计算list长度 ...

  9. Python学习二:词典基础详解

    作者:NiceCui 本文谢绝转载,如需转载需征得作者本人同意,谢谢. 本文链接:http://www.cnblogs.com/NiceCui/p/7862377.html 邮箱:moyi@moyib ...

随机推荐

  1. CC2530串口工作

    前言 嘿嘿,我只是写给我自己的一篇博客,今天研究了一天的CC2530,感觉好累,虽然是已经落伍的技术了,但是我觉得不要小看它,还是能够学到点东西的,随着学习的深入,渐渐感觉有点突破的苗头了!哈哈 CC ...

  2. C# 核心语法-反射(反射类型、方法、构造函数、属性,实现可配置可扩展,完成数据库访问类反射封装)

    反射是.NET中的重要机制,通过反射,可以在运行时获得程序或程序集中每一个类型(包括类.结构.委托.接口和枚举等)的成员和成员的信息.有了反射,即可对每一个类型了如指掌.另外我还可以直接创建对象,即使 ...

  3. jQuery事件篇---基础事件

    写在前面: 有一段时间未更新博客了,利用这段时间,重新看了<jQuery基础教程 第四版>和<锋利的jQuery 第二版>,这两本书绝对是jQuery入门非常好的书,值得多读几 ...

  4. redis中的发布订阅(Pub/Sub)

    这里使用nodejs的redis模块说明,具体可见https://www.npmjs.com/package/redis,先来通过一个简单的例子了解下redis中的Pub/Sub具体怎么实现吧.. v ...

  5. Git基础--笔记

    0.取的项目的git仓库 有两种取得 Git 项目仓库的方法.第一种是在现存的目录下,通过导入所有文件来创建新的 Git 仓库. 第二种是从已有的 Git 仓库克隆出一个新的镜像仓库来 1.在工作目录 ...

  6. hdu 4190 Distributing Ballot Boxes 二分

    Distributing Ballot Boxes Time Limit: 20000/10000 MS (Java/Others)    Memory Limit: 65536/32768 K (J ...

  7. 【C++并发实战】(二)线程管理

    前一篇没用markdown编辑器感觉不好看,删了重新发 本篇主要讲述线程的管理,主要包括创建和使用线程 启动线程 线程出现是为了执行任务,线程创建时会给一个入口函数,当这个函数返回时,该线程就会退出, ...

  8. slider轮播插件的多种写法

    slider轮播插件相信大家经常会用到,写法也是各种各样,大部分都是用的第三方提供的组件使用,如果想基于自己的业务特点封装个组件供自己使用的话就要自己封装组件了,网上看了大部分写法都是通过js控制do ...

  9. 记录LNMP环境彻底删除绑定域名及网站文件夹/文件的过程

    lnmp vhost del #删除绑定的域名 chattr -i /home/wwwroot/域名文件夹/.user.ini #解除文件安全限制 rm -rf /home/wwwroot/域名文件夹 ...

  10. 用CSS3 & jQuery创建apple TV海报视差效果

    用CSS和jQuery来实现它,尽量看起来和原效果一样. 最终效果图 本教程里,我将使用CSS,HTML和jQuery来创建一个近似Apple TV视差效果,如果你正在阅读,我假设你对上述三种技术都有 ...