Python爬虫基础之正则表达式

一、Python正则表达式的基本使用

Python 3 使用re模块可以实现大部分的正则表达式情况。

1.re.compile(pattern, flags=0)

re.compile构建匹配规则并返回一个正则表达式对象，这样的好处就是可以多次使用这个匹配规则，通过调用它的match()和search()方法或作为re.match和re.search的pattern参数来匹配字符串。

 html_doc = "www.cnblogs.com"

 pattern = re.compile('www')  # 实例化pattern 对象

 match = re.match(pattern,html_doc)  # 或者 match = pattern.match(html_doc)

 if match:  # www不在字符串开始位置，匹配成功

     print(match.group(0))

 else:

     print("not match com")

 # 打印

 # www

2.re.match(pattern, string, flags=0)

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

匹配成功re.match方法返回一个匹配的对象，否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

 html_doc = "www.cnblogs.com"

 if re.match("www", html_doc):  # www在字符串开始位置，匹配成功

     print(re.match("www", html_doc).group(0))

 else:

     print("not match www")

 if re.match("com", html_doc):  # com不在字符串开始位置，匹配失败

     print(re.match("com", html_doc).group(0))

 else:

     print("not match com")

 # 打印

 # www

 # not match com

3.re.search(pattern, string, flags=0)

re.search 扫描整个字符串并返回第一个成功的匹配。

匹配成功re.search方法返回一个匹配的对象，否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

 html_doc = "www.cnblogs.com"

 if re.search("www", html_doc):  # www在字符串开始位置，匹配成功

     print(re.search("www", html_doc).group(0))

 else:

     print("not match www")

 if re.search("com", html_doc):  # com不在字符串开始位置，匹配成功

     print(re.search("com", html_doc).group(0))

 else:

     print("not match com")

 # 打印

 # www

 # com

4.re.sub(pattern, repl, string, count=0)

re.sub用于替换字符串中的匹配项。

repl : 替换的字符串，也可为一个函数；string : 要被查找替换的原始字符串；count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。

 html_doc = "http://www.cnblogs.com"

 pattern = re.compile('http')  # 实例化pattern 对象

 html_doc_after_sub = re.sub(pattern, "https", html_doc)

 print(html_doc_after_sub)

 # 打印

 # https://www.cnblogs.com

5.re.findall(pattern, string, flags=0)

re.findall查找所有满足pattern匹配规则的字符串，而不像re.match和re.search找到一个满足匹配规则的字符串就直接返回。

 html_doc = "He was carefully disguised but captured quickly by police."

 pattern = re.compile(r'\w+ly')  # 查找所有以ly结尾的单词

 results = re.findall(pattern, html_doc)

 print(results)

 # 打印

 # ['carefully', 'quickly']

二、Python正则表达式的实际应用

 <ul class="m-cvrlst f-cb" id="m-pl-container">

    <li>

     <div class="u-cover u-cover-1">

      <img class="j-flag" src="http://p1.music.126.net/FGe-rVrHlBTbnOvhMR99PQ==/109951162989189558.jpg?param=140y140" />

      <a title="【说唱】留住你一面，画在我心间" href="/playlist?id=832790627" class="msk"></a>

      <div class="bottom">

       <a class="icon-play f-fr" title="播放" href="javascript:;" data-res-type="13" data-res-id="832790627" data-res-action="play"></a>

       <span class="icon-headset"></span>

       <span class="nb">1615</span>

      </div>

     </div> <p class="dec"> <a title="【说唱】留住你一面，画在我心间" href="/playlist?id=832790627" class="tit f-thide s-fc0">【说唱】留住你一面，画在我心间</a> </p> <p><span class="s-fc4">by</span> <a title="JediMindTricks" href="/user/home?id=17647877" class="nm nm-icn f-thide s-fc3">JediMindTricks</a> <sup class="u-icn u-icn-84 "></sup> </p> </li>

    <li>

     <div class="u-cover u-cover-1">

      <img class="j-flag" src="http://p1.music.126.net/If644P7ZrfPm_qcvtYyfzg==/18936888765458653.jpg?param=140y140" />

      <a title="鞋子好看｜国产自赏摇滚噪音流行" href="/playlist?id=721462105" class="msk"></a>

      <div class="bottom">

       <a class="icon-play f-fr" title="播放" href="javascript:;" data-res-type="13" data-res-id="721462105" data-res-action="play"></a>

       <span class="icon-headset"></span>

       <span class="nb">77652</span>

      </div>

     </div> <p class="dec"> <a title="鞋子好看｜国产自赏摇滚噪音流行" href="/playlist?id=721462105" class="tit f-thide s-fc0">鞋子好看｜国产自赏摇滚噪音流行</a> </p> <p><span class="s-fc4">by</span> <a title="原创君" href="/user/home?id=201586" class="nm nm-icn f-thide s-fc3">原创君</a> <sup class="u-icn u-icn-1 "></sup> </p> </li>

   </ul>

开始解析html源码

首先实例化一个正则表达式pattern对象，匹配规则r'<img class="j-flag" src="(.*?)" />'，通过re.findall匹配到所有的img标签的src属性，保存在列表results_img_url中.再通过re.findall匹配到所有满足匹配规则r'<a title="(.*?)" href="(.*?)" class="msk"></a>'的按标签，

并提取属性title和href，保存在元祖中。

 import re

 pattern_img = re.compile(r'<img class="j-flag" src="(.*?)" />')

 results_img_url = re.findall(pattern_img,html_doc)

 print(results_img_url)

 # 打印 ['http://p1.music.126.net/FGe-rVrHlBTbnOvhMR99PQ==/109951162989189558.jpg?param=140y140', 'http://p1.music.126.net/If644P7ZrfPm_qcvtYyfzg==/18936888765458653.jpg?param=140y140']

 pattern_a = re.compile(r'<a title="(.*?)" href="(.*?)" class="msk"></a>')

 results_a = re.findall(pattern_a, html_doc)

 print(results_a)

 # 打印 [('【说唱】留住你一面，画在我心间', '/playlist?id=832790627'), ('鞋子好看｜国产自赏摇滚噪音流行', '/playlist?id=721462105')]

Python爬虫基础之正则表达式的更多相关文章

Python爬虫基础
前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...
python爬虫之re正则表达式库
python爬虫之re正则表达式库正则表达式是用来简洁表达一组字符串的表达式. 编译:将符合正则表达式语法的字符串转换成正则表达式特征操作符说明实例 . 表示任何单个字符 [ ] 字符集,对单 ...
python爬虫-基础入门-python爬虫突破封锁
python爬虫-基础入门-python爬虫突破封锁 >> 相关概念 >> request概念:是从客户端向服务器发出请求,包括用户提交的信息及客户端的一些信息.客户端可通过H ...
python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
Python爬虫基础之认识爬虫
一.前言爬虫Spider什么的,老早就听别人说过,感觉挺高大上的东西,爬网页,爬链接~~~dos黑屏的数据刷刷刷不断地往上冒,看着就爽,漂亮的校花照片,音乐网站的歌曲,笑话.段子应有尽有,全部都过来 ...
python 爬虫基础知识一
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 网络爬虫必备知识点 1. Python基础知识2. P ...
python爬虫基础要学什么，有哪些适合新手的书籍与教程？
一,爬虫基础: 首先我们应该了解爬虫是个什么东西,而不是直接去学习带有代码的内容,新手小白应该花一个小时去了解爬虫是什么,再去学习带有代码的知识,这样所带来的收获是一定比你直接去学习代码内容要多很多很 ...

随机推荐

Go之运算符
逻辑运算符用于连接布尔型表达式.在Java中不同于数学的逻辑表达 3<X<5 ,java 中应该写成 x>3 & x<5 "&" 和&quo ...
ansible 模块
1. #vim /etc/ansible/yaml/back.yml - hosts: siyi tasks: - name: "yum rsync" yum: name=rsyn ...
mysql一个非常实用解决sql查询优化的函数explain
前言: 项目中有个表有几万条数据,然后还要关联其他表,查询条件也有点多,再没有其他查询条件下,默认时间查询条件如果是查一年的数据的话,查询时间那是慢得可怕. 找总监去优化sql,看他用了一个sql函数 ...
Python进阶6---序列化与反序列化
序列化与反序列化*** 为什么要序列化 ? 定义 pickle库 #序列化实例 import pickle lst = 'a b c'.split() with open('test.txt','wb ...
【LUOGU???】WD与地图整体二分线段树合并
题目大意有一个简单有向图.每个点有点权. 有三种操作: 修改点权删除一条边询问和某个点在同一个强连通分量中的点的前 \(k\) 大点权和. \(n\leq 100000,m,q\leq 2000 ...
小白月赛13 B小A的回文串（马拉车算法求最长回文子串）
链接:https://ac.nowcoder.com/acm/contest/549/B来源:牛客网时间限制:C/C++ 2秒,其他语言4秒空间限制:C/C++ 262144K,其他语言52428 ...
（十四）QFile操作，QByteArray，文件流操作,QTextStream，QDataStream，QFileInfo, QIODevice
QFile f 1.readall #include "widget.h" #include "ui_widget.h" #include <QFileD ...
我的python中级班学习之路（全程笔记第一模块）（第一章）（第2部分：如何设置python中的字体颜色，猜年龄练习题解答，while else语句，pycharm的使用）
第一章: python 基础语法第 2 部分: 一.猜年龄练习题解答直接上代码 >>> age = 26 >>> count = 0 >>&g ...
java容器-Map
Map:基本思想是映射表(维护键-值对),HashMap,TreeMap,LinkedHashMap,ConcurrentHashMap等都是基于Map接口实现的map容器,他们特性不同,表现在效率, ...
基于jeesite的cms系统（七）：GlobalException全局异常和部署
关于全局异常: 在业务代码中专注处理业务,而不是返回各种CodeMsg(比如这里只需要知道登录时成功还是失败,其余情况直接抛出异常),可以直接抛出异常,添加一个全局异常类,根据CodeMsg来生成异常 ...

Python爬虫基础之正则表达式

Python爬虫基础之正则表达式的更多相关文章

随机推荐

热门专题