现在 你已经会使用 python 模拟浏览器 进行一些 Http 的请求了 那么请求完之后 服务器返回给我们一堆源代码 我们可不是啥都要的啊 我们是有原则的 我们想要的东西 怎么能一股脑的啥都往自己兜里塞呢? 使不得 使不得 所以 在服务器返回给我们的源码之中 我们要过滤 拿到我们想要的就好 其它就丢一旁 那么 我们就需要学会怎么使用 正则表达式   通过它 我们才能过滤出我们想要的内容 ... 接下来就是 学习 python 的正确姿势 真香警告 这篇文章不适合急性子的人看,要不然会把手机砸了…
本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程-19-数据提取-正则表达式(re) 正则表达式:一套规则,可以在字符串文本中进行搜查替换等 正则使用步骤: 1.使用 compile 函数将正则表达式的字符串编译成一个 pattern 对象 2.通过 pattern 对象的一些方法对文本进行匹配,匹配结果是一个 match 对象 3.用 match 对象的方法,对结果进行操作 正则的常用方法:…
学习目的: 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特点字符.及这些特点字符组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑. 正式步骤 Step1:常用匹配模式 Step2:最常规的匹配 import re testString = 'I have 4Learned the python years' print(len(testString)) result = re.match('^I\s\w{4}\s\d\w{7}.*years$',t…
字符 描述 \ 将下一个字符标记为一个特殊字符(File Format Escape,清单见本表).或一个原义字符(Identity Escape,有^$()*+?.[\{|共计12个).或一个向后引用(backreferences).或一个八进制转义符.例如,"n"匹配字符"n"."\n"匹配一个换行符.序列"\\"匹配"\"而"\("则匹配"(". ^ 匹配输入字…
利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集 目标站点分析 今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方法不太一样,对它的抓取需要抓取后台传来的JSON数据, 先来看一下今日头条的源码结构:我们抓取文章的标题,详情页的图片链接试一下: 看到上面的源码了吧,抓取下来没有用,那么我看下它的后台数据:‘ 所有的数据都在后台的JSON展示中,所以我们需要通过接口对数据进行抓取 提取网页JSON数据 执行函数结…
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析 流程框架 爬虫实战 使用requests库获取top100首页: import requests def get_one_page(url): response = requests.get(url) if response.status_code == 200: return response.text return None def main(): url = 'http://maoyan.com/board/4?off…
1.了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑. 正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要从返回的页面内容提取出我们想要的内容就易如反掌了. 正则表达式的大致匹配过程是:1.依次拿出表达式和文本中的字符比较,2.如果每一个字符都能匹配,则匹配成功:一旦有匹配不成功的字…
1. 获取AJAX加载动态页面的内容 1.1. Introduction 如果所爬取的网址是通过Ajax方式加载的,就直接抓包,拿他后面传输数据的文件 有些网页内容使用AJAX加载,只要记得,AJAX一般返回的是JSON,直接对AJAX地址进行post或get,就返回JSON数据了. 拿到JSAON,就是拿到了网页的数据 例子:http://www.kfc.com.cn/kfccda/storelist/index.aspx 这里有很多页数据,每一页的数据都是ajax加载的.如果你直接用pyth…
面向过程的方式 #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib2 import sys import re import os type = sys.getfilesystemencoding() if __name__ == '__main__': # 1.访问其中一个网页地址,获取网页源代码 url = 'http://www.qiushibaike.com/textnew/' user_agent = 'Mozilla…