03-python进阶-爬虫入门-正则

【urllib and urllib2】

这是两个python的网络模块内置的提供很好的网络访问的功能。

#!coding:utf-8

import  urllib2

res = urllib2.urlopen('http://www.baidu.com')

html = res.read()

print(html)

如果我们想要去爬一些图片可以这样干

#!/usr/bin/env python

#conding:utf-8

import urllib ,  urllib2

url = "https://www.douban.com/doulist/121326/"

header = {'User-Agent':'moto x'}

req = urllib2.Request(url,headers = header)

response = urllib2.urlopen(req)

data = response.read()

import re

#print data

p =re.compile(ur'<img.+src="(.*?)"')

matches = re.findall(p,data)

print matches

for  m in matches:

    with file(m.split('/')[-1],'w') as f:

        f.write(urllib2.urlopen(m).read())

可以把豆瓣某个电影页面的封面都爬下来并且以文件名的形式保存下来

【正则表达式】

在python中想要用正则表达式就必须要要用re模块

<html><body><h1>hello world<h1></body></html>

比如我们想从这里提取helloword

#coding:utf-8

import re

key = r"<html><body><h1>hello world<h1></body></html>"

p1 = r"<h1>.+<h1>"

pattern1 = re.compile(p1)

print pattern1.findall(key)

首先我们知道 . 代表的任意单个字符而且 + 呢则代表的是前面的模拟出现任意次

那么如果我们想就想匹配 .

比如我们要匹配 213d3421a.qq.com123123

里面的a.qq.com

key = r"213d3421a.qq.com123123"

p1 = r"a.\qq.\com"

pattern1 = re.compile(p1)

print pattern1.findall(key)

我们通过 ‘\’ 来转义将【. 】从任意单个字符转义成它原本的意思

个人理解：我们在学习正则表达式的时候应该把正则表达式分成表达式语句和修饰语句两部分来看这样就会容易很多

就比方我们看过的例子

#coding:utf-8

import re

key = r"<html><body><h1>hello world<h1></body></html>"

p1 = r"<h1>.+<h1>"

pattern1 = re.compile(p1)

print pattern1.findall(key)

　我们可以理解为 . 就是代表表达式而+ 代表的是修饰符 .代表的任意单个字符而+则是出现任意此那么.+的意思就是任意字符出现任意次

#conding:utf-8

import re

key = r"abb adb abbb a abcd"

p1 = r"ab*"

pattern1 = re.compile(p1)

print pattern1.findall(key)

我们看这段代码能匹配到那些呢

*代表的是他前面的字符出现任意次那么这里的表达式就是*前面的字符而修饰语言就是*

这里能被匹配道的是

['abb', 'a', 'abbb', 'a', 'ab']

03-python进阶-爬虫入门-正则的更多相关文章

Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素首先回顾以下我们Bea ...
GJM : Python简单爬虫入门（二） [转载]
感谢您的阅读.喜欢的.有用的就请大哥大嫂们高抬贵手"推荐一下"吧!你的精神支持是博主强大的写作动力以及转载收藏动力.欢迎转载! 版权声明:本文原创发表于 [请点击连接前往] ,未经 ...
Python简单爬虫入门三
我们继续研究BeautifulSoup分类打印输出 Python简单爬虫入门一 Python简单爬虫入门二前两部主要讲述我们如何用BeautifulSoup怎去抓取网页信息以及获取相应的图片标题等信 ...
python网络爬虫入门范例
python网络爬虫入门范例 Windows用户建议安装anaconda,因为有些套件难以安装. 安装使用pip install * 找出所有含有特定标签的HTML元素找出含有特定CSS属性的元素 ...
python网络爬虫入门（二）
刚去看了一下,18年2月份写了第一篇关于爬虫的文章(仅仅介绍了使用requests库去获取HTML代码),一年多之后看来很稚嫩也没有多少参考的意义,但没想着要去修改它,留着也是一个回忆吧.至少证明着我 ...
Python网络爬虫入门篇
1. 预备知识学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. 2. Python爬虫基本流程 a. 发送请求使用 ...
Python网络爬虫入门实战（爬取最近7天的天气以及最高/最低气温）
_ 前言本文文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Bo_wen 最近两天学习了一下python,并自己写了一个 ...
Python学习 —— 爬虫入门 - 爬取Pixiv每日排行中的图片
更新于 2019-01-30 16:30:55 我另外写了一个面向 pixiv 的库:pixiver 支持通过作品 ID 获取相关信息.下载等,支持通过日期浏览各种排行榜(包括R-18),支持通过 p ...
python网络爬虫-入门（二）
为什么要学网络爬虫可以替代人工从网页中找到数据并复制粘贴到excel中,这种重复性的工作不仅浪费时间还一不留神还会出错----解决无法自动化和无法实时获取数据对于这些公开数据的应用价值,我 ...

随机推荐

vue使用uglifyjs-webpack-plugin后打包报错
楼主最新对已做项目进行打包优化,配置了打包环境下去除console.log语句插件---使用uglifyjs-webpack-plugin具体代码如下 npm install uglifyjs-web ...
Android仿360悬浮小球自定义view实现
转载请标明出处:http://www.jianshu.com/u/a5ad093cffe8 效果图如下: 图片.png 图片.png 实现当前这种类似的效果 (360小球悬浮桌面差不错类似).第 ...
(转载)Newtonsoft.Json使用总结
Newtonsoft.Json使用总结初识JSON.......................................................................... ...
2017.10.4 QBXT 模拟赛
题目链接 T1 维护一个单调栈 #include <iostream> #include <cstdio> #define N 500000 #define rep(a,b,c ...
【Python图像特征的音乐序列生成】GitHub已经有人将mingus改到了Python3版本
https://github.com/bspaans/python-mingus/issues/45 注意此时的安装方法应该是: git clone https://github.com/edudob ...
新萝卜家园GHOST WIN7系统32,64位官方版下载
来自系统妈:http://www.xitongma.com 新萝卜家园GHOST win7系统64位官方经典版 V2016年3月系统概述新萝卜家园ghost win7系统64位官方经典版加快“网上 ...
java中的同步与异步
在多线程的环境中,经常会碰到数据的共享问题,即当多个线程需要访问同一个资源时,它们需要以某种顺序来确保该资源在某--时刻只能被-一个线程使用,否则,程序的运行结果将会是不可预料的,在这种情况下就必须对 ...
使用js将div高度设置为100%
在开发的工程中使用到了一些开源的bootstrap模板进行开发,在遇到一些需要替换的内容部分部分时,经常出现高度设置100%无法生效的问题,这里来用js强行设置一下. 思路:js监听窗口的缩放 ...
PAT 乙级 1045
题目题目地址:PAT 乙级 1045 题解本题的解法比较巧妙,刚开始的试着用暴力求解,果不其然时间超限…… 变换思路,既然对于每个元素来说满足的条件是前小后大,那么对数组排序,对应的位置相等的即为 ...
【dsu || 线段树合并】bzoj4756: [Usaco2017 Jan]Promotion Counting
调半天原来是dsu写不熟 Description The cows have once again tried to form a startup company, failing to rememb ...

03-python进阶-爬虫入门-正则

03-python进阶-爬虫入门-正则的更多相关文章

随机推荐

热门专题