什么是爬虫

爬虫，也叫蜘蛛(Spider)，如果把互联网比喻成一个蜘蛛网，Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的，也就是URL。举一个简单的例子，我们在浏览器的地址栏中输入的字符串就是URL，例如：https://www.baidu.com

URL就是同意资源定位符(Uniform Resource Locator)，它的一般格式如下(带方括号[]的为可选项)：

protocol :// hostname[:port] / path / [;parameters][?query]#fragment

URL的格式主要由三部分组成：

1. protocol：第一部分就是协议，例如百度使用的就是https协议；　　
2. hostname[:port]：第二部分就是主机名(还有端口号为可选参数)，一般网站默认的端口号为80，例如百度的主机名就是www.baidu.com，这个就是服务器的地址;　　
3. path：第三部分就是主机资源的具体地址，如目录和文件名等。

爬虫就是根据URL来获取网页信息的。

Python3的urllib包

　　urllib包提供的模块可以用来使Python代码访问url。

　　从Python3官方的urllib包介绍可以知道，在Python3中的内置库中把Python2 的urllib、urllib2两个库整合成了urllib包。

　　在urllib包中只提供了4个模块：

1. urllib.request：用来打开或者读取Urls
2. urllib.error：包含urllib.request的异常信息
3. urllib.parse：包含Urls需要的参数信息
4. urllib.robotparser：配置robots.txt文件的相关功能

相对于Python 2中的变化

在Pytho2.x中使用import urllib2 ---> 在Python3.x中会使用import urllib.request，urllib.error。
在Pytho2.x中使用import urllib ---> 在Python3.x中会使用import urllib.request，urllib.error，
在Pytho2.x中使用import urlparse ---> 在Python3.x中会使用import urllib.parse。
在Pytho2.x中使用import urlopen ---> 在Python3.x中会使用import urllib.request.urlopen。
在Pytho2.x中使用import urlencode ---> 在Python3.x中会使用import urllib.parse.urlencode。
在Pytho2.x中使用import urllib.quote ---> 对应的，在Python3.x中会使用import urllib.request.quote。
在Pytho2.x中使用cookielib.CookieJar ---> 对应的，在Python3.x中会使用http.CookieJar。
在Pytho2.x中使用urllib2.Request ---> 在Python3.x中会使用urllib.request.Request。

基本使用

urllib.request.urlopen()：访问一个URL，返回一个包含网页信息的对象

response.read()：获取返回对象的内容

response.getcode()：获取返回的HTTP Code

response.info()：获取返回的元数据信息，例如HTTP Header

response.geturl()：获取访问的url

# 使用Python访问博客园，获取网页信息
 
import urllib.request
 
response = urllib.request.urlopen('http://www.cnblogs.com/dachenzi')
data = response.read().decode('utf-8')
 
print(data)

利用Python下载一个图片

import urllib.request
 
url = 'http://img.lenovomm.com/s3/img/app/app-img-lestore/2370-2015-07-16035439-1437033279327.jpg?isCompress=true&width=320&height=480&quantity=1&rotate=true'
 
response = urllib.request.urlopen(url)
data = response.read()
 
with open('img.jpg','wb') as f:  # 图片输入二进制文件，所以只需要使用b模式打开写入即可
    f.write(data)

注意：这里urlopen可以接受一个str，或者一个request对象

小练习

使用Python完成翻译小程序，输入中文返回英文信息，反正亦然。

# 1、使用浏览器访问，查看Network，确定提交数据访问的地址以及提交的data

定制HTTP header

　　HTTP Header，表示在浏览器在进行访问(HTTP请求)时携带的头部信息，什么叫定制HTTP请求头呢，举个栗子：其实每天活跃在网上的爬虫太多了，如果网站不进行限制的话，那么访问流量会很高，所以站点基本都会对爬虫进行基本的限制，而利用User-Agent (浏览器标示)是最常用的方式，使用浏览器和使用Python代码来访问站点时，浏览器标示时不同的。

　　本人的google浏览器是：Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36

　　python代码是：Python 3.6.3 ..

　　这里既然说定制，那么就是说可以对User-Agent等头部参数进行修改。

修改User-Agent

　　修改请求的User-Agent就需要先定制request对象了，然后把对象传给urlopen进行访问

import urllib.request
 
url = 'http://img.lenovomm.com/s3/img/app/app-img-lestore/2370-2015-07-16035439-1437033279327.jpg?isCompress=true&width=320&height=480&quantity=1&rotate=true'
 
head = {}
head['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36'
 
request = urllib.request.Request(url,headers=head)  # 创建Request对象，并设置headers
response = urllib.request.urlopen(request)
 
data = response.read()
 
with open('img.jpg','wb') as f:
    f.write(data)

  "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
     "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
     "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
     "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
     "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
     "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
     "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
     "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
     "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
     "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
     "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
     "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
     "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
     "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
     "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",

更多的User-Agent

添加heades的另一种方法

除了在代码中通过字典定义header以外，还可以使用request对象的add_header()方法，进行添加

import urllib.request
 
url = 'http://img.lenovomm.com/s3/img/app/app-img-lestore/2370-2015-07-16035439-1437033279327.jpg?isCompress=true&width=320&height=480&quantity=1&rotate=true'
 
# head = {}
# head['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36'
 
request = urllib.request.Request(url)  # 创建Request对象，并设置headers
request.add_header('User-Agent','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36')
response = urllib.request.urlopen(request)
 
data = response.read()
 
with open('img.jpg','wb') as f:
    f.write(data)

HTTP代理

　　HTTP代理也是爬虫常用的方法，我们的代码可以使用不同的代理来爬url，这样可以避免IP被站点封掉。

　　什么是HTTP代理？简单来说我们把请求发给代理服务器，由代理服务器帮我们访问请求后把返回的数据原封不动的返回给我们。

使用HTTP代理的步骤

1、创建一个HTTP代理

http_proxy = urlib.request.ProxyHandler({'代理类型':'IP:Port'})

2、定制创建一个opener

opener = urllib.request.build_opener(http_proxy)

PS: 当我们使用urlopen访问url时，其实使用的是默认的opener来进行工作的，我们可以对其进行定制，这里就是定制它使用http代理进行访问

3、安装opener

urllib.request.install_opener(opener)

PS：执行完毕后，后续所有的请求都会使用该opener进行访问，所以如果只是一次特殊的请求，那么可以使用 opener.open(url) 来访问url

import urllib.request
 
# create http_proxy
http_proxy = urllib.request.ProxyHandler(proxies = {'http':'114.215.192.184:8081'})
 
# create opener
opener = urllib.request.build_opener(http_proxy)
 
response = opener.open('http://ifconfig.io/')
data = response.read()
 
print(data)

PS：这里可以定义多个http_list,利用random随机选择

import random
 
http_proxy_list = [
    '110.73.10.15:8123',
    '114.230.105.34:21642'
]
 
http_proxy = urllib.request.ProxyHandler(proxies = {'http':random.choice(http_proxy_list)})

添加header

opener也是可以添加header的，使用addheaders = [('key','value')] 进行添加

opener = urllib.request.build_opener(http_proxy)
opener.addheaders = [('User-Agent','Mozilla/5.0 ')]

Python3 使用 urllib 编写爬虫的更多相关文章

【Python3爬虫】使用异步协程编写爬虫
一.基本概念进程:进程是一个具有独立功能的程序关于某个数据集合的一次运行活动.进程是操作系统动态执行的基本单元. 线程:一个进程中包含若干线程,当然至少有一个线程,线程可以利用进程所拥有的资源.线程 ...
常见的爬虫分析库（1）-Python3中Urllib库基本使用
原文来自:https://www.cnblogs.com/0bug/p/8893677.html 什么是Urllib? Python内置的HTTP请求库 urllib.request ...
Python3中Urllib库基本使用
什么是Urllib? Python内置的HTTP请求库 urllib.request 请求模块 urllib.error 异常处理模块 urllib.par ...
python3中urllib库的request模块详解
刚刚接触爬虫,基础的东西得时时回顾才行,这么全面的帖子无论如何也得厚着脸皮转过来啊! 原帖地址:https://www.2cto.com/kf/201801/714859.html 什么是 Urlli ...
python3对urllib和urllib2进行了重构
python3对urllib和urllib2进行了重构,拆分成了urllib.request,urllib.response, urllib.parse, urllib.error等几个子模块,这样的 ...
Python3中urllib详细使用方法(header,代理,超时,认证,异常处理)
urllib是python的一个获取url(Uniform Resource Locators,统一资源定址器)了,我们可以利用它来抓取远程的数据进行保存哦,下面整理了一些关于urllib使用中的一些 ...
编写爬虫程序的神器 - Groovy + Jsoup + Sublime
写过很多个爬虫小程序了,之前几次主要用C# + Html Agility Pack来完成工作.由于.NET BCL只提供了"底层"的HttpWebRequest和"中层& ...
编写爬虫程序的神器 - Groovy + Jsoup + Sublime（转）
写过很多个爬虫小程序了,之前几次主要用C# + Html Agility Pack来完成工作.由于.NET FCL只提供了"底层"的HttpWebRequest和"中层& ...
Python3中urllib详细使用方法(header,代理,超时,认证,异常处理) 转
urllib是python的一个获取url(Uniform Resource Locators,统一资源定址器)了,我们可以利用它来抓取远程的数据进行保存哦,下面整理了一些关于urllib使用中的一些 ...

随机推荐

自学网络 arp_ignore/arp_announce
1)机器上有好几个IP地址,如何让网卡只接收自己IP地址的数据包: 如何只接收自己网卡的数据包 http://www.cnblogs.com/honpey/p/8447819.html 相关的配置ar ...
ping traceroute原理
ping命令工作原理 ping命令主要是用于检测网络的连通性. Ping命令发送一个ICMP请求报文给目的IP,然后目的IP回复一个ICMP报文. 原理:网络上的机器都有唯一确定的IP地址,我们给目标 ...
hadoop 使用Avro求最大值
在上例中:hadoop MapReduce辅助排序解析,为了求每年的最大数据使用了mapreduce辅助排序的方法. 本例中介绍利用Avro这个序列化框架的mapreduce功能来实现求取最大值.Av ...
[HDU4532]湫秋系列故事——安排座位
题面在这里 description 有\(n\)种颜色的小球,每种颜色的小球有\(a_i\)个: 要把它们摆成一排,求相邻小球颜色不相同的摆放方案数. 任意两个合理的安排方法,只要有一个位置的同学不同 ...
[BZOJ3380] [USACO2004 Open]Cave Cows 1 洞穴里的牛之一
Description 很少人知道其实奶牛非常喜欢到洞穴里面去探险. 洞窟里有N(1≤N≤100)个洞室,由M(1≤M≤1000)条双向通道连接着它们．每对洞室间至多只有一条双向通道．有K( ...
Android 解决setRequestedOrientation之后手机屏幕的旋转不触发onConfigurationChanged方法
最近在做播放器的时候遇到一个问题,在屏幕方向改变之后需要切换播放器全屏/非全屏的时候,在重写了onConfigurationChanged方法并在manifest.xml配置文件中添加 android ...
BZOJ2434 [Noi2011]阿狸的打字机【AC自动机 + fail树 + 树状数组】
2434: [Noi2011]阿狸的打字机 Time Limit: 10 Sec Memory Limit: 256 MB Submit: 3610 Solved: 1960 [Submit][S ...
AtCoder Regular Contest 081 E - Don't Be a Subsequence(字符串DP)
引用自:onion_cyc 字符串DP一直不是强项...以后没思路的题就想DP和网络流23333333 f[i]表示从i开始的后缀非子序列的最短长度 pos[i][j]表示从i开始的j字符最早出现位 ...
PowerDesigner 技巧【3】
一.PowerDesigner导出所有SQL脚本: 一般的导出SQL脚本只需要下面两个步骤: 1.database->change current DBMS(选择需要导出的数据库类型): 2.d ...
sql 中sum函数返回null的解决方案
SUM 是SQL语句中的标准求和函数,如果没有符合条件的记录,那么SUM函数会返回NULL. 但多数情况下,我们希望如果没有符合条件记录的情况下,我们希望它返回0,而不是NULL,那么我们可以使用例如 ...

Python3 使用 urllib 编写爬虫