自学Python四爬虫基础知识储备

　　首先，推荐两个关于python爬虫不错的博客：Python爬虫入门教程专栏和 Python爬虫学习系列教程。写的都非常不错，我学习到了很多东西！在此，我就我看到的学到的进行总结一下！

　　爬虫就是一个不断的去抓去网页的程序，根据我们的需要得到我们想要的结果！但我们又要让服务器感觉是我们人在通过浏览器浏览不是程序所为！归根到底就是我们通过程序访问网站得到html代码，然后分析html代码获取有效内容的过程。下面让我们从最简单的爬虫开始：

　　爬取一个页面源代码

　　在python中，抓取网页的库是urllib2。下面看一个最简单的例子：

 import urllib2

 response = urllib2.urlopen('http://www.baidu.com/')

 html = response.read()

 print html

　　执行完成后你会发现窗口中打出了一堆代码，其实就是百度主页的html代码！（抵制百度！！！）

　　我们来看一下urlopen的用法：

 >>> help(urllib2.urlopen)

 Help on function urlopen in module urllib2:

 urlopen(url, data=None, timeout=<object object>, cafile=None, capath=None, cadefault=False, context=None)

　　第一个参数为url，第二个为要发送的数据，第三个是超时时间。其余的我们一般不用，就不解释了！第二三个参数不是必须的，因为都有默认值，data默认值为None，timeout默认值为socket._GLOBAL_DEFAUTL_TIMEOUT。传入url之后，我们得到一个response对象，返回的信息就在这里面！通过response.read()获取里面的内容。同样的我们可以构造一个Request类，作为参数传入urlopen中，这个Request类中就包含url，data，timeout等内容。上面的代码我们可以写成这样：

 import urllib2

 request = urllib2.Request("http://www.baidu.com")

 response = urllib2.urlopen(request)

 print response.read()

　　这样是不是很清晰明了了？在构建Request的时候我们通常会加入很多内容，我们发出一个请求，服务器给我们一个响应。一个简单的爬虫就这样起飞了！

　　POST和GET数据传送

　　平常我们在浏览网页的时候难免涉及到登录注册，填写表单，或者跳转到某个页面，这时候我们要跟服务器进行交互，向服务器发送数据，发送数据的方式呢就是Post和Get，两者的区别在于GET方式直接以链接的形式访问，链接中包含所有的参数，如：http://www.baidu.com/shit?result=true 其中 result=true就是Get传递的数据，POST相当于Get就安全多了，它不会在链接上显示所有参数。

　　Post方式：

 import urllib

 import urllib2

 values = {}

 values['username'] = "977610289@qq.com"

 values['password'] = "******"

 data = urllib.urlencode(values)

 url = "http://www.xxx.com/login?from=http://xxx/loginInfo"

 request = urllib2.Request(url,data)

 response = urllib2.urlopen(request)

 print response.read()

　　在上面的代码中，我们创建了一个字典values，设置了username和password的值，然后通过urlencode函数将字典进行转码，命名为data，然后用url和data实例化了一个Request类，传递给urlopen()。

　　Get方式：

 import urllib

 import urllib2

 values={}

 values['username'] = "977610289@qq.com"

 values['password']="******"

 data = urllib.urlencode(values)

 url = "http://www.xxx.com/login"

 geturl = url + "?"+data

 request = urllib2.Request(geturl)

 response = urllib2.urlopen(request)

 print response.read()

　　在上面的代码中，我们创建了一个字典values，设置了username和password的值，然后通过urlencode函数将字典进行转码，命名为data，然后我们把data拼接在了url中，我们会得到这样的url：http://www.xxx.com/login?username=977610289%40qq.com&password=******。

　　在实现一个爬虫的时候，我们要根据需要，选择post或者get方式进行访问！不过除了上面那些还不够，现在网站为了避免爬虫去访问会进行一些检测，如果检测不通过就不会响应你的请求，为了完全模拟浏览器工作，我们往往要设置一些headers属性，以及防盗链：

 headers = { 'User-Agent' : 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  ,

                         'Referer':'http://www.zhihu.com/articles' }  

3 request = urllib2.Request(url, data, headers)#利用data headers构造Request对象

　　有些网站可能会检测ip等，我们可能会用到urllib2的代理，有些网站响应过慢我们可以设置其timeout。在访问网站的情况下我们可能会遇到一些网站错误，我们要在程序中进行处理(一如既往的try... except...得到错误信息内容)：

 import urllib2

 req = urllib2.Request('http://www.xxx.com')

 try:

     urllib2.urlopen(req)

 except urllib2.URLError, e:

     if hasattr(e,"code"):

         print e.code

     if hasattr(e,"reason"):

         print e.reason

 else:

     print "OK"

　　常见的错误代码：400 非法请求 403 禁止访问 404 未找到资源 500 服务器内部错误 200 访问成功。

　　在网页访问过程中，不可避免的要用到cookies，我们的程序要模拟浏览器的行为，在访问网页的时候有时候要带上特定的cookies，这样才能成功访问网页。关于cookies我们用到了cookielib，cookielib模块提供可存储cookie的对象，以便于与urllib2配合使用进行网站访问，利用其中的CookieJar类捕获和发送cookie，实现模拟登录，维持登录状态等。

　　获取cookie保存到变量：

 import urllib2

 import cookielib

 #声明一个CookieJar对象实例来保存cookie

 cookie = cookielib.CookieJar()

 #利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器

 handler=urllib2.HTTPCookieProcessor(cookie)

 #通过handler来构建opener

 opener = urllib2.build_opener(handler)

 #此处的open方法同urllib2的urlopen方法，也可以传入request

 response = opener.open('http://www.baidu.com')

 for item in cookie:

     print 'Name = '+item.name

     print 'Value = '+item.value

 #利用cookie请求访问另一个网址

 gradeUrl = 'http://www.baidu.com/xxx/xx'

 #请求访问

 result = opener.open(gradeUrl)

 print result.read()

　　上面程序创建了一个带有cookie的opener,在访问登录url的时候，将登录后的cookie保存下来，然后利用这个cookie来访问其他的网址。

　　下面放一个HttpClient.py，里面包含了post和get方法，以及getcookies：

 import cookielib, urllib, urllib2, socket

 class HttpClient:

   __cookie = cookielib.CookieJar()

   __req = urllib2.build_opener(urllib2.HTTPCookieProcessor(__cookie))

   __req.addheaders = [

     ('Accept', 'application/javascript, */*;q=0.8'),

     ('User-Agent', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)')

   ]

   urllib2.install_opener(__req)

   def Get(self, url, refer=None):

     try:

       req = urllib2.Request(url)

       if not (refer is None):

         req.add_header('Referer', refer)

       return urllib2.urlopen(req, timeout=120).read()

     except urllib2.HTTPError, e:

       return e.read()

     except socket.timeout, e:

       return ''

     except socket.error, e:

       return ''

   def Post(self, url, data, refer=None):

     try:

       req = urllib2.Request(url, urllib.urlencode(data))

       if not (refer is None):

         req.add_header('Referer', refer)

       return urllib2.urlopen(req, timeout=120).read()

     except urllib2.HTTPError, e:

       return e.read()

     except socket.timeout, e:

       return ''

     except socket.error, e:

       return ''

   def Download(self, url, file):

     output = open(file, 'wb')

     output.write(urllib2.urlopen(url).read())

     output.close()

   def getCookie(self, key):

     for c in self.__cookie:

       if c.name == key:

         return c.value

     return ''

   def setCookie(self, key, val, domain):

     ck = cookielib.Cookie(version=0, name=key, value=val, port=None, port_specified=False, domain=domain, domain_specified=False, domain_initial_dot=False, path='/', path_specified=True, secure=False, expires=None, discard=True, comment=None, comment_url=None, rest={'HttpOnly': None}, rfc2109=False)

     self.__cookie.set_cookie(ck)

自学Python四爬虫基础知识储备的更多相关文章

python网络爬虫，知识储备，简单爬虫的必知必会，【核心】
知识储备,简单爬虫的必知必会,[核心] 一.实验说明 1. 环境登录无需密码自动登录,系统用户名shiyanlou 2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌 ...
自学Python六爬虫基础必不可少的正则
要想做爬虫,不可避免的要用到正则表达式,如果是简单的字符串处理,类似于split,substring等等就足够了,可是涉及到比较复杂的匹配,当然是正则的天下,不过正则好像好烦人的样子,那么如何做呢,熟 ...
Python归纳 | 爬虫基础知识
1. urllib模块库 Urllib是python内置的HTTP请求库,urllib标准库一共包含以下子包: urllib.error 由urllib.request引发的异常类 urllib.pa ...
自学Python五爬虫基础练习之SmartQQ协议
BAT站在中国互联网的顶端,引导着中国互联网的发展走向...既受到了多数程序员的关注,也在被我们所惦记着... 关于SmartQQ的协议来自HexBlog,根据他的博客我自己也一步一步的去分析,去尝试 ...
Python进阶----计算机基础知识(操作系统多道技术),进程概念, 并发概念,并行概念,多进程实现
Python进阶----计算机基础知识(操作系统多道技术),进程概念, 并发概念,并行概念,多进程实现一丶进程基础知识什么是程序: 程序就是一堆文件什么是进程: 进程就是一个正在 ...
Python开发（一）：Python介绍与基础知识
Python开发(一):Python介绍与基础知识本次内容一:Python介绍: 二:Python是一门什么语言三:Python:安装四:第一个程序 “Hello world” 五:Pytho ...
python 爬虫基础知识一
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 网络爬虫必备知识点 1. Python基础知识2. P ...
Python 爬虫基础知识
requests Python标准库中提供了:urllib.urllib2.httplib等模块以供Http请求,但是,它的 API 太渣了.它是为另一个时代.另一个互联网所创建的.它需要巨量的工作, ...
python从爬虫基础到爬取网络小说实例
一.爬虫基础 1.1 requests类 1.1.1 request的7个方法 requests.request() 实例化一个对象,拥有以下方法 requests.get(url, *args) r ...

随机推荐

S-HR之OSF
1):getWorkDayCount ->ArrayList data = (ArrayList) com.kingdee.shr.rpts.ctrlreport.osf.OSFExecutor ...
SGU180 Inversions（树状数组求逆序数）
题目: 思路:先离散化数据然后树状数组搞一下求逆序数. 离散化的方法:https://blog.csdn.net/gokou_ruri/article/details/7723378 自己对用树状数组 ...
pyhton 网络爬取软考题库保存text
#-*-coding:utf-8-*-#参考文档#https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#find-al ...
PAT 1100. Mars Numbers
People on Mars count their numbers with base 13: Zero on Earth is called "tret" on Mars. T ...
PAT 1093. Count PAT's
The string APPAPT contains two PAT's as substrings. The first one is formed by the 2nd, the 4th, and ...
赛门铁克通配符SSL证书，一张通配型证书实现全站加密
赛门铁克通配型SSL证书,验证域名所有权和企业信息,属于企业验证(OV) 级SSL证书,最高支持256位加密.申请通配符SSL证书可以保护相同主域名下无限数量的多个子域名(主机).例如,一个通配符 ...
SCU Censor
Censor frog is now a editor to censor so-called sensitive words (敏感词). She has a long text p . Her j ...
Caffe 工程的一些编译错误以及解决方案
本系列文章由 @yhl_leo 出品,转载请注明出处. 文章链接: http://blog.csdn.net/yhl_leo/article/details/51371936 整理一下最近遇到caff ...
子序列 NYOJ （尺取法+队列+hash）（尺取法+离散化）
子序列时间限制:3000 ms | 内存限制:65535 KB 难度:5 描述给定一个序列,请你求出该序列的一个连续的子序列,使原串中出现的所有元素皆在该子序列中出现过至少1次. 如2 8 ...
[bzoj1598][Usaco08Mar]牛跑步_A*_Dijkstra
牛跑步 bzoj-1598 题目大意:给你n个点,m条边的有向图.求从1到n的严格的第k短路. 注释:$1\le n\le 1000$,$1\le m \le 10,000$,$1\le k \le ...

自学Python四 爬虫基础知识储备

自学Python四 爬虫基础知识储备的更多相关文章

随机推荐

热门专题

自学Python四爬虫基础知识储备

自学Python四爬虫基础知识储备的更多相关文章