自学Python十一 Python爬虫总结

　　通过几天的学习与尝试逐渐对python爬虫有了一些小小的心得，我们渐渐发现他们有很多共性，总是要去获取一系列的链接，读取网页代码，获取所需内容然后重复上面的工作，当自己运用的越来越熟练之后我们就会尝试着去总结一下爬虫的共性，试着去写个helper类以避免重复性劳动。

　　参考:用python爬虫抓站的一些技巧总结 zz

　　1.访问网站 #最简单的得到网页代码的方法

 import urllib2

 response = urllib2.urlopen("http://www.xx.com")

 print response.read()

　　2.伪装成浏览器(User-Agent,Referer等) #为了不被服务器禁止访问所以还是伪装成浏览器比较好

 headers = {

     'User-Agent': 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)',

     'Referer':'http://www.xx.com/xx',

     'Accept':'application/javascript, */*;q=0.8'

 }

 response = urllib2.Request(url = "http://www.xx.com",data = None,headers = headers)

　　3.Post数据转码

 import urllib,urllib2

 values = {

     'username':'xxx',

     'password':'xxx',

     'key':'xxx'

 }

 postdata = urllib.urlencode(values)

 response = urllib2.Request(url,data = postdata)

　　4.Cookies

 import urllib2,cookielib

 cookie_handler = urllib2.HTTPCookieProcessor(cookielib.CookieJar())

 opener = urllib2.build_opener(cookie_handler)

 urllib2.install_opener(opener)

 response = urllib2.urlopen(url)

　　5.代理服务器 #重复多次访问同一网址结果被封了ip或限制了访问次数

 import urllib2

 proxy_handler = urllib2.ProxyHandler({"http" : '42.121.6.80:8080'})

 opener = urllib2.build_opener(proxy_handler)

 urllib2.install_opener(opener)

 response = urllib2.urlopen(url)

　　问：如果想cookie和proxy一起用怎么办？

　　答：urllib2.build_opener可以放多个参数，即handler 如：BaseHandler,ProxyHandler,HTTPHandler,FileHandler,FTPHandler,CacheFTPHandler等等等等

　　6.gzip #现在普遍支持gzip压缩，我们默认获取压缩后的网页，大大提高了抓取网页的效率，减少了带宽负荷。

 import urllib2,zlib

 req = urllib2.Request(url)

 req.add_header('Accept-encoding', 'gzip')

 response = urllib2.urlopen(req, timeout=120)

 html = response.read()

 gzipped = response.headers.get('Content-Encoding')

 if gzipped:

     html = zlib.decompress(html, 16+zlib.MAX_WBITS)

　　7.其他

　　设置线程栈大小：栈大小显著影响python的内存占用，方法如下：

 from threading import stack_size stack_size(32768*16)

　　设置超时

 import socket

 socket.setdefaulttimeout(10) #设置10秒后连接超时

　　失败后重试

 def get(self,req,retries=3):

     try:

         response = self.opener.open(req)

         data = response.read()

     except Exception , what:

         print what,req

         if retries>0:

             return self.get(req,retries-1)

         else:

             print 'GET Failed',req

             return ''

     return data

　　根据以上内容，我们可以写出便于配置解决重复性工作的自己的helper类：

 # -*- coding: utf-8 -*-

 import cookielib, urllib, urllib2, socket

 import zlib,StringIO

 class HttpClient:

   __cookie = cookielib.CookieJar()

   #代理设置，需要时添加（后续设置为多代理切换）

   #__proxy_handler = urllib2.ProxyHandler({"http" : '42.121.6.80:8080'})

   __req = urllib2.build_opener(urllib2.HTTPCookieProcessor(__cookie))#,__proxy_handler)

   __req.addheaders = [

     ('Accept', 'application/javascript, */*;q=0.8'),

     ('User-Agent', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)')

   ]

   urllib2.install_opener(__req)

   def Get(self, url, refer=None,retries=3):

     try:

       req = urllib2.Request(url)

       req.add_header('Accept-encoding', 'gzip')

       if not (refer is None):

         req.add_header('Referer', refer)

       response = urllib2.urlopen(req, timeout=120)

       html = response.read()

       gzipped = response.headers.get('Content-Encoding')

       if gzipped:

           html = zlib.decompress(html, 16+zlib.MAX_WBITS)

       return html

     except Exception,what:

         print what

         if retries>0:

             return self.Get(url,refer,retries-1)

         else:

             print "Get Failed",url

             return ''

     #except urllib2.HTTPError, e:

     #  return e.read()

     #except socket.timeout, e:

     #  return ''

     #except socket.error, e:

     #  return ''

   def Post(self, url, data, refer=None):

     try:

       req = urllib2.Request(url, urllib.urlencode(data))

       #req = urllib2.Request(url,data)

       if not (refer is None):

         req.add_header('Referer', refer)

       return urllib2.urlopen(req, timeout=120).read()

     except urllib2.HTTPError, e:

       return e.read()

     except socket.timeout, e:

       return ''

     except socket.error, e:

       return ''

   def Download(self, url, file):

     output = open(file, 'wb')

     output.write(urllib2.urlopen(url).read())

     output.close()

   def getCookie(self, key):

     for c in self.__cookie:

       if c.name == key:

         return c.value

     return ''

   def setCookie(self, key, val, domain):

     ck = cookielib.Cookie(version=0, name=key, value=val, port=None, port_specified=False, domain=domain, domain_specified=False, domain_initial_dot=False, path='/', path_specified=True, secure=False, expires=None, discard=True, comment=None, comment_url=None, rest={'HttpOnly': None}, rfc2109=False)

     self.__cookie.set_cookie(ck)

HttpClient

　　至于多线程就参考网上找的这段代码好了，还支持并发。。。

 from threading import Thread

 from Queue import Queue

 from time import sleep

 #q是任务队列

 #NUM是并发线程总数

 #JOBS是有多少任务

 q = Queue()

 NUM = 2

 JOBS = 10

 #具体的处理函数，负责处理单个任务

 def do_somthing_using(arguments):

     print arguments

 #这个是工作进程，负责不断从队列取数据并处理

 def working():

     while True:

         arguments = q.get()

         do_somthing_using(arguments)

         sleep(1)

         q.task_done()

 #fork NUM个线程等待队列

 for i in range(NUM):

     t = Thread(target=working)

     t.setDaemon(True)

     t.start()

 #把JOBS排入队列

 for i in range(JOBS):

     q.put(i)

 #等待所有JOBS完成

 q.join()

ThreadDemo

　　爬虫就靠一段落吧，更深入的爬虫框架以及html解析库暂时放一放，让我考虑考虑接下来的内容，是pygame还是django！

　　爬虫demo的github地址（刚学着玩git ）：http://git.oschina.net/tabei/Python_spider

自学Python十一 Python爬虫总结的更多相关文章

Python(十一) 原生爬虫
一.分析抓取目的确定抓取页面 #爬取主播人气排行二.整理爬虫常规思路爬虫前奏明确目的找到数据对应的网页分析网页的结构找到数据所在的标签位置模拟 HTTP 请求, 向服务器发送这个请 ...
五十一 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapyd部署scrapy项目
scrapyd模块是专门用于部署scrapy项目的,可以部署和管理scrapy项目下载地址:https://github.com/scrapy/scrapyd 建议安装 pip3 install s ...
每天自学两小时Python，整理了最详细的学习路线和规
上次这篇文章每天自学两小时Python,三个月学通月入20K主要是给大家整理了学习资料视频和PDF书籍,很多需要的都关注私信领取了. 很多朋友领取之后都问我教程有了那么应该从哪去开始学习呢,私信太多我 ...
Python 开发轻量级爬虫08
Python 开发轻量级爬虫 (imooc总结08--爬虫实例--分析目标) 怎么开发一个爬虫?开发一个爬虫包含哪些步骤呢? 1.确定要抓取得目标,即抓取哪些网站的哪些网页的哪部分数据. 本实例确定抓 ...
Python 开发轻量级爬虫07
Python 开发轻量级爬虫 (imooc总结07--网页解析器BeautifulSoup) BeautifulSoup下载和安装使用pip install 安装:在命令行cmd之后输入,pip i ...
Python 开发轻量级爬虫06
Python 开发轻量级爬虫 (imooc总结06--网页解析器) 介绍网页解析器将互联网的网页获取到本地以后,我们需要对它们进行解析才能够提取出我们需要的内容. 也就是说网页解析器是从网页中提取有 ...
Python 开发轻量级爬虫05
Python 开发轻量级爬虫 (imooc总结05--网页下载器) 介绍网页下载器网页下载器是将互联网上url对应的网页下载到本地的工具.因为将网页下载到本地才能进行后续的分析处理,可以说网页下载器 ...
Python 开发轻量级爬虫04
Python 开发轻量级爬虫 (imooc总结04--url管理器) 介绍抓取URL管理器 url管理器用来管理待抓取url集合和已抓取url集合. 这里有一个问题,遇到一个url,我们就抓取它的内容 ...
Python 开发轻量级爬虫03
Python 开发轻量级爬虫 (imooc总结03--简单的爬虫架构) 现在来看一下一个简单的爬虫架构. 要实现一个简单的爬虫,有哪些方面需要考虑呢? 首先需要一个爬虫调度端,来启动爬虫.停止爬虫.监 ...

随机推荐

python 简单简绍以及简单的语法
一.Pthon介绍 Pyhton的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆在阿姆斯特丹打发时间,决心开发一款新的脚本解释程序,作为ABC语言的 ...
C#工具帮助类
md5帮助类 .引入库 using System.Security.Cryptography;//引用Md5转换功能 .计算字符串的Md5值 public static string GetMD5Wi ...
wing ide破解
LicenseID='CN123-12345-12345-67891' # RequestCode='RL634-8363J-X7E8K-95XD3' RequestCode = 'RW61C-NN6 ...
WebService附加到IIS调试，未命中断点
写好了一个WebService,部署到IIS上,用浏览器访问发现并不能命中断点. 经过多次的查找发现是由于附加的代码类型选择错误. 下图由于错误的选择了托管代码,导致调试时不命中断点,勾选自动解决.
文本框、评论框原生js
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8 ...
Vi/Vim基本用法
Vi/Vim是Linux中一款功能强大的编辑器,vi是Visual Interface的缩写,即可视化接口,vim是vi iMprove的缩写,即 vi的增强版(具有语法着色功能).它在Linux上的 ...
爬虫系列(三) urllib的基本使用
一.urllib 简介 urllib 是 Python3 中自带的 HTTP 请求库,无需复杂的安装过程即可正常使用,十分适合爬虫入门 urllib 中包含四个模块,分别是 request:请求处理模 ...
Python 查看关键字
关键字 import keyword print(keyword.kwlist)
单词接龙（codevs 1018）
2000年NOIP全国联赛普及组NOIP全国联赛提高组时间限制: 1 s 空间限制: 128000 KB 题目等级 : 黄金 Gold 题解题目描述 Description 单词接龙是一个与我们经 ...
ZooKeeper的应用场景（转）
应用场景1 :统一命名服务分布式应用中,通常需要一套完备的命令机制,既能产生唯一的标识,又方便人识别和记忆. 我们知道,每个ZNode都可以由其路径唯一标识,路径本身也比较简洁直观,另外ZNode上 ...

自学Python十一 Python爬虫总结

自学Python十一 Python爬虫总结的更多相关文章

随机推荐

热门专题