前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

正文

Python爬虫反爬策略三部曲,拥有这三步曲就可以在爬虫界立足了:

  1. 浏览器伪装
  2. IP代理池和用户代理池构建
  3. 动态页面加载解决方法
    注意:如果你Python基础不够扎实,建议先学好再来,缺Python最新教程的可以点击下方链接自行获取
    http://note.youdao.com/noteshare?id=a3a533247e4c084a72c9ae88c271e3d1

网站反爬机制常用的方法:

1、通过识别访问的headers来判断是爬虫还是浏览器访问,其中最常用和最重要的就是User-Agent用户代理,服务器可以从这个字段识别出客户端浏览器类型和版本号、客户端的操作系统,页面排版等信息,正是因为这个原因手机和电脑打开的同个网站的页面的排版是不同的,常用的还有Referer等字段;

2、通过用户行为,要是通过一个IP短时间内大量访问数据,该网站可能对这个IP进行短时间的禁止访问,这个可以增加访问延时时间,比如每访问一次延时time.sleep(5),延时5秒,要是爬取的数据量大的话这个爬取时间是挺蛋疼的,最好的方法就是同时构建用户代理池和IP代理池,每访问几次就换一个用户代理和IP代理就完美解决了;

3、动态页面加载,可以通过抓包分析出页面加载的规律然后构造批量请求,如果文件是加密的,可以使用selenium+phantomJS浏览器内核来访问,这个是真实的用户行为,速度比较慢,可以浏览器操作的部分交给selenium+phantomJS,爬取的功能交给爬虫实现,虽然比纯爬虫慢,但是也没办法了。

先来第一部曲

浏览器伪装

  • 通过Request添加headers
  • 通过Opener添加headers
  • 批量添加headers

通过Request添加headers

  1.  
    import urllib.request
  2.  
    url="https://qiushibaike.com"
  3.  
    headers={"User-Agent":"Mozilla/5.0 (Windows NT6.1; WOW64) Apple\
  4.  
    WebKit/537.36 (KHTML, likeGecko) Chrome/69.0.3497.92 Safari/537.36"}
  5.  
    req=urllib.request.Request(url,headers=headers)
  6.  
    #对request进行封装
  7.  
    data=urllib.request.urlopen(req).read().decode("utf-8","ignore")

通过Opener添加headers

基本的urlopen()函数不支持验证、cookie或其他HTTP高级功能,要支持这些功能必须使用build_opener()函数来创建自己的自定义Opener对象

install_opener(opener)安装opener作为urlopen()使用的全局URL opener,即意味着以后调用urlopen()时都会使用安装的opener对象。

  1.  
    import urllib.request
  2.  
    url="https://www.qiushibaike.com/"
  3.  
    headers=("User-Agent":"Mozilla/5.0 (Windows NT6.1; WOW64) Apple\
  4.  
    WebKit/537.36 (KHTML, likeGecko) Chrome/69.0.3497.92 Safari/537.36")
  5.  
    opener=urllib.request.build_opener()
  6.  
    opener.addheaders=[headers]
  7.  
    data=opener.open(url).read()
  8.  
    #使用自定义的伪装浏览器进行访问
  9.  
    urllib.request.install_opener(opener)
  10.  
    data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
  11.  
    #也可以安装为全局,意味着以后调用urlopen()函数都会使用安装的opener对象

通过批量添加headers

  1.  
    import urllib.request
  2.  
    url="https://qiushibaike.com"
  3.  
    headers={
  4.  
    "User-Agent":"Mozilla/5.0 (Windows NT6.1; WOW64) Apple\
  5.  
    WebKit/537.36 (KHTML, likeGecko) Chrome/69.0.3497.92 Safari/537.36",
  6.  
    "Referer":"https://qiushibaike.com"
  7.  
    }
  8.  
    #这里只是做一个演示,可以添加更多的字段,有些字段是不用的,有些字段是要的,这个可以进行抓包分析请求需求
  9.  
    opener=urllib.request.build_opener()
  10.  
    headerall=[]
  11.  
    for key,value in headers.item():
  12.  
    item=(key,value)
  13.  
    headerall.apend(item)
  14.  
    #[("",""),("","")] 遍历存储以后的形式
  15.  
    opener.addheaders=headersall
  16.  
    urllib.request.install_opener(opener)
  17.  
    data=urllib.request.urlopen(url).read().decode("utf-8","ignore")

浏览器伪装可以解决大部分网站的反爬机制,大型网站反爬机制就比较复杂点了,后面更新构建IP代理和用户代理,动态页面加载的解决方法

【Python必学】Python爬虫反爬策略你肯定不会吧?的更多相关文章

  1. python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题

    python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题 一丶爬虫概述       通过编写程序'模拟浏览器'上网,然后通 ...

  2. Python爬虫实战——反爬策略之模拟登录【CSDN】

    在<Python爬虫实战-- Request对象之header伪装策略>中,我们就已经讲到:=="在header当中,我们经常会添加两个参数--cookie 和 User-Age ...

  3. 抖音爬虫教程,python爬虫采集反爬策略

    一.爬虫与反爬简介 爬虫就是我们利用某种程序代替人工批量读取.获取网站上的资料信息.而反爬则是跟爬虫的对立面,是竭尽全力阻止非人为的采集网站信息,二者相生相克,水火不容,到目前为止大部分的网站都还是可 ...

  4. Python爬虫——反爬

    反爬概述 网络爬虫,是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成. 但是当网络爬虫被滥用后,互联网上就出现太多同质的东西,原创得不到保护. 于是,很多网站开始反网络爬 ...

  5. Python必学Django框架,入门到精通学习视频教程全都在这可以领

    “人生苦短,我用python”,学python的小伙伴应该都了解这句话的含义.但是,学python,你真正了了解强大的Django框架吗!? 据说Django还是由吉普赛的一个吉他手的名字命名的呢,有 ...

  6. 爬虫反爬之代理IP

    爬虫反爬之代理IP 代理IP其实本就是在requests模块中的参数 定义: 代替原来的IP地址去对接网络的IP地址. 作用: 隐藏自身真实IP,避免被封. 获取代理IP网站 西刺代理.快代理.全网代 ...

  7. Python必学:使用哪款文本编辑器更好?

    Python的交互式命令行写程序,好处是一下就能得到结果,坏处是没法保存,下次还想运行的时候,还得再敲一遍. 所以,实际开发的时候,我们总是使用一个文本编辑器来写代码,写完了,保存为一个文件,这样,程 ...

  8. Python必学之编译器用哪个好?你用错了吧!

    学python要知道怎么用好编译器.当我们编写Python代码时,我们得到的是一个包含Python代码的以.py为扩展名的文本文件.要运行代码,就需要Python解释器去执行.py文件由于整个Pyth ...

  9. Python爬虫实战——反爬策略之代理IP【无忧代理】

    一般情况下,我并不建议使用自己的IP来爬取网站,而是会使用代理IP. 原因很简单:爬虫一般都有很高的访问频率,当服务器监测到某个IP以过高的访问频率在进行访问,它便会认为这个IP是一只"爬虫 ...

随机推荐

  1. leetcode算法笔记:二叉树,动态规划和回溯法

    在二叉树中增加一行 题目描述 给定一个二叉树,根节点为第1层,深度为 1.在其第 d 层追加一行值为 v 的节点. 添加规则:给定一个深度值 d (正整数),针对深度为 d-1 层的每一非空节点 N, ...

  2. 配置SElinux环境,将SELinux设置为enforcing

    SELinux是 美国国家安全局 (NSA) 对于 强制访问控制的实现 =>可以使root受限的权限 关闭SELinux=>修改配置文件,永久生效; sed -i 's/SELINUX=e ...

  3. nyoj 84-阶乘的0 (规律题)

    84-阶乘的0 内存限制:64MB 时间限制:3000ms 特判: No 通过数:7 提交数:9 难度:3 题目描述: 计算n!的十进制表示最后有多少个0 输入描述: 第一行输入一个整数N表示测试数据 ...

  4. error: (-215:Assertion failed) size.width>0 && size.height>0 in function 'cv::imshow'

    用Python打开图像始终提示错误 error: OpenCV(4.1.1) C:\projects\opencv-python\opencv\modules\highgui\src\window.c ...

  5. Win32窗口消息机制 x Android消息机制 x 异步执行

    如果你开发过Win32窗口程序,那么当你看到android代码到处都有的mHandler.sendEmptyMessage和 private final Handler mHandler = new ...

  6. 看淡生死,不服就干(C语言指针)

    看淡生死,不服就干 emmmmm 其实今天蛮烦的 高等数学考的一塌糊涂 会的不会的都没写 真心没有高中轻松了啊 也不知道自己立的flag还能不能实现 既然选择了就一定坚持下去啊 下面还是放一段之前写的 ...

  7. Python 之路 Day01 笔记-什么是变量,常量等

    变量 变量 是 为了存储 程序运算过程中的一些中间 结果,为了方便日后调用 变量的命名规则 1. 要具有描述性 2. 变量名只能'_','数字','字母'组成,不可以是空格或特殊字符(#?<., ...

  8. [apue] 神奇的 Solaris pipe

    说到 pipe 大家可能都不陌生,经典的pipe调用配合fork进行父子进程通讯,简直就是Unix程序的标配. 然而Solaris上的pipe却和Solaris一样是个奇葩(虽然Solaris前途黯淡 ...

  9. 【论文阅读】Deep Clustering for Unsupervised Learning of Visual Features

    文章:Deep Clustering for Unsupervised Learning of Visual Features 作者:Mathilde Caron, Piotr Bojanowski, ...

  10. APACHE HADOOP安装

    0.安装前准备 0.1 关闭防火墙 service iptables status service iptables stop 0.2 关闭Selinux 很多稀奇古怪的问题都是SELINUX导致的. ...