这一篇博客，还是接着说那些常见的反爬虫措施以及我们的解决办法。同样的，如果对你有帮助的话，麻烦点一下推荐啦。

一、防盗链

这次我遇到的防盗链，除了前面说的Referer防盗链，还有Cookie防盗链和时间戳防盗链。Cookie防盗链常见于论坛、社区。当访客请求一个资源的时候，他会检查这个访客的Cookie，如果不是他自己的用户的Cookie，就不会给这个访客正确的资源，也就达到了防盗的目的。时间戳防盗链指的是在他的url后面加上一个时间戳参数，所以如果你直接请求网站的url是无法得到真实的页面的，只有带上时间戳才可以。

这次的例子是天涯社区的图片分社区：

这里我们先打开开发者工具，然后任意选择一张图片，得到这个图片的链接，然后用requests来下载一下这张图片，注意带上Referer字段，看结果如何：

import requests

url = "http://img3.laibafile.cn/p/l/305989961.jpg"
headers = {
    "Referer": "http://pp.tianya.cn/",
    "UserAgent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36"
}
res = requests.get(url)
with open('test.jpg', 'wb') as f:
    f.write(res.content)

我们的爬虫正常运行了，也看到生成了一个test.jpg文件，先别急着高兴，打开图片看一下：

一口老血吐了出来，竟然还有这种套路！怎么办呢？往下看！

解决办法：

既然他说仅供天涯社区用户分享，那我们也成为他的用户不就行了吗？二话不说就去注册了个账号，然后登录，再拿到登录后的Cookie：

__auc=90d515c116922f9f856bd84dd81; Hm_lvt_80579b57bf1b16bdf88364b13221a8bd=1551070001,1551157745; user=w=EW2QER&id=138991748&f=1; right=web4=n&portal=n; td_cookie=1580546065; __cid=CN; Hm_lvt_bc5755e0609123f78d0e816bf7dee255=1551070006,1551157767,1551162198,1551322367; time=ct=1551322445.235; __asc=9f30fb65169320604c71e2febf6; Hm_lpvt_bc5755e0609123f78d0e816bf7dee255=1551322450; __u_a=v2.2.4; sso=r=349690738&sid=&wsid=71E671BF1DF0B635E4F3E3E41B56BE69; temp=k=674669694&s=&t=1551323217&b=b1eaa77438e37f7f08cbeffc109df957&ct=1551323217&et=1553915217; temp4=rm=ef4c48449946624e9d7d473bc99fc5af; u_tip=138991748=0

注意：Cookie是有时效性的，具体多久就会失效我没测试。紧接着把Cookie添加到代码中，然后运行，可以看到成功把图片下载下来了：

搞了这么久才下了一张图片，我们怎么可能就这么满足呢？分析页面可知一个页面上有十五张图片，然后往下拉的时候会看到"正在加载，请稍后"：

我们立马反应过来这是通过AJAX来加载的，于是打开开发者工具查看，可以找到如下内容：

可以看到每个链接“？”前面的部分都是基本一样的，“list_”后面跟的数字表示页数，而“_=”后面这一串数字是什么呢？有经验的人很快就能意识到这是一个时间戳，所以我们来测试一下：

import time
import requests

t = time.time()*1000
url = "http://pp.tianya.cn/qt/list_4.shtml?_={}".format(t)
res = requests.get(url)
print(res.text)

运行之后得到了我们想要的结果。现在我们已经能用代码构造链接了，那我们怎么知道最多有多少页呢？我们先继续拖动滚轮下拉页面，发现出现第5页之后就没有了：

这怎么办呢？不急，我们不是已经能自己构造链接了嘛，我们可以通过改变“list”后面的数字来得到更多的页面啊。不过我自己测试的结果是最多只有15页，之后再怎么增大数字也没用了，应该是服务器做了限制，最多只给15页的数据。下图是我把数字改为16后返回的结果：

最后编写程序并运行，就能把图片下载下来了：

完整代码已上传到GitHub！

二.随机化网页源码

用display:none来随机化网页源码，有网站还会随机类和id的名字，然后再加点随机的tr和td，这样的话就增大了我们解析的难度。比如全网代理IP：

解决办法：

可以看到每个IP都是包含在一个class为“ip”的td里的，所以我们可以先定位到这个td，然后进行下一步解析。虽然这个td里面包含了很多的span标签和p标签，而且也每个标签的位置也没有什么规律，不过还是有办法解析的。方法就是把这个td里的所有文字提取出来，然后把那些前后重复的部分去除掉，最后拼接到一起就可以了，代码如下：

 et = etree.HTML(html)  # html：网页源码

 for n in range(1, 21):

     lst = et.xpath('//table/tbody/tr[{}]/td[1]//text()'.format(n))

     proxy = ""

     for i in range(len(lst) - 1):

         if lst[i] != lst[i + 1]:

             proxy += lst[i]

     proxy += lst[-1]

     print(proxy)

最后就能得到我们想要的数据了。不过我们得到的端口数据和网页上显示的数据是不一样的，这是因为端口数据是经过了JS混淆的，至于怎么破解，下次会分享出来。

【Python3爬虫】常见反爬虫措施及解决办法（二）的更多相关文章

Python爬虫与反爬虫（7）
[Python基础知识]Python爬虫与反爬虫(7) 很久没有补爬虫了,相信在白蚁二周年庆的活动大厅比赛中遇到了关于反爬虫的问题吧这节我会做个基本分享. 从功能上来讲,爬虫一般分为数据采集,处理, ...
Python爬虫从入门到放弃（二十二）之爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用 ...
【Python】爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用 ...
Python之爬虫（二十四）爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用 ...
python爬虫之反爬虫（随机user-agent，获取代理ip，检测代理ip可用性）
python爬虫之反爬虫(随机user-agent,获取代理ip,检测代理ip可用性) 目录随机User-Agent 获取代理ip 检测代理ip可用性随机User-Agent fake_usera ...
Python爬虫入门教程 65-100 爬虫与反爬虫的修罗场，点评网站，字体反爬之三
爬虫与反爬虫的修罗场哪种平台最吸引爬虫爱好者,当然是社区类的,那里容易产生原生态,高质量的数据啊, 你看微博,知乎,豆瓣爬的不亦乐乎. 评论也是产生内容的好地方生活类点评网站旅游类点评网站音乐 ...
C#爬虫与反爬虫--字体加密篇
爬虫和反爬虫是一条很长的路,遇到过js加密,flash加密.重点信息生成图片.css图片定位.请求头.....等手段:今天我们来聊一聊字体: 那是一个偶然我遇到了这个网站,把价格信息全加密了:浏览器展 ...
C#不用union，而是有更好的方式实现 .net自定义错误页面实现 .net自定义错误页面实现升级篇 .net捕捉全局未处理异常的3种方式一款很不错的FLASH时种插件关于c#中委托使用小结 WEB网站常见受攻击方式及解决办法判断URL是否存在提升高并发量服务器性能解决思路
C#不用union,而是有更好的方式实现用过C/C++的人都知道有个union,特别好用,似乎char数组到short,int,float等的转换无所不能,也确实是能,并且用起来十分方便.那C# ...
【Python3爬虫】常见反爬虫措施及解决办法（一）
这一篇博客,是关于反反爬虫的,我会分享一些我遇到的反爬虫的措施,并且会分享我自己的解决办法.如果能对你有什么帮助的话,麻烦点一下推荐啦. 一.UserAgent UserAgent中文名为用户代理,它 ...

随机推荐

Spring中IOC和AOP的理解
IOC和AOP是Spring的核心 IOC:控制反转:将创建对象以及维护对象之间的关系由代码交给了spring容器进行管理,也就是创建对象的方式反转了,交由spring容器进行管理. DI:依赖注入: ...
Ubuntu编译安装crtmp-server
下载源码从GitHub上下载:https://github.com/j0sh/crtmpserver.git 编译安装 apt-get install cmake apt-get install l ...
github page 配置hexo 博客的常见错误
缘起最近看到好多的公众号作者推荐大家搭建自己的博客,自己手痒也搭建了一个个人博客lumang,具体过程就是一开始上网搜索一番教程,按照教程开始搭建,由于是windows的环境,同时教程也有很多的老旧 ...
0513JS数组遍历、内置方法、训练
一.定义一个数组把其中的偶数取出,组成一个新的数组 var attr = [9,34,80,27,56]; var attr1 = []; for(var i in attr){ if(attr[i] ...
Codeforces Round #483 (Div. 2) D. XOR-pyramid
D. XOR-pyramid time limit per test 2 seconds memory limit per test 512 megabytes input standard inpu ...
什么是web service ？
一.序言大家或多或少都听过WebService(Web服务),有一段时间很多计算机期刊.书籍和网站都大肆的提及和宣传WebService技术,其中不乏很多吹嘘和做广告的成分.但是不得不承认的是Web ...
Linux用户登录日志查询
# 1 utmp.wtmp.btmp文件 Linux用户登录信息放在三个文件中: 1 /var/run/utmp:记录当前正在登录系统的用户信息,默认由who和w记录当前登录用户的信息,uptime记 ...
c/c++(hiredis)异步调用redis【转】
hiredis是redis官方推荐的C/C++客户端代码库.使用hiredis库很简易方便的进行redis的相关开发. 同步方式不过大多数情况下,我们采用的都是同步的调用方式. 1 2 3 4 ...
解决CentOS 7中php-fpm进程数过多导致服务器内存资源消耗较大的问题
本文由荒原之梦原创,原文链接:http://zhaokaifeng.com/?p=653 什么是php-fpm: php-fpm即FastCGI进程管理器,用于控制php的内存和进程等. 操作环境: ...
Using INSERT IGNORE with MySQL to prevent duplicate key errors
An error will occur when inserting a new record in MySQL if the primary key specified in the insert ...

【Python3爬虫】常见反爬虫措施及解决办法（二）

一、防盗链

解决办法：

二.随机化网页源码

解决办法：

【Python3爬虫】常见反爬虫措施及解决办法（二）的更多相关文章

随机推荐

热门专题