前两章简单的讲了Beautiful Soup的用法，在爬虫的过程中相信都遇到过一些反爬虫，如何跳过这些反爬虫呢？今天通过知乎网写一个简单的反爬中

什么是反爬虫

简单的说就是使用任何技术手段，阻止别人批量获取自己网站信息的一种方式。关键也在于批量。

反反爬虫机制

增加请求头---headers为了模拟更真实的用户场景
更改IP地址---网站会根据你的IP对网站访问频密，判断你是否属于爬虫
ua限制---UA是用户访问网站时候的浏览器标识，其反爬机制与ip限制类似
模拟帐号登录----通过request模拟登录进行访问网站
cookies的限制---网站页面每次请求的cookies不同

爬取知乎热榜

1.首先打开需要爬取的网站

2.分析网站的html，标签为’a‘，属性为target="_blank"

3.通过request方式进行请求网站

4.首先我们先不携带任何的反反爬虫机制进行访问

# coding:utf-8

import requests

from  bs4 import BeautifulSoup

url = 'https://www.zhihu.com/hot'

html = requests.get(url,verify = False).content.decode('utf-8') # verify = False表示请求https

soup = BeautifulSoup(html,'html.parser')

name = soup.find_all('a',target="_blank")

for i in name:

    print(i)

结果发现请求为空

5.从F12中提取出完整的请求头（也可以通过fiddler进行查看）

请求地址的host
请求的cookies
请求的User-Agent

# coding:utf-8

import requests

from  bs4 import BeautifulSoup

url = 'https://www.zhihu.com/hot'

# 添加请求头

headers={

    "host":"www.zhihu.com",

    "cookie":'_zap=482b5934-4878-4c78-84f9-893682c32b07; d_c0="ALCgSJhlsQ6PTpmYqrf51G'

             'HhiwoTIQIlS1w=|1545203069"; _xsrf=XrStkKiqUlLxzwMIqRDc01J7jikO4xby; q_c1=94622'

             '462a93a4238aafabad8c004bc41|1552532103000|1548396224000; __utma=51854390.1197068257.'

             '1552532107.1552532107.1552532107.1; __utmz=51854390.1552532107.1.1.utmcsr=zhihu.com|utmccn=(r'

             'eferral)|utmcmd=referral|utmcct=/; __utmv=51854390.100--|2=registration_date=20190314=1^3=entry_da'

             'te=20190125=1; z_c0="2|1:0|10:1552535646|4:z_c0|92:Mi4xcFRlN0RnQUFBQUFBc0tCSW1HV3hEaVlBQUFCZ0FsVk5Ya'

             'DUzWFFBWExTLXVpM3llZzhMb29QSmRtcjlKR3pRaTBB|03a1fa3d16c98e1688cdb5f6ba36082585d72af2f54597e370f05207'

             'cd3a873f"; __gads=ID=27a40a1873146c19:T=1555320108:S=ALNI_MYb5D7sBKFhvJj32HBQXgrhyC6xxQ; tgw_l7_route=7'

             '3af20938a97f63d9b695ad561c4c10c; tst=h; tshl=',

    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36",

}

html = requests.get(url,headers=headers,verify = False).content.decode('utf-8') # verify = False表示请求https

soup = BeautifulSoup(html,'html.parser')

name = soup.find_all('a',target="_blank")

for i in name:

    print(i.get_text())

执行后发现成功的把热榜下的一些信息请求出来

喜欢的小伙伴可以自己手动试一试。

爬虫---Beautiful Soup 反反爬虫事例的更多相关文章

使用Beautiful Soup编写一个爬虫系列随笔汇总
这几篇博文只是为了记录学习Beautiful Soup的过程,不仅方便自己以后查看,也许能帮到同样在学习这个技术的朋友.通过学习Beautiful Soup基础知识完成了一个简单的爬虫服务:从all ...
爬虫---Beautiful Soup 通过添加不同的IP请求
上一篇爬虫写了如何应付反爬的一些策略也简单的举了根据UA的例子,今天写一篇如何根据不同IP进行访问豆瓣网获取排行版 requests添加IP代理如果使用代理的话可以通过requests中的方法pro ...
爬虫---Beautiful Soup 初始
我们在工作中,都会听说过爬虫,那么什么是爬虫呢? 什么是网络爬虫爬虫基本原理所谓网络爬虫就是一个自动化数据采集工具,你只要告诉它要采集哪些数据,丢给它一个 URL,就能自动地抓取数据了.其背后的基 ...
爬虫-Beautiful Soup模块
阅读目录一介绍二基本使用三遍历文档树四搜索文档树五修改文档树六总结一介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通 ...
爬虫---Beautiful Soup 爬取图片
上一篇简单的介绍Beautiful Soup 的基本用法,这一篇写下如何爬取网站上的图片,并保存下来爬取图片 1.找到一个福利网站:http://www.xiaohuar.com/list-1-1. ...
100天搞定机器学习|Day21 Beautiful Soup
前情回顾机器学习100天|Day1数据预处理 100天搞定机器学习|Day2简单线性回归分析 100天搞定机器学习|Day3多元线性回归 100天搞定机器学习|Day4-6 逻辑回归 100天搞定机 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup
开始学习网络数据挖掘方面的知识,首先从Beautiful Soup入手(Beautiful Soup是一个Python库,功能是从HTML和XML中解析数据),打算以三篇博文纪录学习Beautiful ...
[转]python下很帅气的爬虫包 - Beautiful Soup 示例
原文地址http://blog.csdn.net/watsy/article/details/14161201 先发一下官方文档地址.http://www.crummy.com/software/Be ...
Python爬虫利器：Beautiful Soup
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.使用它来处理HTML页面就像JavaScript代码操作HTML DOM树一样方便.官方中文文档地址 1. 安 ...

随机推荐

01-day-vuex的使用
知识点1===>简单的使用vuex 进行state取值使用yarn下载 yarn add vuex -D vuex的包叫做 store 跟pages同级创建store文件夹,文件夹下有sto ...
C# 内存管理（一）
引用地址:https://blog.csdn.net/libohuiyuan/article/details/81030010 一.变量类型 C#的变量类型分为值类型,引用类型.指针类型和指令类型.所 ...
Oracle 双机热备+双机冷备+负载均衡
引用地址:https://wenku.baidu.com/view/7cca62f1ddccda38366baf7f.html SQL Server 2008 R2双机热备引用地址:https:// ...
Jenkins如何集成运行testng.xml文件的解决方案
前言: 在我们使用maven+testng+restassured+reportng实现接口测试框架时,会发现在本机创建项目,进行一些pom引用和简单的封装后,很快就可以直接利用idea自带的test ...
为了Runtime Broke 关了一堆东西
可是,好像还是不行啊?CPU还是用了 10-20% 还得写这个随笔,怕自己关东西关多了,以后还得回复. https://www.drivereasy.com/knowledge/runtime-bro ...
Element-ui上传图片按顺序展示
背景不知道你上传图片的时候有没有过这样的情况,批量上传多张图片,可能因为图片大小或者网络问题,导致图片返回的顺序和上传时的顺序不一样.因为我们公司是做电商的,即使我们的支持拖动排序,运营还是希望图片 ...
【shell命令】$#、$*、$n分别表示的含义
$#.$*.$n分别表示的含义 1.[$0] 表示当前脚本的文件名: 2.[$n] 表示传递给脚本的第n个参数值(n为1~9): 3.[$*] 表示传递给脚本的所有参数(不包括脚本名称的参数): 4. ...
【前端知识体系-JS相关】组件化和React
1. 说一下使用jQuery和使用框架的区别? 数据和视图的分离,(jQuery数据和视图混在一起,代码耦合)-------开放封闭原则以数据驱动视图(只关注数据变化,DOM操作被封装) 2.说一下 ...
K8S集群集成harbor(1.9.3)服务并配置HTTPS
一.简介简介请参考:https://www.cnblogs.com/panwenbin-logs/p/10218099.html 二.安装Harbor主机环境及安装要求主机环境: OS: Cent ...
Elastic Stack核心产品介绍-Elasticsearch、Logstash和Kibana
Elastic Stack 是一系列开源产品的合集,包括 Elasticsearch.Kibana.Logstash 以及 Beats 等等,能够安全可靠地获取任何来源.任何格式的数据,并且能够实时地 ...

爬虫---Beautiful Soup 反反爬虫事例

什么是反爬虫

反反爬虫机制

爬取知乎热榜

爬虫---Beautiful Soup 反反爬虫事例的更多相关文章

随机推荐

热门专题