爬虫笔记（二）——浏览器的模拟（Headers属性）

有的时候，我们无法爬取一些网页，会出现403错误，因为这些网页为了防止别人恶意采集其信息所以进行了一些反爬虫的设置。那么如果我们向爬取这些网页的信息，应该怎么办呢？可以设置一些Headers信息，模拟成浏览器去访问这些网站，此时，就能够解决这个问题了。接下来我们来找找自己浏览器的Headers属性。

1.首先打开任意网页，按下F12，并选择网络（network）

2.任意点击网页连接，使其发生动作。点击其中一个动作，User-Agent字样的一串信息。

此时我们就得到了该信息

User-Agent:Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.

接下来我们讲如何让爬虫模拟成浏览器访问页面的设置方法，有以下两种方式。

方法一：使用build_opener()修改报头

import urllib.request

url = "https://mp.csdn.net/postedit/81051697"

headers = ("User-Agent","Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45")

opener = urllib.request.build_opener()

opener.addheaders = [headers]

data = opener.open(url).read()

上述代码中利用urllib.request.build_opener()创建一个对象并赋给opener，接下来设置opener的addheaders，即设置对应的头信息，设置格式为：”对象名.addheaders = [头信息] "，设置好后就可以利用opener对象的open方法打开对应的链接，此时是具有头信息的打开操作行为，即会模仿浏览器取打开，格式为：”对象名.open(url地址)“。

方法二：使用add_header()添加报头

import urllib.request

url = "https://mp.csdn.net/postedit/81051697"

req = urllib.request.Request (url)

req.add_header('User-Agent','Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45')

data = urllib.request.urlopen(req).read()

首先使用urllib.request.Request(url)创建一个Request对象并赋予req，格式为：”urllib.request.Request(url地址)“，再利用add_header()函数给对象添加报头，格式为：”对象名.add_header('字段名'，'字段值')。

爬虫笔记（二）——浏览器的模拟（Headers属性）的更多相关文章

nodejs爬虫笔记(二)---代理设置
node爬虫代理设置最近想爬取YouTube上面的视频信息,利用nodejs爬虫笔记(一)的方法,代码和错误如下 var request = require('request'); var chee ...
nodejs爬虫笔记(五)---利用nightmare模拟点击下一页
目标以腾讯滚动新闻为例,利用nightmare模拟点击下一页,爬取所有页面的信息.首先得感谢node社区godghdai的帮助,开始接触不太熟悉nightmare,感觉很高大上,自己写代码的时候问题 ...
Python爬虫笔记【一】模拟用户访问之设置请求头（1）
学习的课本为<python网络数据采集>,大部分代码来此此书. 网络爬虫爬取数据首先就是要有爬取的权限,没有爬取的权限再好的代码也不能运行.所以首先要伪装自己的爬虫,让爬虫不像爬虫而是像人 ...
PYTHON 爬虫笔记二:Urllib库基本使用
知识点一:urllib的详解及基本使用方法一.基本介绍 urllib是python的一个获取url(Uniform Resource Locators,统一资源定址器)了,我们可以利用它来抓取远程的 ...
Python爬虫笔记【一】模拟用户访问之表单处理（3）
学习的课本为<python网络数据采集>,大部分代码来此此书. 大多数网页表单都是由一些HTML 字段.一个提交按钮.一个在表单处理完之后跳转的“执行结果”(表单属性action 的值)页 ...
Python爬虫笔记【一】模拟用户访问之提交表单登入—第二次（7）
在第一次登入时遇到这个问题,页面验证码与下载下来需要识别的验证码不同的问题,从网上查寻说是叫验证码同步问题.发现是用cookie解决的,那次cookie介绍到通过cookie就可以实现时间戳同步问题, ...
Python爬虫笔记【一】模拟用户访问之Tesseract-ocr验证码训练（5）
验证码处理之后就需要对处理的验证码进行识别训练,这里用Tesseract-ocr工具进行识别,用jTessBoxeditor进行训练生成模板. 一,对图片进行处理利用上一篇代码对图片进行降噪处理,得 ...
scrapy爬虫笔记(二)------交互式爬取
开始网页爬取:(1)交互式爬取首先,我们使用scrapy建立起爬虫的框架.在命令行中输入 scrapy shell “url” 如:scrapy shell “http://www.baidu.co ...
Python爬虫笔记【一】模拟用户访问之验证码清理（4）
清理图片,对图片进行二值化,去边框,去干扰线,去点 from PIL import Image from pytesseract import * from fnmatch import fnmatc ...
Python爬虫笔记【一】模拟用户访问之设置处理cookie（2）
学习的课本为<python网络数据采集>,大部分代码来此此书. 做完请求头的处理,cookie的值也是区分用户和机器的一个方式.所以也要处理一下cookie,需要用requests模块,废 ...

随机推荐

DQL多表查询
DQL多表查询一.多表查询实现多个表之间查询数据 1.交叉连接笛卡尔积:A表中的每一行匹配B表中的每一行基本结构:select [数据库名1.]表名1,属性名1,......, [数据库名.]表名. ...
Codeforces 1291B - Array Sharpening
题目大意: 一个数列是尖锐的当且仅当存在一个位置k使得 a[1]<a[2]<a[3]<...<a[k] 且 a[k]>a[k+1]>a[k+2]>...&g ...
UVA - 1630 Folding(串折叠)(dp---记忆化搜索)
题意:给出一个由大写字母组成的长度为n(1<=n<=100)的串,“折叠”成一个尽量短的串.折叠可以嵌套.多解时可输出任意解. 分析: 1.dp[l][r]为l~r区间可折叠成的最短串的长 ...
POJ 1840：Eqs 哈希求解五元方程
Eqs Time Limit: 5000MS Memory Limit: 65536K Total Submissions: 14169 Accepted: 6972 Description ...
mysql 杂
mysql> show create table table_name|view_name \G; 可以查看是视图还是表 \G 放到sql语句后,可以使每个字段打印到单独的行 1 I ...
Mybatis核心类生命周期和管理
Mybatis核心类生命周期和管理原文链接:https://blog.csdn.net/qq1134550437/article/details/51960480 1.SqlSessionFacto ...
dirname() 函数返回路径中的目录部分。
定义和用法 dirname() 函数返回路径中的目录部分. 语法 dirname(path) 参数描述 path 必需.规定要检查的路径. 说明 path 参数是一个包含有指向一个文件的全路径的字符 ...
十一、GUI设计-记事本程序
"""记事本程序""" from tkinter import *from tkinter.filedialog import *from ...
Opencv中的轮廓（不全）
1.初识轮廓为了准确,要使用二值化图像.在寻找轮廓之前,要进行阈值化处理,或者Canny边界检测. 查找轮廓的函数会修改原始图像.如果你在找到轮廓之后还想使用原始图像的话,你应该将原始图像存储到其他 ...
openv uMat和Mat数据格式的转换
Mat 转成 UMat: UMat umat; mat.copyTo(umat); UMat转成 Mat : Mat mat; umat.copyTo(mat);

爬虫笔记（二）——浏览器的模拟（Headers属性）

爬虫笔记（二）——浏览器的模拟（Headers属性）的更多相关文章

随机推荐

热门专题