scrapy 中 shell 出现 403 Forbiidden 解决方案

海纳百川_有容乃大 2024-10-30 05:10:00 原文

版权声明本文来自：https://blog.csdn.net/qq_37462361/article/details/87860025

进入正题：

　　出现 403，表示网站拒绝提供服务

　　（因为很多网站都有反爬机制,其实使用 scrapy shell 的时候就是以 scrapy 爬虫的标志进行访问的，所以网站回拒绝爬虫的服务，返回 403）

解决方案：

　　方案一：只治标，不治本

　　　　在使用scrapy 的时候在最后加上 -s USER-AGENT = "Mozills/5.0"

　　　　eg:

scrapy shell "https://movie.douban.com" -s USER_AGENT='Mozills/5.0’

　　方案二：半治标半治本

　　　　修改scrapy 中 setting.py 文件的 USER-AGENT

　　　　修改前：

#USER_AGENT = 'yi (+http://www.yourdomain.com)'

　　修改后：

USER_AGENT = 'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0'

　　注意：

　　　　这里的 scrapy 只能在 scrapy 中使用，直接在cmd 中使用不生效，这就是作者说的半指标半治本

scrapy shell https://movie.douban.com/top250

　　我们可以看见返回成功的信息：

response   < https://movie.douban.com/top250>

　　方案三：治愈

　　　　直接修改 python 的defult_setting.py 文件里默认的 USER-AGENT值

　　　　（那么之后不管实在项目中还是再 cmd 中使用 scrapy shell ，都是以浏览器的标识阱行访问网站的）、

　　　　那么找到 defult_setting.py 文件的位置；

　　　　　　一般在你安装 python 的目录下的 /lib/site-package/scrapy/deting.py中找到 user-agent进行修改：

　　　　修改前：

USER_AGENT = 'Scrapy/%s (+http://scrapy.org)' % import_module('scrapy').__version__

　　　　修改后：

USER_AGENT = 'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0'

　　现在不管是在 cmd 中还是在 scrapy 项目中执行 scrapy shell 的时候都会返回 200 成功！

　　

scrapy 中 shell 出现 403 Forbiidden 解决方案的更多相关文章

Scrapy的shell命令（转）
scrapy python MrZONT 2015年08月29日发布 ...
scrapy中选择器用法
一.Selector选择器介绍 python从网页中提取数据常用以下两种方法: lxml:基于ElementTree的XML解析库(也可以解析HTML),不是python的标准库 BeautifulS ...
linux中shell变量$#,$@,$0,$1,$2的含义解释
linux中shell变量$#,$@,$0,$1,$2的含义解释: 变量说明: $$ Shell本身的PID(ProcessID) $! Shell最后运行的后台Process的PID $? 最后运行 ...
关于ASP.NET MVC开发设计中出现的问题与解决方案汇总【持续更新】
最近一直用ASP.NET MVC 4.0 +LINQ TO SQL来开发设计公司内部多个业务系统网站,在这其中发现了一些问题,也花了不少时间来查找相关资料或请教高人,最终都还算解决了,现在我将这些问题 ...
linux中shell变量$#,$@,$0,$1,$2的含义解释
linux中shell变量$#,$@,$0,$1,$2的含义解释 linux中shell变量$#,$@,$0,$1,$2的含义解释: 变量说明: $$ Shell本身的PID(ProcessID ...
td中使用overflow:hidden; 无效解决方案
td中使用overflow:hidden; 无效解决方案 >>>>>>>>>>>>>>>>>> ...
GEF-whole-upload教程中遇到的问题及解决方案
最近在学习GEF开发,使用的是GEF-whole-upload这个教程.由于教程当时所使用的版本与本人使用的版本有一些差异,中间出现了不少问题,现在将解决方案分享给大家. 本人使用的Eclipse版本 ...
inux中shell变量$#,$@,$0,$1,$2的含义
转自:http://www.cnblogs.com/fhefh/archive/2011/04/15/2017613.html linux中shell变量$#,$@,$0,$1,$2的含义解释: 变量 ...
Scrapy中使用Django的Model访问数据库
Scrapy中使用Django的Model进行数据库访问当已存在Django项目的时候,直接引入Django的Model来使用比较简单 # 使用以下语句添加Django项目的目录到path impo ...

随机推荐

Java进阶学习（5）之设计原则(上)
设计原则城堡游戏扩展字符串被分割 String line = in.nextLine(); String[] words = line.split(" "); 消除代码复制 ...
spring jdbcTemplate query 返回值为null
spring jdbcTemplate query 返回值为null 今天使用以下方法从数据库中查询数据,返回列表 public List<BookBean> getBooks(){ St ...
argument
js中arguments的用法了解arguments这个对象之前先来认识一下javascript的一些功能: 其实Javascript并没有重载函数的功能,但是Arguments对象能够模拟重载 ...
多表连接面试题：ERROR：Not unique table/alias
class_info id class_name 2 s204 5 s205 1 s207 7 s203 match_info id host_id guest_id match_time mat ...
【深入HTTP协议】
目录 HTTP 请求 HTTP 响应 "HTTP是(Hyper Text Transfer Protocol)超文本传输协议的缩写. HTTP的发展是万维网协会(World Wide Web ...
使用Docker搭建Spark集群（用于实现网站流量实时分析模块）
上一篇使用Docker搭建了Hadoop的完全分布式:使用Docker搭建Hadoop集群(伪分布式与完全分布式),本次记录搭建spark集群,使用两者同时来实现之前一直未完成的项目:网站日志流量分析 ...
本次我们使用idea构建springmvc项目
该案例的github地址:https://github.com/zhouyanger/demo/tree/master/springmvcdemo1 1.首先我们可以创建maven项目,file-&g ...
Vue - 让水平滚动条(scroll bar)固定在浏览器的底部
效果踩坑经历 TLDR; 在几个小时的google和stack overflow的苦苦搜索后,无果. 经过自我思考,想到了一种实现方法: 整个页面是一个盒子,要出现滚动条,必然里面的元素要溢出.也即 ...
前端开发CSS清除浮动的方法有哪些？
在前端开发过程中,非IE浏览器下,当容器的高度自动,并且容器内容中有浮动元素(float为left或right),此时如果容器的高度不能自适应内容的高度,从而使得内容溢出破坏整体布局,这种现象叫做浮动 ...
js克隆一个对象
我们知道,对象类型在赋值的过程中其实是复制了地址,所以如果改变了一方,其他都会被改变.我们应该如何克隆一个对象,并且避免这种现象的发生呢? 方法一:Object.assign function cop ...