Scrapy shell调试返回403错误】的更多相关文章

一.问题描述 有时候用scrapy shell来调试很方便,但是有些网站有防爬虫机制,所以使用scrapy shell会返回403,比如下面 C:\Users\fendo>scrapy shell https://book.douban.com/subject/26805083/2017-04-17 15:18:53 [scrapy.utils.log] INFO: Scrapy 1.3.3 started (bot: scrapybot)2017-04-17 15:18:53 [scrapy.…
shell脚本功能:连接mysql,自动创建数据库,脚本如下 mysql -h$MYSQL_IP -u$MYSQL_USER -p$MYSQL_PASSWORD --default-character-set=utf8 -e "create database IF NOT EXISTS test" 数据库IP.用户.密码采用参数传值 问题描述:root用户登录,直接执行.sh脚本,一切正常,使用java程序调用,命令返回127错误 解决思路:网上查了一下,应该是java运行环境和登录用…
通过scrapy shell "http://www.thinkive.cn:10000/zentaopms/www/index.php?m=user&f=login"…
报错代码: ****************   表示上传的项目地址 remote: Permission to Jayson00/camera.git denied to Minelinkinpark. fatal: unable to access '*******************': The requested URL returned error: 403 解决方案: 在项目地址的  https://  的后面加上   github的账户名:github的密码@github.co…
原文地址:http://blog.csdn.net/t894690230/article/details/52404105 困惑:很奇怪,明明在方法上面配置了RequestMethod.POST,POST表单提交却返回403状态码,可是使用GET方式却没问题啊!!! @RequestMapping(value="***", method = { RequestMethod.POST }) public ModelAndView edit() { ModelAndView model =…
在GET之前,先指定UserAgent参数IdHTTP1.Request.UserAgent := 'Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Maxthon)';…
有时候用scrapy shell来调试很方便,但是有些网站有防爬虫机制,所以使用scrapy shell会返回403,比如下面 有两种解决方法: (1):第一种方法是在命令上加上-s USER_AGENT='Mozilla/5.0' 第一种方法最简单但是每次操作都要加上去很繁琐,第二种方法比较好. (2):第二种方法是修改scrapy的user-agent默认值 找到python的:安装目录下的default_settings.py文件,比如我的C:\Users\0923\AppData\Loc…
在配置Linux的 Apache服务时,经常会遇到http403错误,我今天配置测试时也出现了,最后解决了,总结了一下.http 403错误是拒绝访问的意思,有很多原因的.还有,这些问题在win平台的Apache里一样会发生!我按照经验总结的主要有以下4种原因! 本人测试的环境 是:Scientific Linux 5.3(与RHEL和CentOS百分百兼容!),其它版本的Linux应该通用,没测试. 1. 访问的文档权限不够.要755以上权限.解决方法:用命令chmod 755 /var/ww…
在centos7 linux系统上使用docker进行tomcat部署项目测试的时候发现第一个错误:浏览器返回403 错误,显然是一个权限问题,禁止访问.下面是我一步一步的操作: 1 使用的docker运行tomcat的时候使用命令如下: docker run --name mytomcat -p : -v $PWD/wlsweb:/usr/local/tomcat/webapps/wlsweb -d tomcat 2 然后使用如下命令进行虚拟的tomcat目录下. docker exec -i…
--摘 第一次用Django做项目,遇到了很多问题. 今天遇到的问题是Django在处理post请求时多次出现403错误. 我先描述一下问题出现的环境:我用Django写了一个web服务端,姑且称它为API吧.我在实际测试中发现,通过get方式可以从API中获得数据,但是post方式却无法获取数据,客户端显示服务器端出现403错误. 我找不出什么原因,只好新建了一个表单来测试post请求,我发现通过表单发送post请求时,页面显示403错误:Forbidden CSRF verification…
调试代码命令 scrapy shell http://blog.jobbole.com/114496/(入口url)…
注意:容易出现403错误,实际爬取时不会出现. response - a Response object containing the last fetched page >>>response.xpath('//title/text()').extract()  return a list of selectors >>>for index, link in enumerate(links): ... args = (index, link.xpath('@href'…
Shell函数返回值,常用的两种方式:return,echo 1) return 语句 shell函数的返回值,可以和其他语言的返回值一样,通过return语句返回. 示例: #!/bin/sh function test() { echo "arg1 = $1" if [ $1 = "1" ] ;then return 1 else return 0 fi } echo echo "test 1" test 1 echo $? # print…
转:http://blog.csdn.net/ithomer/article/details/7954577 Shell函数返回值,一般有3种方式:return,argv,echo 1) return 语句shell函数的返回值,可以和其他语言的返回值一样,通过return语句返回.示例: #!/bin/bash - function mytest() { echo "arg1 = $1" if [ $1 = "1" ] ;then return 1 else re…
Windows 10家庭中文版,Python 3.6.3,Scrapy 1.5.0, 时隔一月,再次玩Scrapy项目,希望这次可以玩的更进一步. 本文展示使用在 Scrapy项目内.项目外scrapy shell命令抓取知乎首页的初步情况,重要的一点是,在项目内抓取时,没有response可用. 在项目[外]执行抓取命令 scrapy shell https://www.zhihu.com 得到结果(部分):因为知乎的反爬虫功能,得到了400错误,访问失败. INFO: Overridden…
Scrapy Shell Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据. 如果安装了 IPython ,Scrapy终端将使用 IPython (替代标准Python终端). IPython 终端与其他相比更为强大,提供智能的自动补全,高亮输出,及其他特性.(推荐安装IPython) 启动Scrapy Shell 进入项目的根目录,执行下列命令来启动shell: sc…
Scrapy Shell Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据. 如果安装了 IPython ,Scrapy终端将使用 IPython (替代标准Python终端). IPython 终端与其他相比更为强大,提供智能的自动补全,高亮输出,及其他特性.(推荐安装IPython) 启动Scrapy Shell 进入项目的根目录,执行下列命令来启动shell: sc…
Scrapy 终端是一个交互终端,可以在未启动 spider 的情况下尝试及调试你的爬取代码.其本意是用来测试提取数据的代码,不过可以将其作为正常的 Python 终端,在上面测试任何 Python 代码. 该终端是用来测试 XPath 或 CSS 表达式,查看他们的工作方式及从爬取的网页中提取的数据. 在编写您的 spider 时,该终端提供了交互性测试您的表达式代码的功能,免去了每次修改后运行 spider 的麻烦. 启动终端 scrapy shell <url> <url>…
Scrapy Shell Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据. 启动Scrapy Shell 进入项目的根目录,执行下列命令来启动shell: scrapy shell "http://www.itcast.cn/channel/teacher.shtml" Scrapy Shell根据下载的页面会自动创建一些方便使用的对象,例如: Respons…
什么是scrapy shell? Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试xpath或css表达是,来查看他们的工作方式,方便爬取页面中的数据. selector选择器(scrapy内置) Selecctor有四个基本方法,最常用的还是xpath: xpath():传入xpath表达式,返回该列表所对应的所有节点的selector的list extract():序列化该节点为Unicode字符串,并返回list css():传入css表达…
---恢复内容开始--- 转载:https://www.ibm.com/developerworks/cn/linux/l-cn-shell-debug/ Shell脚本调试技术 曹 羽中2007 年 7 月 26 日发布 分享此页面 WeiboGoogle+用电子邮件发送本页面 4 一. 前言 shell编程在unix/linux世界中使用得非常广泛,熟练掌握shell编程也是成为一名优秀的unix/linux开发者和系统管理员的必经之路.脚本调试的主要工作就是发现引发脚本错误的原因以及在脚本…
Scrapy Shell:模拟scrapy去发送请求 Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据. 如果安装了 IPython ,Scrapy终端将使用 IPython (替代标准Python终端). IPython 终端与其他相比更为强大,提供智能的自动补全,高亮输出,及其他特性.(推荐安装IPython) 启动Scrapy Shell 进入项目的根目录,执行下列…
1.介绍文档:http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/shell.html# 2.终端的启用方式:scrapy shell url url 即为你要爬取的网站 3.使用scrapy shell遇到的问题 当用scrapy shell访问如上图的链接时,报出如下错误: DEBUG: Crawled (504) <GET http://wz.sun0769.com/index.php/question/questionType?typ…
pycharm调试技巧:调试时,请求一次,下次直接调试,不必每次都启动整个爬虫,重新请求一整遍 [用法]cmd命令运行:scrapy shell 网址 第一步,cmd进行一次请求: scrapy shell http://blog.jobbole.com/114633/ 返回详情: C:\Users\Administrator>scrapy shell http://blog.jobbole.com/114633/ 2019-05-06 14:47:09 [scrapy.utils.log] I…
是什么?:是一个终端下的调试工具,用来调试scrapy 安装ipython :pip install ipython 启动: scrapy shell + 需要请求的url 进来之后,response就是响应对象,可以直接使用 response.text response.body response.url response.headers response.status response.xpath() 无论xpath路径是精确到节点还是属性,它返回的永远都是scrapy自己封装的select…
[shell调试选项] 一些常用选项的用法: -n 只读取shell脚本,但不实际执行 -x 进入跟踪方式,显示所执行的每一条命令 -c "string" 从strings中读取命令 “-n”可用于测试shell脚本是否存在语法错误,但不会实际执行命令.在shell脚本编写完成之后,实际执行之前,首先使用“-n”选项来测试脚本是否存在语法错误是一个很好的习惯.因为某些shell脚本在执行时会对系统环境产生影响,比如生成或移动文件等,如果在实际执行才发现语法错误,您不得不手工做一些系统环…
java JNI 调试出现的错误 ERROR: JDWP Unable to get JNI 1.2 environment, jvm->GetEnv() return code = -2JDWP exit error AGENT_ERROR_NO_JNI_ENV(183): [../../../src/share/back/util.c:820] 请在代码最后加入以下语句:System.exit(0)即可(在main函数结束时,添加system.exit(0):), 注意,只需要在这种情况下加…
函数可以让我们将一个复杂功能划分成若干模块,让程序结构更加清晰,代码重复利用率更高.像其他编程语言一样,Shell 也支持函数.Shell 函数必须先定义后使用. Shell 函数的定义格式如下: function_name () { list of commands [ return value ] } 如果你愿意,也可以在函数名前加上关键字 function: function function_name () { list of commands [ return value ] } 函数…
Shell 也支持函数.Shell 函数必须先定义后使用. Shell 函数的定义格式如下: function_name () { list of commands [ return value ] } 如果你愿意,也可以在函数名前加上关键字 function: function function_name () { list of commands [ return value ] } 函数返回值,可以显式增加return语句:如果不加,会将最后一条命令运行结果作为返回值. Shell 函数返…
2G环境下资源下载有一定概率失败,客户端日志显示收到403错误 问题现象: 测试同学在使用联通号码在移动网络环境下,访问连接得到的response_code出现是403,导致资源读取失败表情显示异常. 问题重现步骤: 资源都存放在res.domain.com域名下.如:http://res.domain.com/test_path_to_res/1001.json 当在该移动网络环境下 a. 在使用域名的url访问时,连接正常,读取正常,表情显示正常. b. 当后台push下来相应的ip代替re…