scrapy框架--新建调试的main.py文件

一.原因：

　　由于pycharm中没有scrapy的一个模板，所有没办法直接在scrapy文件中调试，所有我们需要写一个自己的main.py文件，在文件里面调用命令行，来实现scrapy的一个调试。（在scrapy中可以调试，可以让我们的开发效率高）

二.注意点：

　　字爬虫文件中设置断点，但是需要在自己写的main.py文件中用debug进行调试，然后返回到爬虫文件观看调试结果即可。

三.编写main.py文件:

from scrapy.cmdline import execute   #调用此函数可以执行scrapy的脚本

import sys

import os

# 用来设置工程目录，有了它才可以让命令行生效

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

#os.path.abspath(__file__)  用来获取当前py文件的路径

#os.path.dirname()    用来获取文件的父亲的路径

#调用execute()函数执行scarpy的命令 scary crawl 爬虫文件名字

execute(['scarpy','crawl','jobbole'])

　　我们可以看一下scarpy命令行：scarpy crawl 爬虫文件名字（下图截取了部分运行之后的代码）

四.修改setting,py问价中的一个参数：因为scrapy默认会读取每个网站的root协议，会把不符合root协议的url过滤掉，所有我们需要设置scrapy不需要遵守root协议。

scrapy框架--新建调试的main.py文件的更多相关文章

Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
Python项目--Scrapy框架(二)
本文主要是利用scrapy框架爬取果壳问答中热门问答, 精彩问答的相关信息环境 win8, python3.7, pycharm 正文 1. 创建scrapy项目文件在cmd命令行中任意目录下执行 ...
Scrapy框架——介绍、安装、命令行创建，启动、项目目录结构介绍、Spiders文件夹详解（包括去重规则）、Selectors解析页面、Items、pipelines（自定义pipeline）、下载中间件（Downloader Middleware）、爬虫中间件、信号
一介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可 ...
『德不孤』Pytest框架 — 14、Pytest中的conftest.py文件
目录 1.conftest.py文件介绍 2.conftest.py的注意事项 3.conftest.py的使用 4.不同位置conftest.py文件的优先级 5.conftest.py中Fixtu ...
scrapy框架在未登录模式下爬取文本，文件和图片的几点收获
1.什么是API接口? https://baijiahao.baidu.com/s?id=1597881116201407882&wfr=spider&for=pc 2.spider文 ...
Python项目--Scrapy框架(一)
环境 win8, python3.7, pycharm 正文 1.Scrapy框架的安装在cmd命令行窗口执行: pip install Scrapy 即可完成Scrapy框架的安装 2. 创建Sc ...
爬虫之Scrapy框架介绍及基础用法
今日内容概要爬虫框架之Scrapy 利用该框架爬取博客园并发编程今日内容详细爬虫框架Scrapy 1.什么是框架? 框架类似于房子的结构,框架会提前帮你创建好所有的文件和内部环境你只需要往对 ...
爬虫（9） - Scrapy框架(1) | Scrapy 异步网络爬虫框架
什么是Scrapy 基于Twisted的异步处理框架纯python实现的爬虫框架基本结构:5+2框架,5个组件,2个中间件 5个组件: Scrapy Engine:引擎,负责其他部件通信进行信号 ...
Python爬虫Scrapy框架入门（2）
本文是跟着大神博客,尝试从网站上爬一堆东西,一堆你懂得的东西附上原创链接: http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是,查看网页元素,填写 ...

随机推荐

Windows 程序设计--（六）键盘
6.2 击键消息当按下一个键时,Windows把WM_KEYDOWN或者WM_SYSKEYDOWN消息放入有输入焦点的窗口的消息队列:当您释放一个键时,Windows把WM_KEYUP或者WM_SY ...
攻防世界--python-trade
测试文件:https://adworld.xctf.org.cn/media/task/attachments/69c8f29912ae4f679d92a6cd36c33196.pyc 这里需要用到一 ...
请列举出JS对象的几种创建方式？
javascript创建对象简单的说,无非就是使用内置对象或各种自定义对象,当然还可以用JSON:但写法有很多种,也能混合使用. 1.对象字面量的方式 var person={firstname:&q ...
SharePoint创建web应用程序，提示密码不正确
使用版本SharePoint2010: $username="domain\username"$newpassword="xxxxxxxx"stsadm -o ...
BJSV-P-003高清智能卡口系统
高清智能卡口系统捕获率99%,车牌识别率98% ■ 道路安装示意图 ■ 系统结构 ■ 抓拍实例北京太速科技有限公司在线客服:QQ:448468544 淘宝网站:orihard.tao ...
plsql查询数据中文乱码
在plsql中进行表数据查询的时候,发现查询出来的中文居然显示为乱码,通过查找资料解决该问题. 1.查看数据的编码(语句:select * from v$nls_parameters) 发现显示的语言 ...
.NET面试题集锦①
一.前言部分文中的问题及答案多收集整理自网络,不保证100%准确,还望斟酌采纳. 1.面向对象的思想主要包括什么? 答:任何事物都可以理解为对象,其主要特征: 继承.封装.多态.特点:代码好维护,安 ...
shell脚本条件测试与比较
1.条件测试常用语法 test 测试表达式利用test命令进行条件测试表达式,test命令与测试表达式之间至少有一个空格 [ 测试表达式 ] 通过[ ]中括号进行条件测试表达式,[]中括号边界与测试 ...
FMXUI ANDROID下连续按多次返回出现异常
在ANDROID下,按返回键后,默认是关闭当前Frame,但连接按返回键,会对当前Frame执行多次关闭动作,因为已经释放过对象,再次关闭会出现异常错误,解决办法:定义一个标识如FClosed: ...
阿里云HPC助力新制造 | 上汽仿真计算云SSCC
随着上汽集团与阿里云的合作开展,阿里云各项技术逐步深入到上汽汽车研发领域的核心业务实现落地.其中上海汽车集团股份有限公司乘用车分公司(以下简称上汽乘用车)与阿里云共建的仿真计算混合云就是新制造产业升级 ...

scrapy框架--新建调试的main.py文件

scrapy框架--新建调试的main.py文件的更多相关文章

随机推荐

热门专题