scrapy 用法总结

待更新:

建立python开发虚拟环境 virtualenv mkvirtualenv --python=the-path-to-the-python-you-want-to use

安装：

使用pip install scrapy就可以了，然后自动安装成功

新建scapy项目：

进入需要新建项目的路径

然后进入虚拟环境 workon virtualenv-name或者进入到虚拟环境下的目录，然后用activate

然后 scrapy startproject project-name 就可以了

然后用pycharm打开该项目，这个时候scrapy项目是空的

进入到项目文件夹下

然后 scarpy genspider name url

进入pycharm右键同步

可以为该项目添加虚拟环境的解释器，到时候可以一起打包（待验证）

sys.path.append()

os.path.dirname()

os.path.abspath(__file__)

from scrapy.cmdline import execute

execute(['scrapy','crawl','name'])

设置settings.py里面的24行 ROBOTSTXT_OBEY = FALSE

基本的调试，断点，

xpath的基本语法

从chrome审查中直接获取节点的xpath路径，右键即可，可以点击审查的元素找页面中的元素，也可以反着来

scarpy 快速调试 : scrapy shell url

extract()[0] 和 extract_first()的区别: 前者如果是空列表,会报错,应该是range错误把,后者可以简化异常处理,

xpath 选择器, css选择器

item, 如何定义自己的item,如何给item中的属性赋值,如何进行传递,如何存入数据库

pipeline 添加自己定义pipeline, pipeline里面定义的pipeline类会默认处理所有的item,这个在后面的设置中也要注意

setting中设置pipeline的执行顺序

利用item.loader进行选择和赋值 from scrapy.loader import ItemLoader , add_css(),add_value()，这里返回的都是list

item定义中field中的参数: from　scrapy.loader.processors import MapCompose，TakeFirst

input_processor = MapComose(self_define_function) 这里可以连续调用多个对属性的处理函数,这里处理的是list中的每个值

TakeFirst : output_processor = TakeFirst() 这样就只取list中的第一个元素了

不用为每个字段都加:

可以自己继承一个ItemLoader类,然后将 default_output_processor 设置成 TakeFirst(),之后在自己的爬取逻辑中使用自己的类即可

用于下载图片的字段,图片的url只能是list,这个要注意,可以直接覆盖out_processor即可,同时要注意的是在存入数据库的时候字段类型问题

同样提过了一个 Join, 可以将list中的内容进行连接 Join(",")

代码重用:为具有相同操作的字段写一个共同的处理函数,然后通过 input_processor 进行设置, 比如说同样的正则表达式匹配和同样的转整数的操作

终端调试: scrapy shell url

ipython 安装 pip install ipython

出现了问题，就卸载再装吧（反正成功了，但是还是不知道问题在哪，无语）

scrapy 用法总结的更多相关文章

Django and Scrapy 用法图片
Python爬虫从入门到放弃（十四）之 Scrapy框架中选择器的用法
Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTM ...
Python爬虫从入门到放弃（十六）之 Scrapy框架中Item Pipeline用法
当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为, ...
Scrapy爬虫框架第五讲（linux环境)【download middleware用法】
DOWNLOAD MIDDLEWRE用法详解通过上面的Scrapy工作架构我们对其功能进行下总结: (1).在Scheduler调度出队列时的Request送给downloader下载前对其进行修改 ...
Scrapy爬虫框架第七讲【ITEM PIPELINE用法】
ITEM PIPELINE用法详解: ITEM PIPELINE作用: 清理HTML数据验证爬取的数据(检查item包含某些字段) 去重(并丢弃)[预防数据去重,真正去重是在url,即请求阶段做] ...
scrapy之基础概念与用法
scrapy之基础概念与用法框架所谓的框架就是一个项目的半成品.也可以说成是一个已经被集成了各种功能(高性能异步下载.队列.分布式.解析.持久化等)的具有很强通用性的项目模板. 安装 Linux: ...
scrapy 中用selector来提取数据的用法
一. 基本概念 1. Selector是一个可独立使用的模块,我们可以用Selector类来构建一个选择器对象,然后调用它的相关方法如xpaht(), css()等来提取数据,如下 from sc ...
scrapy shell 用法（慢慢更新...）
scrapy shell 命令 1.scrapy shell url #url指你所需要爬的网址 2.有些网址数据的爬取需要user-agent,scrapy shell中可以直接添加头文件, 第①种 ...
Scrapy框架中选择器的用法【转】
Python爬虫从入门到放弃(十四)之 Scrapy框架中选择器的用法请给作者点赞 --> 原文链接 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpa ...

随机推荐

WCF 内存入口检查失败 Memory gates checking failed
在做JC系统时,出现这样的错误: 出现该错误信息的原因是因为WCF服务激活之前,系统应该具有的最小内存量不足config文件中设置的百分比.我是在本机调试的时候出现的. 解决方法: 关闭 ...
iOS 把数据库文件打包到mainbundle中，查找不到路径的解决的方法；以及在删除bundle中文件的可行性
在开发中有时我们须要把数据库文件打包到我们的项目中.一般我们都是在外部用工具生成数据库文件,然后拉入项目中.可是我们在程序中查找改文件时.返回的路径总是nil 解决的方法: 原因我们拉入其它资源文件( ...
HDU 5366：The mook jong 递推
The mook jong Accepts: 506 Submissions: 1281 Time Limit: 2000/1000 MS (Java/Others) Memory Limit ...
javascript判断一个变量或对象是否存在
判断一个变量或对象是否存在,是一种常用的操作.我这里收集了几种. //1. 最常用的一种方法.if(typeof v == 'undefined'){ console.log("v is u ...
检測磁盘驱动的健康程度SMART
在server中,全部组件中一般最easy坏掉的就是磁盘.所以一般採取RAID来保证系统的稳定性,通过冗余磁盘的方式防止磁盘故障. 现代硬件驱动器一般支持SMART(自我监測分析和报告技术),它可以监 ...
2016/05/27 php上传文件常见问题总结
php上传文件常见问题总结投稿:hebedich 字体:[增加减小] 类型:转载时间:2015-02-03我要评论这篇文章主要介绍了php上传文件常见问题总结,基本上经常碰到的问题的处理都列了 ...
推断View是否显示在界面上
我们都知道ViewController有viewWillAppear和viewDidAppear等关于页面生命周期的方法,用来对视图做一些管理,比方页面出现时怎么样,页面消失时怎么样.. 可是对于Vi ...
java 获取路径
1.利用System.getProperty()函数获取当前路径:System.out.println(System.getProperty("user.dir"));//user ...
Java 三大特性：封装、继承、多态
一.封装: 对内可封装自己的实现细节,使之信息隐藏不被其它类破坏: 对外各个类之间分工明确, 其它类无需关心实现细节,类中细节发生改变,其它类也无需作出更改: 二.继承: 从已有的类中派生出新的类 ...
css3中我们不知道的一些属性
1.图片作为边框:border-image; 2.圆角问题:border-radius:上.下.左.右: 3.字体的阴影与自动换行: 阴影: h1 {text-shadow: 5px 5px 5px ...

scrapy 用法总结

scrapy 用法总结的更多相关文章

随机推荐

热门专题