【Spider】学习使用XMLFeedSpider

前面写了学习CrawlSpider遇到的问题后，今天学XMLFeedSpider又出现了启动后没爬取到数据，但又不报错的情况

经过排查，发现又是一个粗心大意的错误：

class SpiderUserXMLFeedSpider(XMLFeedSpider):

   name = 'xmlspider'
   allowed_domains=['cnblogs.com']#这里敲少了一个s
   start_urls=['http://feed.cnblogs.com/blog/u/269038/rss']
   iterator = 'html'
   itertag = 'entry'

另外记录一下，这种结构：

<entry>

<id>http://www.cnblogs.com/qiyeboy/p/9296038.html</id>

<title type="text">基于HTTPS的中间人攻击-BaseProxy - 七夜的故事</title>

前言在上一篇文章 "BaseProxy:异步http/https代理" 中,我介绍了自己的开源项目BaseProxy，这个项目的初衷其实是为了渗透测试，抓包改包。在知识星球中，有很多朋友问我这个项目的原理及实现代码，本篇文章就讲解一下和这个项目相关的HTTPS的中间人攻击。 HTTPS隧道代理

</summary>

<name>七夜的故事</name>

<uri>http://www.cnblogs.com/qiyeboy/</uri>

</author>

【摘要】前言在上一篇文章 "BaseProxy:异步http/https代理" 中,我介绍了自己的开源项目BaseProxy，这个项目的初衷其实是为了渗透测试，抓包改包。在知识星球中，有很多朋友问我这个项目的原理及实现代码，本篇文章就讲解一下和这个项目相关的HTTPS的中间人攻击。 HTTPS隧道代理 <a href="http://www.cnblogs.com/qiyeboy/p/9296038.html" target="_blank">阅读全文</a>

</content>

</entry>

在匹配数据时，因为设置了起始标签是itertag = 'entry'所以xpath匹配只需这样写：

node.xpath('id/text()').extract()[0]

node.xpath('title/text()').extract()[0]

node.xpath('summary/text()').extract()[0]

不需要在id,title ,summary前面加/

还有在我查这个爬不到数据的问题时，还找到一篇不错的文章：https://blog.csdn.net/lw_power/article/details/77919533
这里讲了使用模板来生成spider的代码，用模板的话就不用所有代码都敲一遍，就设置一下items.py,然后去Spider.py里修改一下allowed_domains ，start_urls的链接，
并补充关键代码（其实自动生成的代码注释有提示你应该怎么写代码）

【Spider】学习使用XMLFeedSpider的更多相关文章

七月在线爬虫班学习笔记（五）——scrapy spider的几种爬取方式
第五课主要内容有: Scrapy框架结构,组件及工作方式单页爬取-julyedu.com 拼URL爬取-博客园循环下页方式爬取-toscrape.com Scrapy项目相关命令-QQ新闻 1.S ...
python学习之-用scrapy框架来创建爬虫(spider)
scrapy简单说明 scrapy 为一个框架框架和第三方库的区别: 库可以直接拿来就用, 框架是用来运行,自动帮助开发人员做很多的事,我们只需要填写逻辑就好命令: 创建一个项目 : cd 到需 ...
[Todo] Nodejs学习及Spider实验（包括php入门学习、React入门学习）
/Users/baidu/Documents/Data/Interview/Web-Server开发深入浅出Node.js-f46c http://blog.csdn.net/u012273376/ ...
Scrapy框架学习（三）Spider、Downloader Middleware、Spider Middleware、Item Pipeline的用法
Spider有以下属性: Spider属性 name 爬虫名称,定义Spider名字的字符串,必须是唯一的.常见的命名方法是以爬取网站的域名来命名,比如爬取baidu.com,那就将Spider的名字 ...
Nodejs全站开发学习系列 & 深入浅出Node学习笔记 & Spider抓取
https://course.tianmaying.com/node 这个系列的文章看起来很不错,值得学习一下. /Users/baidu/Documents/Data/Interview/Web-S ...
Scrapy学习-25-Scrapyd部署spider
Scrapyd部署爬虫项目 github项目 https://github.com/scrapy/scrapyd 官方文档 http://scrapyd.readthedocs.org/ ...
学习Spider 了解 Scrapy的流程
Scrapy 先创建项目在windows下 scrapy startproject myproject #myproject是你的项目名称 cd 项目名称 scrapy g ...
scrapy 4 学习 crawl spider
前情提要: 一:图片懒加载(面对图片懒加载怎么办) ---用selenium设置图片加载的位置 --- 分析懒加载的属性,直接获取二: 如何提高scrapy的爬取效率增加并发:默认scrapy开启 ...
Scrapy学习篇（五）之Spiders
Spiders Spider类定义了如何爬取某个网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item).简而言之,Spider就是你定义爬取的动作及分析某个网 ...

随机推荐

php-- orther
0.PHP实现物流查询(通过快递网API实现) 1.php7 新特性 2.php的精确计算 3.PHP大小写是否敏感问题的汇总 4.取得类的对象属性名和类的属性和类的方法名 5.php判断 != ...
windows2012系统IE浏览器无法打开加载flashplayer内容
添加角色和功能,用户界面和基础结构,桌面体检,安装完重启电脑
浅析USB HID ReportDesc (HID报告描述符)
在USB中,USB Host是通过各种描述符来识别识别设备的,一般在设备枚举的过程将会获取有设备描述符/配置描述符/接口描述符/端点描述符/字符串描述符等现在我们来介绍一下HID ReportDes ...
Django之集合函数使用与mysql表的创建特殊字段分析
1. 集合函数的使用场景: -- 单独使用: 不分组, 只查聚合结果 -- 分组使用: 按字段分组, 可查询分组字段与聚合结果 2. 导入聚合函数 from django.db.models impo ...
JavaScript：今天是今年第几周？
用js实现,今天是今年第几周? 基本思路: 1.当前时间 - 今年1月1日0时,拿到时间差(毫秒数) 2.时间差/7天毫秒数,向上取整 var d = new Date('2018-01-01 00: ...
java字符串常量池——字符串==比较的一个误区
转自:https://blog.csdn.net/wxz980927155/article/details/81712342 起因再一次js的json对象的比较中,发现相同内容的json对象使用 ...
尚硅谷redis学习3-redis启动以后的杂项
redis速度很快,运行benchmark可以看出,各项运行速度可达100000次每秒 redis默认有16个数据库,分别是0, 1 ... 15,默认在0号库,可以通过select num转到其它库 ...
6.5 Shell 算术计算
6.5 Shell Arithmetic shell允许在其内计算表达式,可以通过以下方式使用:((中,let和带-i选项的declare命令中. 只能计算固定长度的整数,而且不会检查溢出,除0可以捕 ...
qurtz.net
Quartz.NET的使用(附源码)(作者陈珙) 简介虽然Quartz.NET被园子里的大神们写烂了,自己还是整理了一篇,结尾会附上源码地址. Quartz.NET是一款功能齐全的开源作业调度 ...
Android代码规范
Android代码规范——文章来源<IT蓝豹>http://itlanbao.com/preview.aspx#1,0 [-]一Import的次序二缩进Indentation总则示例代码规 ...

【Spider】学习使用XMLFeedSpider

【Spider】学习使用XMLFeedSpider的更多相关文章

随机推荐

热门专题