python3下scrapy爬虫(第三卷:初步抓取网页内容之抓取网页里的指定数据）

上一卷中我们抓取了网页的所有内容，现在我们抓取下网页的图片名称以及连接

现在我再新建个爬虫文件，名称设置为crawler2

做爬虫的朋友应该知道，网页里的数据都是用文本或者块级标签包裹着的，scrapy框架里自带标签选择器HtmlXPathSelector,具体的使用规则可以查阅一下我就不介绍了

我们现在要爬取的内容是网页的图片标题，以及网页的图片链接，所以我们需要在网站浏览器的控制台上查看标签内容属性

在控制台上我们发现：

我们所要抓取的内容在类名为showlist的div下的li标签下

所以我们先获取下页面的指定LI标签

先看下打印结果：

内容哪去了不要慌这个选择器打印的结果没问题

下面进行下代码修改，获取LI里的内容，实现由父找子的过程

这个extract()函数是我一般用来获取标签

看下结果

一组LI里有好多内容，并不是一一对应看起来不方便，由此可见个做网站的前端是直接一个LI里封装多个图片的块级元素

看的不舒服来修改下代码，一个LI里有七个为了保证数据的准确性每一个父级LI元素我都设定一个编号

看下代码

来看下结果：

纵然文字不健康，但是数据的展现依旧清晰可见

现在图片的连接有了我们可以根据链接来下载图片那么我们使用urlretrieve函数，我们在当前爬虫的文件夹中与SPIDER文件同级建立一个IMG文件夹

来看下代码：

其实就像个公式一样读取公式+存储公式就能完成图片的下载：来现在看一下结果：

真的是豪无节操的网站我以后不会再爬取它了

python3下scrapy爬虫(第三卷:初步抓取网页内容之抓取网页里的指定数据）的更多相关文章

python3下scrapy爬虫(第五卷:初步抓取网页内容之scrapy全面应用）
现在爬取http://category.dangdang.com/pg1-cid4008149.html网址上的商品价格,名称,评价数量先准备下下数据:商品名,商品链接,评价数量第一步:在item ...
python3下scrapy爬虫(第十一卷:scrapy数据存储进mongodb）
说起python爬虫数据存储就不得不说到mongodb,现在我们来试一下scrapy操作mongodb 首先开启mongodb mongod --dbpath=D:\mongodb\db 开启服务后就 ...
python3下scrapy爬虫(第七卷:编辑器内执行scrapy）
之前我们都是在终端切入到scrapy的路境内执行爬虫的,你要多敲多少行的字节,所以这次我们谈谈如何在编辑器里执行,这个你可以用在爬虫中,当你使用PYTHONWEB开发时尽量不要在编辑器内启动端口服务那 ...
python3下scrapy爬虫(第十三卷：scrapy+scrapy_redis+scrapyd打造分布式爬虫之配置）
之前我们的爬虫都是单机爬取,也是单机维护REQUEST队列, 看一下单机的流程图: 一台主机控制一个队列,现在我要把它放在多机执行,会产生一个事情就是做重复的爬取,毫无意义,所以分布式爬虫的第一个难点 ...
python3下scrapy爬虫(第十卷:scrapy数据存储进mysql）
上一卷中我将爬取的数据文件直接写入文本文件中,现在我将数据存储到mysql中,我依然用的是pymysql,这个很麻烦建表需要在外面建这次代码只需要改变pipyline就行来现在看下结果: 对比发 ...
python3下scrapy爬虫(第六卷:利用cookie模拟登陆抓取个人中心页面）
之前我们爬取的都是那些无需登录就要可以使用的网站但是当我们想爬取自己或他人的个人中心时就需要做登录,一般进入登录页面有两种 ,一个是独立页面登陆,另一个是弹窗,我们先不管验证码登陆的问题 ,现在试一下 ...
python3下scrapy爬虫(第八卷:循环爬取网页多页数据）
之前我们做的数据爬取都是单页的现在我们来讲讲多页的一般方式有两种目标URL循环抓取另一种在主页连接上找规律,现在我用的案例网址就是通过点击下一页的方式获取多页资源话不多说全在代码里(因为刚才写 ...
python3下应用pymysql(第三卷）（数据自增-用于爬虫）
在上卷中我说出两种方法进行数据去重自增,第一种就是在数据库的字段中设置唯一字段,二是在脚本语言中设置重复判断再添加(建议,二者同时使用,真正开发中就会用到) 话不多说先上代码第一步: 确定那一字段的 ...
python3下scrapy爬虫(第一卷：安装问题)
一般爬虫都是用urllib包,requests包配合正则.beautifulsoup等包混合使用,达到爬虫效果,不过有框架谁还用原生啊,现在我们来谈谈SCRAPY框架爬虫, 现在python3的兼容 ...

随机推荐

dfs--汉诺塔
在研究汉诺塔问题时,我们可以先分析俩个盘子的方法: 1.把第一个盘子放到辅助柱子上 2.把第二个盘子放大目标柱子上 3.把第一个盘子从辅助柱子移到目标柱子上由此我们可以通过整体思想推导出一共有n个盘 ...
201403-1 相反数 Java
法1:排序后,首尾两个指针法2:每个数的绝对值如果出现过,flag置为1,如果再次出现,就计数+1 本文采用法1 import java.util.Arrays; import java.util. ...
python爬取淘宝数据之遇到的问题
1.chormedriver.exe驱动下载地址 https://npm.taobao.org/mirrors/chromedriver 2.跳转网页页面不稳定问题添加智能等待时间 driver.i ...
刘永富的Office/VBA/VSTO开发资源分享
各种常用安装包下载:https://share.weiyun.com/5PCvqY4 简称文件名称描述信息视频课程虚拟光驱软件Daemon DAEMON_Tools_Lite_V10.1.0. ...
jmlr论文下载
下载脚本 #!/bin/bash # down_jmlr.sh ver=$1 wget http://www.jmlr.org/papers/$ver/ -O index.htm cat index. ...
codeforce 1189C Candies! ----前缀和
题目大意:给你一个数组每个数不大于9,然后给你m个区间,每个区间的长度都是2的k次方(k=0 1 2.....) 有一种操作是把奇数位和偶数位相加用和来代替之前的两个数,如果和大于等于10就要膜 ...
Linux服务器性能查看命令
一.uptime命令 [root@#test~]# uptime15:26:42 up 101 days, 18:44, 3 users, load average: 0.18, 0.22, 0. ...
binary-heap（二叉堆）原理及C++代码实现
二叉堆可以看做一个近似的完全二叉树,所以一般用数组来组织. 二叉堆可以分为两种形式:最大堆和最小堆.最大堆顾名思义,它的每个结点的值不能超过其父结点的值,因此堆中最大元素存放在根结点中.最小堆的组织方 ...
c# winForm 将窗体状态栏StatusStrip 分成左中右三部分右边显示当前时间
实现效果:通过StatusStrip显示窗体状态栏同时将状态栏分成三部分居左边显示相关文字信息中间空白显示居右边显示时间信息 1.创建窗体及添加StatusStrip 默认StatusStrip名称 ...
O - Snacks（DFS序）
百度科技园内有nn个零食机,零食机之间通过n−1n−1条路相互连通.每个零食机都有一个值vv,表示为小度熊提供零食的价值. 由于零食被频繁的消耗和补充,零食机的价值vv会时常发生变化.小度熊只能从编号 ...

python3下scrapy爬虫(第三卷:初步抓取网页内容之抓取网页里的指定数据）

python3下scrapy爬虫(第三卷:初步抓取网页内容之抓取网页里的指定数据）的更多相关文章

随机推荐

热门专题