使用scrapy爬取suning
# -*- coding: utf-8 -*- import scrapy from copy import deepcopy class SuSpider(scrapy.Spider): name = 'su' allowed_domains = ['suning.com'] start_urls = ['http://list.suning.com/?safp=d488778a.error1.0.4786e76351'] def parse(self, response): # 获取大分类列表 bcate_list = response.xpath("//div[@class='allsortLeft']/ul/li") for bcate in bcate_list: item = {} # 获取大分类class的值 class_name = bcate.xpath("./@class").extract_first() # 获取所有大分类的名称 item["BCate"] = bcate.xpath("./a/span/text()").extract_first() # print(item["BCate"]) # 根据大分类的class定位每个大分类下的所有小分类 scate_list = response.xpath("//div[@class='{}']/div".format(class_name)) for scate in scate_list: # 小分类的名称 item["SCate"] = scate.xpath("./div[1]/a/@title").extract_first() # 获取每个小分类下的所有标签 tag_list = scate.xpath("./div[2]/a") for tag in tag_list: # 每个标签的链接和名称 item["tag"] = tag.xpath("./text()").extract_first() item["tag_link"] = "http:" + tag.xpath("./@href").extract_first() # 进入列表页 yield scrapy.Request( item["tag_link"], callback=self.good_list, meta={"item": deepcopy(item)} ) def good_list(self, response): item = deepcopy(response.meta["item"]) # 获取当前页的所有商品列表 li_list = response.xpath("//div[@id='product-wrap']/div/ul/li") for li in li_list: # 获取商品的图片地址,名称,价格,商品详情页的链接 item["good_img"] = "http:"+li.xpath(".//div[@class='res-img']/div/a/img/@src").extract_first() item["good_name"] = li.xpath(".//div[@class='res-info']/div/a/text()").extract_first() item["good_price"] = li.xpath(".//div[@class='res-info']/div/span/text()").extract_first() item["good_href"] = li.xpath(".//div[@class='res-info']/div/a/@href").extract_first() # 进入商品详情页 if item["good_href"] != "javascript:void(0);": yield scrapy.Request( "http:"+item["good_href"], callback=self.good_detail, meta={"item": deepcopy(item)} ) # 翻页 next_url = response.xpath("//a[@id='nextPage']/@href").extract_first() if next_url: yield scrapy.Request( next_url, callback=self.good_list, meta={"item": response.meta["item"]} ) def good_detail(self, response): item = response.meta["item"] # 获取当前商品的属性规格:颜色、版本、 size_list = response.xpath("//div[@id='J-TZM']/dl") for size in size_list: size_name = size.xpath("./dt/span/text()").extract_first() size_value = size.xpath("./dd/ul/li/@title").extract() item[size_name] = size_value print(item)
使用scrapy爬取suning的更多相关文章
- Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...
- 【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
- scrapy爬取西刺网站ip
# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class Xicispi ...
- scrapy爬取豆瓣电影top250
# -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class ...
- scrapy爬取极客学院全部课程
# -*- coding: utf-8 -*- # scrapy爬取极客学院全部课程 import scrapy from pyquery import PyQuery as pq from jike ...
- scrapy爬取全部知乎用户信息
# -*- coding: utf-8 -*- # scrapy爬取全部知乎用户信息 # 1:是否遵守robbots_txt协议改为False # 2: 加入爬取所需的headers: user-ag ...
- Scrapy爬取Ajax(异步加载)网页实例——简书付费连载
这两天学习了Scrapy爬虫框架的基本使用,练习的例子爬取的都是传统的直接加载完网页的内容,就想试试爬取用Ajax技术加载的网页. 这里以简书里的优选连载网页为例分享一下我的爬取过程. 网址为: ht ...
- Scrapy爬取静态页面
Scrapy爬取静态页面 安装Scrapy框架: Scrapy是python下一个非常有用的一个爬虫框架 Pycharm下: 搜索Scrapy库添加进项目即可 终端下: #python2 sudo p ...
- 用scrapy爬取京东的数据
本文目的是使用scrapy爬取京东上所有的手机数据,并将数据保存到MongoDB中. 一.项目介绍 主要目标 1.使用scrapy爬取京东上所有的手机数据 2.将爬取的数据存储到MongoDB 环境 ...
随机推荐
- C++ 的浅拷贝和深拷贝(结构体)
关于浅拷贝和深拷贝这个问题遇上的次数不多,这次遇上整理一下,先说这样一个问题,关于浅拷贝的问题,先从最简单的说起. 假设存在一个结构体: struct Student { string name; i ...
- A Refining Company LightOJ - 1036
A Refining Company LightOJ - 1036 描述好长啊... 题意:在m*n的矩阵上,每一格摆一个向上或者向左的传送带(不能同时摆,只能摆一个).同时,每一格有两种物资Uran ...
- adb shell getprop,setprop,watchprops更改,查看,监听系统属性
1.简介 每个属性都有一个名称和值,他们都是字符串格式.属性被大量使用在Android系统中,用来记录系统设置或进程之间的信息交换.属性是在整个系统中全局可见的.每个进程可以get/set属性. 在 ...
- String 截取字符串#中间的文本
通过正则实现: String regex = "#([^#]+)#"; @Test public void test() { String text = "#中俄建交七十 ...
- EditText输入手机号自动带空格
xml: <EditText android:id="@+id/edit_main" android:layout_width="match_parent" ...
- FileZilla Server 端设置passive模式注意事项
1,需求和问题的产生 实践中需要分布在各地的各个客户端向云端服务器上传文件,因此在阿里云服务器上安装了FileZilla Server软件作为文件FTP服务端. 客户端程序采用FTP方式向服务端传输文 ...
- html调用js提示方法名 is not defined处理方法
解决办法(方法名 is not defined): dosave=function(){ alert("方法名在前"); } 下面这种写法有时候会出现错误: function do ...
- PHP一句话后门过狗姿势万千之理论篇
写在前面: 过狗相关的资料网上也是有很多,所以在我接下来的文章中,可能观点或者举例可能会与网上部分雷同,或者表述不够全面. 但是我只能说,我所传达给大家的信息,是我目前所掌握或者了解的,不能保证所有人 ...
- 数据库管理系统X
大部分DBMS提供数据定义语言DDL(Data Definition Language)和数据操作语言DML(Data Manipulation Language),供用户定义数据库的模式结构与权限约 ...
- Java中类,对象,方法的内存分配
Java中类,对象,方法的内存分配 以下针对引用数据类型: 在内存中,类是静态的概念,它存在于内存中的CodeSegment中. 当我们使用new关键字生成对象时,JVM根据类的代码,去堆内存中开辟一 ...