scrapy爬取中关村在线手机频道

 # -*- coding: utf-8 -*-

 import scrapy

 from pyquery import PyQuery as pq

 from zolphone.items import ZolphoneItem

 class PhoneSpider(scrapy.Spider):

     name = "phone"

     # allowed_domains = ["www.zol.com.cn"]

     # start_url = 'http://detail.zol.com.cn/cell_phone_index/subcate57_0_list_1_0_1_1_0_1.html'

     start_url = 'http://detail.zol.com.cn/cell_phone_index/subcate57_0_list_1_0_1_1_0_'

     def start_requests(self):

         for page in range(1, 209):

             url = self.start_url + str(page) + '.html'

             yield scrapy.Request(url,callback=self.parse_index)

     def parse_index(self, response):

         base_url = 'http://detail.zol.com.cn'

         doc = pq(response.text)

         lis = doc('.list-box .list-item').items()

         for result in lis:

             detail_url = base_url + result.find('.pro-intro h3 a').attr('href')

             yield scrapy.Request(url=detail_url, callback=self.parse_detail)

     def parse_detail(self,response):

         doc = pq(response.text)

         title1 = response.css('.page-title h1::text').extract_first()

         title2 = doc('.page-title h2').text()

         price = doc('.product-price .price-type').text()

         release_time = doc('.section div h3 .showdate').text()

         print(title1, title2, price, release_time)

         item = ZolphoneItem()

         item['title1'] = title1

         item['title2'] = title2

         item['price'] = price

         item['release_time'] = release_time

         yield item

 import scrapy

 class ZolphoneItem(scrapy.Item):

     # define the fields for your item here like:

     # name = scrapy.Field()

     title1 = scrapy.Field()

     title2 = scrapy.Field()

     price = scrapy.Field()

     release_time = scrapy.Field()

scrapy爬取中关村在线手机频道的更多相关文章

爬虫实战——Scrapy爬取伯乐在线所有文章
Scrapy简单介绍及爬取伯乐在线所有文章一.简说安装相关环境及依赖包 1.安装Python(2或3都行,我这里用的是3) 2.虚拟环境搭建: 依赖包:virtualenv,virtualenvwr ...
Scrapy爬取伯乐在线的所有文章
本篇文章将从搭建虚拟环境开始,爬取伯乐在线上的所有文章的数据. 搭建虚拟环境之前需要配置环境变量,该环境变量的变量值为虚拟环境的存放目录 1. 配置环境变量 2.创建虚拟环境用mkvirtualen ...
Scrapy基础(六)————Scrapy爬取伯乐在线一通过css和xpath解析文章字段
上次我们介绍了scrapy的安装和加入debug的main文件,这次重要介绍创建的爬虫的基本爬取有用信息通过命令(这篇博文)创建了jobbole这个爬虫,并且生成了jobbole.py这个文件,又写 ...
使用scrapy爬取海外网学习频道
一:创建项目文件 1:首先在终端使用命令scrapy startproject huaerjieribao 创建项目 2:创建spider 首先cd进去刚刚创建的项目文件overseas 然后执行ge ...
Scrapy爬取伯乐在线文章
首先搭建虚拟环境,创建工程 scrapy startproject ArticleSpider cd ArticleSpider scrapy genspider jobbole blog.jobbo ...
scrapy爬取伯乐在线文章数据
创建项目切换到ArticleSpider目录下创建爬虫文件设置settings.py爬虫协议为False 编写启动爬虫文件main.py
Scrapy框架爬虫初探——中关村在线手机参数数据爬取
关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践.作为硬件数码控,我选择了经常光顾的中关村在线的手机页面 ...
python爬虫scrapy框架——爬取伯乐在线网站文章
一.前言 1. scrapy依赖包: 二.创建工程 1. 创建scrapy工程: scrapy staratproject ArticleSpider 2. 开始(创建)新的爬虫: cd Artic ...
一文搞定scrapy爬取众多知名技术博客文章保存到本地数据库，包含：cnblog、csdn、51cto、itpub、jobbole、oschina等
本文旨在通过爬取一系列博客网站技术文章的实践,介绍一下scrapy这个python语言中强大的整站爬虫框架的使用.各位童鞋可不要用来干坏事哦,这些技术博客平台也是为了让我们大家更方便的交流.学习.提高 ...

随机推荐

react开发
webpack.config.js var webpack=require("webpack"); var htmlWebpackPlugin=require('html-webp ...
【数据库】mysql数据库索引
文章归属:http://feiyan.info/16.html,我想自己去写了,但是发现此君总结的非常详细.直接搬过来了关于MySQL索引的好处,如果正确合理设计并且使用索引的MySQL是一辆兰博基 ...
【Python】excel读写操作 xlrd & xlwt
xlrd ■ xlrd xlrd模块用于读取excel文件内容基本用法: workbook = xlrd.open_workbook('文件路径') workbook.sheet_names() # ...
Mysql的执行计划各个参数详细说明
执行计划各个参数的说明 1.id 主要是用来标识sql的执行顺序,如果没有子查询,一般来说id只有一个,执行顺序也是从上到下 2.select_type 每个select子句的类型 a: simpl ...
RabbitMQ 通信过程
Rabbit MQ的通信过程 MQ全称为Message Queue, 是一种分布式应用程序的的通信方法,是消费-生产者模型的典型的代表,producer往消息队列中不断写入消息,而另一端consume ...
Tomcat服务器的常用配置
1.如何修改端口号, tomcat启动后经常会报端口冲突, 怎么办如果部署在Linux环境下面, 首先使用netstat -apn命令检查是否是真的端口已经被占用了如果真的被占用,进入tomcat ...
Eclipse项目中web app libraries和 Referenced Libraries区别
Referenced Libraries是编译环境下使用的JAR包,所谓编译环境下使用的JAR包, 就是说你在Eclipse中进行源文件的编写的时候,所需要引用到的类都从Referenced Li ...
java————面向对象概念
面向对象 OO:面向对象 OOP:面向对象编程 OOA:面向对象分析 OOD:面向对象设计面向对象的特征继承,封装,多态什么是对象? 对象是存在的具体实体,具有明确定义的特征和行为. 万物皆对象 ...
201621123057 《Java程序设计》第6周学习总结
1. 本周学习总结 1.1 面向对象学习暂告一段落,请使用思维导图,以封装.继承.多态为核心概念画一张思维导图或相关笔记,对面向对象思想进行一个总结. 注1:关键词与内容不求多,但概念之间的联系要清晰 ...
python functools.lru_cache做备忘功能
import time import functools def clock(func): @functools.wraps(func)#还原被装饰函数的__name__和__doc__属性 def ...

scrapy爬取中关村在线手机频道

scrapy爬取中关村在线手机频道的更多相关文章

随机推荐

热门专题