1.目标

http://wz.sun0769.com/index.php/question/questionType?type=4&page=

爬取每个页面链接的内部内容和投诉信息

2.方法1：通过Spider爬取

# -*- coding: utf-8 -*-

import scrapy

from dongguanSpider.items import DongguanItem

class SunSpider(scrapy.Spider):

    name = 'sun'

    allowed_domains = ['wz.sun0769.com']

    url = 'http://wz.sun0769.com/index.php/question/questionType?type=4&page='

    offset = 0

    start_urls = [url + str(offset)]

    def parse(self, response):

        # 每一页的所有帖子的链接集合

        links = response.xpath('//div[@class="greyframe"]/table//td/a[@class="news14"]/@href').extract()

        # 迭代取出集合里的链接

        for link in links:

            # 提取列表里每个帖子的链接，发送请求并调用parse——item来处理

            yield scrapy.Request(link, callback=self.parse_item)

        # 页面终止条件成立前，会一直自增offset的值，并发送新的页面请求，调用parse方法处理

        if self.offset<=71160:

            self.offset +=30

            yield scrapy.Request(self.url + str(self.offset), callback=self.parse)

    def parse_item(self, response):

        item = DongguanItem()

        item['title'] = response.xpath('//div[@class="wzy1"]/table[1]//tr/td[2]/span[1]/text()').extract()[0].split('：')[-1]

        item['url'] = response.url

        item['number'] = response.xpath('//div[@class="wzy1"]/table[1]//tr/td[2]/span[2]/text()').extract()[0].split(':')[-1]

        # 是否是图片

        content_pic = response.xpath('//div[@class="textpic"]/img/@src').extract()

        if len(content_pic)==0:

            content_no_pic = response.xpath('//div[@class="wzy1"]/table[2]//tr/td/text()').extract()[0]

            item['content'] = "".join(content_no_pic).replace("\xa0", "")

        else:

            item['content'] = "".join(content_pic[0]).replace("\xa0", "")

        yield item

3. 通过CrawlSpider爬取

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from dongguan.items import DongguanItem

class SunSpider(CrawlSpider):

    name = 'sun'

    allowed_domains = ['wz.sun0769.com']

    start_urls = ['http://wz.sun0769.com/index.php/question/questionType?type=4&page=30']

    rules = [

        Rule(LinkExtractor(allow=('type=4&page=\d+'))),

        Rule(LinkExtractor(allow = ('/html/question/\d+/\d+.shtml')), callback = 'parseDongguan')

    ]

    def parseDongguan(self, response):

        item = DongguanItem()

        item['title'] = response.xpath('//div[@class="wzy1"]/table[1]//tr/td[2]/span[1]/text()').extract()[0].split('：')[-1]

        item['url'] = response.url

        item['number'] = response.xpath('//div[@class="wzy1"]/table[1]//tr/td[2]/span[2]/text()').extract()[0].split(':')[-1]

        # 是否是图片

        content_pic = response.xpath('//div[@class="textpic"]/img/@src').extract()

        if len(content_pic)==0:

            content_no_pic = response.xpath('//div[@class="wzy1"]/table[2]//tr/td/text()').extract()[0]

            item['content'] = "".join(content_no_pic).replace("\xa0", "")

        else:

            item['content'] = "".join(content_pic[0]).replace("\xa0", "")

        yield item

Scrapy框架-Spider和CrawlSpider的区别的更多相关文章

Scrapy框架中的CrawlSpider
小思考:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二: ...
Scrapy框架-Spider
目录 1. Spider 2.Scrapy源代码 2.1. Scrapy主要属性和方法 3.parse()方法的工作机制 1. Spider Spider类定义了如何爬取某个(或某些)网站.包括了爬取 ...
Scrapy框架-CrawlSpider
目录 1.CrawlSpider介绍 2.CrawlSpider源代码 3. LinkExtractors:提取Response中的链接 4. Rules 5.重写Tencent爬虫 6. Spide ...
Scrapy框架之CrawlSpider
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
python学习之-用scrapy框架来创建爬虫(spider)
scrapy简单说明 scrapy 为一个框架框架和第三方库的区别: 库可以直接拿来就用, 框架是用来运行,自动帮助开发人员做很多的事,我们只需要填写逻辑就好命令: 创建一个项目 : cd 到需 ...
16.Python网络爬虫之Scrapy框架（CrawlSpider）
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
全栈爬取-Scrapy框架(CrawlSpider)
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
Scrapy框架——CrawlSpider类爬虫案例
Scrapy--CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 此案例采用的是CrawlSpider类实现爬虫. 它是Spider的派生类,Spide ...

随机推荐

使用bat脚本永久激活Windows系统
每次重装完系统后,右下角会提示系统未激活,无法进行一些个性化设置. 在这里我自己写了一个bat脚本用于激活Windows系统.(仅供学习) 文件下载: 链接:https://pan.baidu.com ...
Python之路【第二篇】:Python基础
Python基础对于Python,一切事物都是对象,对象基于类创建所以,以下这些值都时对象:"zhurui".22.['北京','上海','深圳'],并且是根据不同的类生成的对 ...
关于项目中ajax 操作原生项目遇到的问题
单选框动态赋值 $('input[name=pszt][value='+val+']').attr("checked",true); 置顶的几种方式 window.scrollTo ...
两篇文章带你走入.NET Core 世界：Kestrel+Nginx+Supervisor 部署上云服务器（二）
背景: 上一篇:两篇文章带你走入.NET Core 世界:CentOS+Kestrel+Ngnix 虚拟机先走一遍(一) 已经交待了背景,这篇就省下背景了,这是第二篇文章了,看完就木有下篇了. 直接进 ...
利用requirejs实现vue的模块化开发
通常vue都是搭配webpack+vue-cli使用的如果不在nodejs环境下开发web应用呢? 这里提出一个解决方案: 1.加载requirejs,并且指定main函数 <script d ...
【机器学习】--LDA初始和应用
一.前述 LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息.它采用了词袋(bag of words)的方法 ...
ToastCustomUtil【简单的Toast封装类】【自定义Toast的显示风格】
版权声明:本文为HaiyuKing原创文章,转载请注明出处! 前言 ToastUtil + ToastCustom结合.主要解决低版本机型上系统toast显示不好看的问题. 效果图代码分析在Toa ...
学习笔记01（mybatis逆向工程）
今天来看看一个常用的小功能,就是mybatis的逆向工程.(数据库是mysql) 什么是逆向工程呢?看名字就知道反方向的一个什么工程! 其实啊,如果是平常我们自己学习实践一些小项目的时候,应该是先瞎写 ...
Python：黑板课爬虫闯关第四关
第四关地址:http://www.heibanke.com/lesson/crawler_ex03/ 一开始看到的时候有点蒙,不知道啥意思,说密码需要找出来但也没说怎么找啊. 别急,随便输了个昵称和密 ...
C# 委托链（多播委托）
委托既可以封装一个方法,又可以对同一类型的方法进行封装,它就是多播委托 using System; using System.Collections.Generic; using System.Lin ...

Scrapy框架-Spider和CrawlSpider的区别

1.目标

2.方法1：通过Spider爬取

3. 通过CrawlSpider爬取

Scrapy框架-Spider和CrawlSpider的区别的更多相关文章

随机推荐

热门专题