scrapy爬虫实例(1)

爬虫实例

对象阳光问政平台
目标 : 主题,时间,内容
爬取思路

预先设置好items

import scrapy

class SuperspiderItem(scrapy.Item):

    title = scrapy.Field()

    date = scrapy.Field()

    content = scrapy.Field()

爬取范围和start_url

class Spider1Spider(scrapy.Spider):

    name = 'spider1'

    allowed_domains = ['http://wz.sun0769.com/']

    start_urls = ['http://wz.sun0769.com/html/top/report.shtml']

parse实现三大大功能抓取具体内容url链接和下一页url链接,并提取title和date

    def parse(self, response):

        tr_list = response.xpath("//div[@class='newsHead clearfix']/table[2]//tr")

        for tr in tr_list:

            items = SuperspiderItem()

            items['title'] = tr.xpath("./td[3]/a[1]/@title").extract_first()  ##### 提取title  用xpath

            items['date'] = tr.xpath("./td[6]//text()").extract_first()    #### 同样的方法提取date

            content_href = tr.xpath("./td[3]/a[1]/@href").extract_first()   #### 提取内容链接

  ####---将提取的内容链接交给下一个函数,并将date和title也交给下一个函数最终数据统一处理---#########

  ####---有关yiled----####----content_url传url链接,callback指定回调函数----####

            yield scrapy.Request(

                content_href,

                callback=self.get_content,

     ####----meta-可以将数据转移----####

     ####----一个类字典的数据类型----####

                meta={

                    'date': items['date'],

                    'title': items['title']

                      }

            )

        new_url = response.xpath("//div[contains(@align,'center')]//@href").extract()

        print(new_url[-2])

        if "page="+str(page_num*30) not in new_url[-2]:

   ####---指明爬取的页数---####

            yield scrapy.Request(

                new_url[-2],

                callback=self.parse

            )

第二个函数

-汇集所有的函数并传给piplines

    def get_content(self, response):

        items = SuperspiderItem()

        items['date'] = response.meta['date']

        items['title'] = response.meta['title']

        items['content'] = response.xpath("//td[@class='txt16_3']/text()").extract_first()

        yield items

piplines里面并没做什么.因为没对数据进行什么处理,只是简单的将数据打印

class SuperspiderPipeline(object):

    def process_item(self, item, spider):

        items = item

        print('*'*100)

        print(items['date'])

        print(items['title'])

        print(items['content'])

完整代码

items里面的部分



import scrapy

class SuperspiderItem(scrapy.Item):

    title = scrapy.Field()

    date = scrapy.Field()

    content = scrapy.Field()

spider代码

# -*- coding: utf-8 -*-

import scrapy

from superspider.items import SuperspiderItem

page_num = 3

class Spider1Spider(scrapy.Spider):

    name = 'spider1'

    allowed_domains = ['wz.sun0769.com']

    start_urls = ['http://wz.sun0769.com/html/top/report.shtml']

    def parse(self, response):

        tr_list = response.xpath("//div[@class='newsHead clearfix']/table[2]//tr")

        for tr in tr_list:

            items = SuperspiderItem()

            items['title'] = tr.xpath("./td[3]/a[1]/@title").extract_first()

            items['date'] = tr.xpath("./td[6]//text()").extract_first()

            content_href = tr.xpath("./td[3]/a[1]/@href").extract_first()

            yield scrapy.Request(

                content_href,

                callback=self.get_content,

                meta={

                    'date': items['date'],

                    'title': items['title']

                      }

            )

        new_url = response.xpath("//div[contains(@align,'center')]//@href").extract()

        print(new_url[-2])

        if "page="+str(page_num*30) not in new_url[-2]:

            yield scrapy.Request(

                new_url[-2],

                callback=self.parse

            )

    def get_content(self, response):

        items = SuperspiderItem()

        items['date'] = response.meta['date']

        items['title'] = response.meta['title']

        items['content'] = response.xpath("//td[@class='txt16_3']/text()").extract_first()

        yield items

piplines代码

class SuperspiderPipeline(object):

    def process_item(self, item, spider):

        items = item

        print('*'*100)

        print(items['date'])

        print(items['title'])

        print(items['content'])

中间遇到的问题

爬取范围写错而日志等级又设置为warning,导致找不出问题
yield相关内容不清楚
要先导入并初始化一个SuperspiderItem()(加括号)
piplines中不需要导入SuperspiderItem()
extract()忘写
xpath://div[contains(@align,'center')注意写法
- 找到一篇xpath定位的博文

scrapy爬虫实例(1)的更多相关文章

简单scrapy爬虫实例
简单scrapy爬虫实例流程分析抓取内容:网站课程页面:https://edu.hellobi.com 数据:课程名.课程链接及学习人数观察页面url变化规律以及页面源代码帮助我们获取所有数据 ...
Scrapy爬虫实例——校花网
学习爬虫有一段时间了,今天使用Scrapy框架将校花网的图片爬取到本地.Scrapy爬虫框架相对于使用requests库进行网页的爬取,拥有更高的性能. Scrapy官方定义:Scrapy是用于抓取网 ...
Scrapy爬虫实例教程（二）---数据存入MySQL
书接上回实例教程(一) 本文将详细描述使用scrapy爬去左岸读书所有文章并存入本地MySql数据库中,文中所有操作都是建立在scrapy已经配置完毕,并且系统中已经安装了Mysql数据库(有权限操 ...
Scrapy 爬虫实例教程（一）---简介及资源列表
Scrapy(官网 http://scrapy.org/)是一款功能强大的,用户可定制的网络爬虫软件包.其官方描述称:" Scrapy is a fast high-level screen ...
python scrapy 爬虫实例
1 创建一个项目 scrapy startproject basicbudejie 2 编写爬虫 import scrapy class Basicbudejie(scrapy.Spider): na ...
Python Scrapy 爬虫框架实例（一）
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
Python Scrapy 爬虫框架实例
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
转：Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）
Scrapy在window上的安装教程见下面的链接:Scrapy安装教程上述安装教程已实践,可行.(本来打算在ubuntu上安装Scrapy的,但是Ubuntu 磁盘空间太少了,还没扩展磁盘空间,所 ...
Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）
Scrapy在window上的安装教程见下面的链接:Scrapy安装教程上述安装教程已实践,可行.(本来打算在ubuntu上安装Scrapy的,但是Ubuntu 磁盘空间太少了,还没扩展磁盘空间,所 ...

随机推荐

从零搭建一个SpringCloud项目之Feign搭建
从零搭建一个SpringCloud项目之Feign搭建工程简述目的:实现trade服务通过feign调用user服务的功能.因为trade服务会用到user里的一些类和接口,所以抽出了其他服务需要 ...
TCP漫谈之keepalive和time_wait
TCP是一个有状态通讯协议,所谓的有状态是指通信过程中通信的双方各自维护连接的状态. 一.TCP keepalive 先简单回顾一下TCP连接建立和断开的整个过程.(这里主要考虑主流程,关于丢包.拥塞 ...
eclipse项目导入和导出
导入导出过程这里推荐一下一篇他人的文章: https://blog.csdn.net/qq_41937388/article/details/87073572 注意: 1.导入第3步中,如果你的项目已 ...
Java反射中getDeclaredField和getField的区别
getDeclaredField是可以获取一个类的所有字段. getField只能获取类的public 字段. public Field getDeclaredField(String name) t ...
vue技术栈进阶（02.路由详解—基础）
路由详解(一)--基础: 1)router-link和router-view组件 2)路由配置 3)JS操作路由
go 基本包
像 fmt.os 等这样具有常用功能的内置包在 Go 语言中有 150 个以上,它们被称为标准库,大部分(一些底层的除外)内置于 Go 本身 unsafe: 包含了一些打破 Go 语言“类型安全”的命 ...
python 函数--生成器
一.生成器函数: 常规定义函数,使用yield语句而不是return语句返回结果.yield语句一次返回一个结果. 好处在于,不会一下占用很多内存生成数据. 本质:就是一个迭代器. python中提供 ...
34.4 对象流 ObjectOutputStream ObjectInputStream
* 对象操作流:可以用于读写任意类型的对象 * ObjectOutputStream * writeObject * ObjectOutputStream(OutputStream out) * Ob ...
Python Requests-学习笔记(2)
你也许经常想为URL的查询字符串(query string)传递某种数据.如果你是手工构建URL, 那么数据会以键/值对的形式置于URL中,跟在一个问号的后面.例如,httpbin.org/get? ...
logger日志级别
Level 描述 ALL 各级包括自定义级别 DEBUG 指定细粒度信息事件是最有用的应用程序调试 ERROR 错误事件可能仍然允许应用程序继续运行 FATAL 指定非常严重的错误事件,这可能导致应用 ...

scrapy爬虫实例(1)

爬虫实例

完整代码

中间遇到的问题

scrapy爬虫实例(1)的更多相关文章

随机推荐

热门专题