scrapy入门例子

使用爬取http://quotes.toscrape.com/内容，网站内容很简单

一. 使用scrapy创建项目

scrapy startproject myscrapy1

scrapy genspider quotes

二. 修改items.py和quotes.py

items.py用来保存爬取的数据，和字典的使用方法一样

import scrapy

class Myscrapy1Item(scrapy.Item):

    # define the fields for your item here like:

    text = scrapy.Field()

    author = scrapy.Field()

    tags = scrapy.Field()

网页源文件中只需提取上面定义的3个字段

quotes.py

其中的parse函数负责解析start_urls返回的响应，提取数据以及进一步生成要处理的请求

# -*- coding: utf- -*-

import scrapy

from myscrapy1.items import Myscrapy1Item

class QuotesSpider(scrapy.Spider):

    name = 'quotes'

    allowed_domains = ['quotes.toscrape.com']

    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):

        quotes = response.css('.quote')

        for quote in quotes:

            item = Myscrapy1Item()

            item['text'] = quote.css('.text::text').extract_first()

            item['author'] = quote.css('.author::text').extract_first()

            item['tags'] = quote.css('.tags .tag::text').extract()

            yield item

        #获取多页内容

        next = response.css('.pager .next a::attr("href")').extract_first()

        url = response.url.join(next) #生成绝对URL

        yield scrapy.Request(url=url, callback=self.parse) #构造请求时需要用scrapy.Request

二. 将数据保存到mongodb，以及把得到的数据限制显示50位，剩余的用省略号代替，这里需要设置settings.py和pipelines.py

settings.py

# -*- coding: utf- -*-

BOT_NAME = 'tutorial'

SPIDER_MODULES = ['tutorial.spiders']

NEWSPIDER_MODULE = 'tutorial.spiders'

#让pipelines.py中的2个自定义类生效,序号越小优先级越高

ITEM_PIPELINES = {

    'tutorial.pipelines.TextPipeline': ,

    'tutorial.pipelines.MongoPipeline': ,

}

MONGO_URI='localhost'

MONGO_DB='tutorial'

# Obey robots.txt rules
ROBOTSTXT_OBEY = True

pipelines.py

# -*- coding: utf- -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

# 文本太长，限制最长为50，后面用省略号代替

from scrapy.exceptions import DropItem

import pymongo

class TextPipeline(object):

    def __init__(self):

        self.limit = 

    def process_item(self, item, spider):

        if item['text']:

            if len(item['text']) > self.limit:

                item['text'] = item['text'][:self.limit].rstrip() + '...'

            return item

        else:

            return DropItem('Missing Text') #文本不存在，抛出异常MISSING TEXT

# 保存到mongodb

class MongoPipeline(object):

    def __init__(self,mongo_uri, mongo_db):

        self.mongo_uri = mongo_uri

        self.mongo_db = mongo_db

    #从setting.py中拿到配置信息

    @classmethod

    def from_crawler(cls, crawler):

        return cls(

            mongo_uri=crawler.settings.get('MONGO_URI'),

            mongo_db=crawler.settings.get('MONGO_DB')

        )

    def open_spider(self, spider):

        self.client = pymongo.MongoClient(self.mongo_uri)

        self.db = self.client[self.mongo_db]

    def process_item(self, item, spider):

        name = item.__class__.__name__ #其实值就是quotes

        self.db[name].insert(dict(item))

        return item

    def close_spider(self, spider):

        self.client.close()

三. 常用的几个命令

.创建一个爬虫项目

scrapy startproject test1

. 生成一个爬虫文件

scrapy genspider baidu www.baidu.com

scrapy genspider -l :显示爬虫模板类型

例如：指定生成一个crawl 模板类型的爬虫文件

scrapy genspider -t crawl zhihu www.zhihu.com

. 运行爬虫程序

scrapy crawl zhihu

. 检查代码是否有错误

scrapy check

. 返回项目中所有spider名称

scrapy list

. 爬取内容保存到文件

scrapy crawl zhihu -o zhihu.json

scrapy入门例子的更多相关文章

[转]Scrapy入门教程
关键字:scrapy 入门教程爬虫 Spider 作者:http://www.cnblogs.com/txw1958/ 出处:http://www.cnblogs.com/txw1958/archi ...
Scrapy入门教程
关键字:scrapy 入门教程爬虫 Spider作者:http://www.cnblogs.com/txw1958/出处:http://www.cnblogs.com/txw1958/archive ...
Scrapy入门教程(转)
关键字:scrapy 入门教程爬虫 Spider作者:http://www.cnblogs.com/txw1958/出处:http://www.cnblogs.com/txw1958/archive ...
小白学 Python 爬虫（35）：爬虫框架 Scrapy 入门基础（三） Selector 选择器
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
【Bootstrap Demo】入门例子创建
本文简单介绍下如何来使用 Bootstrap,通过引入 Bootstrap,来实现一个最基本的入门例子. 在前一篇博文[Bootstrap]1.初识Bootstrap 基础之上,我们完全可以更加方便快 ...
【Bootstrap】入门例子创建
本文简单介绍下如何来使用 Bootstrap,通过引入 Bootstrap,来实现一个最基本的入门例子. 在前一篇博文[Bootstrap]1.初识Bootstrap 基础之上,我们完全可以更加方便快 ...
spring boot入门例子
最近学习spring boot,总结一下入门的的基础知识 1新建maven项目,修改pom.xml <project xmlns="http://maven.apache.org/PO ...
MINA经典入门例子----Time Server
原文地址 http://blog.sina.com.cn/s/blog_720bdf0501010b8r.html 貌似java的IO.NIO的入门例子都有相关的Time Server Demo.本例 ...
一个简单的iBatis入门例子
一个简单的iBatis入门例子,用ORACLE和Java测试目录结构: 1.导入iBatis和oracle驱动. 2.创建类Person.java package com.ibeats;import ...

随机推荐

Website蝴蝶结构
[Website蝴蝶结构] 网页的其正向链接连结在一起表现为一种蝴蝶结结构. 1.蝴蝶结中部(SCC, Strongly Connected Componnet) 这种网页彼此相连. 2.蝴蝶结左部( ...
shell中的字符串操作和数学运算
字符串操作变量赋值: 说明:变量值可以用单引号.双引号.或者不加任何引号来赋值给变量变量名="变量值" 变量名='变量值' 变量名=变量值例如:str="hel ...
c++ stringstream的使用
stringstream ss;//一次创建多次使用,需要进行clear()操作清除流状态标记 int i=0; while (i<3) { ss<<"21"; ...
[Selenium] Java代码获取，设置屏幕分辨率
import java.awt.Dimension; import java.awt.DisplayMode; import java.awt.GraphicsDevice; import java. ...
DataStage 一、安装
安装的详细信息记录于文档中,文档下载地址:http://pan.baidu.com/s/1pJCF9uN 密码: y2ry ;文档内容目录如下: DataStage 一.介绍和安装.......... ...
Web Api 中返回JSON的正确做法（转）
出处:http://www.cnblogs.com/acles/archive/2013/06/21/3147667.html 在使用Web Api的时候,有时候只想返回JSON:实现这一功能有多种方 ...
python sublime run快捷键设置
一.Ctrl+Shift+P进行插件“sublimeREPL”安装二.打开preferences->Key Binding-User,写入以下内容 [ { "keys": ...
五）Spring + Quartz 复杂业务的两个问题：获取Spring上下文和自动注入服务类
配置如下: <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http:// ...
（巴什博弈 sg函数入门1） Brave Game -- hdu -- 1846
链接: http://acm.hdu.edu.cn/showproblem.php?pid=1846 首先来玩个游戏,引用杭电课件上的: (1) 玩家:2人:(2) 道具:23张扑克牌:(3) 规则: ...
SqlerMonitor-复制
在复制系统中因为一些配置上失误和人为的失误操作导致复制堵塞,Sqler Monitor 新增加了分析复制延迟邮件,配合复制错误监控邮件和延迟邮件,和复制元数据采集可以在第一时间准确定位到问题,适合大 ...

scrapy入门例子

一. 使用scrapy创建项目

二. 修改items.py和quotes.py

items.py用来保存爬取的数据，和字典的使用方法一样

quotes.py

二. 将数据保存到mongodb，以及把得到的数据限制显示50位，剩余的用省略号代替，这里需要设置settings.py和pipelines.py

settings.py

pipelines.py

三. 常用的几个命令

scrapy入门例子的更多相关文章

随机推荐

热门专题