我们都知道scrapy适合爬取大量的网站信息,爬取到的信息储存到数据库显然需要更高的效率,scrapy配合mongodb是非常合适的,这里记录一下如何在scrapy中配置mongodb。

文件结构

  1. $ scrapy startproject myscrapy

当我们创建一个scrapy工程的时候,scrapy会自动给我们创建目录结构,像下面这样:

  1. ├── scrapy.cfg
  2. └── myscrapy
  3. ├── __init__.py
  4. ├── items.py
  5. ├── pipelines.py
  6. ├── settings.py
  7. └── spiders
  8. └── __init__.py

提取数据

items.py文件用于定义存储“容器”,用来存储将要抓取的数据。

MyscrapyItem()类继承自Item (文档),主要包含一些Scrapy已经为我们创建好的预定义对象:

  1. import scrapy
  2.  
  3. class MyscrapyItem(scrapy.Item):
  4. # define the fields for your item here like:
  5. # name = scrapy.Field()
  6. pass

添加一些想要收集的项。用户想要每条问题的标题和URL。那么,照这样更新items.py:

  1. from scrapy.item import Item, Field
  2.  
  3. class MyscrapyItem(Item):
  4. title = Field()
    url = Field()

创建蜘蛛

  1. $ scrapy genspider myspider baidu.com

这样,scrapy会为我们在spiders目录下生成一个myspider.py的文件

  1. import scrapy
    from myscrapy.items import MyscrapyItem # 导入我们的item类
  2.  
  3. class MyspiderSpider(scrapy.Spider):
  4. name = 'myspider'
  5. allowed_domains = ['baidu.com']
  6. start_urls = ['http://baidu.com/']
  7.  
  8. def parse(self, response):
    item = MyscrapyItem() # 实例化item类
  9. item['title'] = response.title # 此行为伪代码
    item['url] = response.url
    yield item # 这句会将item数据交给pipelines处理

最初一些变量的含义很容易理解(文档):

  • 定义蜘蛛的名字。
  • allowed_domains 包含构成许可域的基础URL,供蜘蛛去爬。
  • start_urls 是一个URL列表,蜘蛛从这里开始爬。蜘蛛从start_urls中的URL下载数据,所有后续的URL将从这些数据中获取。

抓取数据的伪代码已经写好了,接下来要将拿到的数据存储到数据库中

在MongoDB中存储数据

每当有一项返回,我们想验证数据,然后添加进一个Mongo集合。

第一步是创建一个我们计划用来保存所有抓取数据的数据库。打开settings.py,指定管道然后加入数据库设置:

  1. ITEM_PIPELINES = {
  2. 'myscrapy.pipelines.MyscrapyPipeline': 300,
  3. }
  4. MONGODB_SERVER = "localhost"
  5. MONGODB_PORT = 27017
  6. MONGODB_DB = "crawl"
  7. MONGODB_COLLECTION = "item" 

管道管理

我们建立了爬虫去抓取数据,而且已经设置了数据库配置。现在要在pipelines.py中通过一个管道连接两个部分。

连接数据库

首先,让我们定义一个函数去连接数据库:

  1. import pymongo
  2.  
  3. from scrapy.conf import settings
  4.  
  5. class MyscrapyPipeline(object):
  6. def __init__(self):
  7. connection = pymongo.Connection(
  8. settings['MONGODB_SERVER'],
  9. settings['MONGODB_PORT']
  10. )
  11. db = connection[settings['MONGODB_DB']]
  12. self.collection = db[settings['MONGODB_COLLECTION']]
  13.  
  14. def process_item(self, item, spider):
  15. return item

这里,我们创建一个类,MongoDBPipeline(),我们有一个构造函数初始化类,它定义Mongo的设置然后连接数据库。

处理数据

下一步,我们需要定义一个函数去处理被解析的数据:

  1. import pymongo
  2.  
  3. from scrapy.conf import settings
  4. from scrapy.exceptions import DropItem
  5. from scrapy import log
  6.  
  7. class MyscrapyPipeline(object):
  8. def __init__(self):
  9. connection = pymongo.Connection(
  10. settings['MONGODB_SERVER'],
  11. settings['MONGODB_PORT']
  12. )
  13. db = connection[settings['MONGODB_DB']]
  14. self.collection = db[settings['MONGODB_COLLECTION']]
  15.  
  16. def process_item(self, item, spider):
  17. valid = True
  18. for data in item:
  19. if not data:
  20. valid = False
  21. raise DropItem("Missing {0}!".format(data))
  22. if valid:
  23. self.collection.insert(dict(item)) # 将item解包后存入mongodb中
  24. log.msg("Question added to MongoDB database!",
  25. level=log.DEBUG, spider=spider)
  26. return item

现在可以运行我们的scrapy了!

在总的myscrapy目录下运行下面命令:

  1. $ $ scrapy crawl myscrapy

如果日志打印成功,可以去mongodb里找我们对应的数据库和集合,去查看数据。

scrapy+mongodb的更多相关文章

  1. python scrapy+Mongodb爬取蜻蜓FM,酷我及懒人听书

    1.初衷:想在网上批量下载点听书.脱口秀之类,资源匮乏,大家可以一试 2.技术:wireshark scrapy jsonMonogoDB 3.思路:wireshark分析移动APP返回的各种连接分类 ...

  2. scrapy Mongodb 储存

    pipelines.py # -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your ...

  3. scrapy+mongodb报错 TypeError: name must be an instance of str

    经过各种排查,最后找到原因,在settings文件中配置文件大小写写错了,在pipelines中 mongo_db=crawler.settings.get('MONGODB_DB'),get 获取的 ...

  4. 利用Scrapy爬取所有知乎用户详细信息并存至MongoDB

    欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者 :崔庆才 本节分享一下爬取知乎用户所有用户信息的 Scrapy 爬虫实战. 本节目标 本节要实现的内容有 ...

  5. scrapy微信爬虫使用总结

    scrapy+selenium+Chrome+微信公众号爬虫 概述 1.微信公众号爬虫思路: 参考:记一次微信公众号爬虫的经历 2.scrapy框架图 3.scrapy经典教程 参考: python ...

  6. 以豌豆荚为例,用 Scrapy 爬取分类多级页面

    本文转载自以下网站:以豌豆荚为例,用 Scrapy 爬取分类多级页面 https://www.makcyun.top/web_scraping_withpython17.html 需要学习的地方: 1 ...

  7. 爬虫框架Scrapy初步使用

    本文转载自: Scrapy 爬取并分析酷安 6000 款 App,找到良心佳软(抓取篇) https://www.makcyun.top/web_scraping_withpython10.html ...

  8. python爬虫框架scrapy 豆瓣实战

    Scrapy 官方介绍是 An open source and collaborative framework for extracting the data you need from websit ...

  9. python爬虫 | 一条高效的学习路径

    数据是创造和决策的原材料,高质量的数据都价值不菲.而利用爬虫,我们可以获取大量的价值数据,经分析可以发挥巨大的价值,比如: 豆瓣.知乎:爬取优质答案,筛选出各话题下热门内容,探索用户的舆论导向. 淘宝 ...

随机推荐

  1. 自定义的AdBlock过滤规则

    自定义的AdBlock过滤规则 # 屏蔽百度首页的广告流 www.baidu.com##DIV[id="u1"] www.baidu.com##DIV[id="qrcod ...

  2. Tarjan + bfs HYSBZ 1179Atm

    1179: [Apio2009]Atm Time Limit: 15 Sec  Memory Limit: 162 MBSubmit: 3250  Solved: 1346[Submit][Statu ...

  3. [Windows Hyper-V-Server]Enable or disable firewall rules under powershell / powershell下启用禁用防火墙规则

    http://www.cryer.co.uk/brian/windows/hyper-v-server/help_computer_cannot_be_managed.htm Enable COM+ ...

  4. 可变字符串类 StringBuilder

    string类创建的字符串是不可变的(同一内存中),每更改一次,就会新开辟内存,不利于高效频繁操作. 当频繁操作同一字符串变量时,建议使用StringBuilder. 可变字符串类StringBuil ...

  5. ORACLE创建表空间 新建用户 授权

    --建表空间create tablespace <用户> datafile 'D:\oradatadev\<用户>.dbf' size 200mautoextend on ne ...

  6. [源码分析]读写锁ReentrantReadWriteLock

    一.简介 读写锁. 读锁之间是共享的. 写锁是独占的. 首先声明一点: 我在分析源码的时候, 把jdk源码复制出来进行中文的注释, 有时还进行编译调试什么的, 为了避免和jdk原生的类混淆, 我在类前 ...

  7. 技术栈(technology stack)

    technology stack 技术栈: 产品实现上依赖的软件基础组件, 包括 1. 系统 2. 中间件 3. 数据库 4. 应用软件 5. 开发语言 6. 框架 https://en.wikipe ...

  8. XGBboost 特征评分的计算原理

    xgboost是基于GBDT原理进行改进的算法,效率高,并且可以进行并行化运算,而且可以在训练的过程中给出各个特征的评分,从而表明每个特征对模型训练的重要性, 调用的源码就不准备详述,本文主要侧重的是 ...

  9. Swift 4 关于Darwin这个Module

    大家在做app或者framework的时候经常会用到生成随机数的方法arc4random系列,或者取绝对值abs()等.所以我有一次好奇的想看看在Developer Document里 是怎么描述这些 ...

  10. 2018-2019-2 20165234 《网络对抗技术》 Exp5 MSF基础应用

    实验五 MSF基础应用 实验内容 本实践目标是掌握metasploit的基本应用方式,重点常用的三种攻击方式的思路.具体需要完成: 1.一个主动攻击实践,ms08_067(成功) 2. 一个针对浏览器 ...