Scrapy爬虫案例 | 数据存储至MongoDB

要求：

1.爬取豆瓣top 250电影名字、演员列表、评分和简介

2.设置随机UserAgent和Proxy

3.爬取到的数据保存到MongoDB数据库

items.py

# -*- coding: utf-8 -*-

import scrapy

class DoubanItem(scrapy.Item):

    # define the fields for your item here like:

    # 标题

    title = scrapy.Field()

    # 信息

    bd = scrapy.Field()

    # 评分

    star = scrapy.Field()

    # 简介

    quote = scrapy.Field()

doubanmovie.py

# -*- coding: utf-8 -*-

import scrapy

from douban.items import DoubanItem

class DoubamovieSpider(scrapy.Spider):

    name = "doubanmovie"

    allowed_domains = ["movie.douban.com"]

    offset = 0

    url = "https://movie.douban.com/top250?start="

    start_urls = (

            url+str(offset),

    )

    def parse(self, response):

        item = DoubanItem()

        movies = response.xpath("//div[@class='info']")

        for each in movies:

            # 标题

            item['title'] = each.xpath(".//span[@class='title'][1]/text()").extract()[0]

            # 信息

            item['bd'] = each.xpath(".//div[@class='bd']/p/text()").extract()[0]

            # 评分

            item['star'] = each.xpath(".//div[@class='star']/span[@class='rating_num']/text()").extract()[0]

            # 简介

            quote = each.xpath(".//p[@class='quote']/span/text()").extract()

            if len(quote) != 0:

                item['quote'] = quote[0]

            yield item

        if self.offset < 225:

            self.offset += 25

            yield scrapy.Request(self.url + str(self.offset), callback = self.parse)

pipelines.py

# -*- coding: utf-8 -*-

import pymongo

from scrapy.conf import settings

class DoubanPipeline(object):

    def __init__(self):

        host = settings["MONGODB_HOST"]

        port = settings["MONGODB_PORT"]

        dbname = settings["MONGODB_DBNAME"]

        sheetname= settings["MONGODB_SHEETNAME"]

        # 创建MONGODB数据库链接

        client = pymongo.MongoClient(host = host, port = port)

        # 指定数据库

        mydb = client[dbname]

        # 存放数据的数据库表名

        self.sheet = mydb[sheetname]

    def process_item(self, item, spider):

        data = dict(item)

        self.sheet.insert(data)

        return item

settings.py

DOWNLOAD_DELAY = 2.5

COOKIES_ENABLED = False

DOWNLOADER_MIDDLEWARES = {

    'douban.middlewares.RandomUserAgent': 100,

    'douban.middlewares.RandomProxy': 200,

}

USER_AGENTS = [

    'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)',

    'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2)',

    'Opera/9.27 (Windows NT 5.2; U; zh-cn)',

    'Opera/8.0 (Macintosh; PPC Mac OS X; U; en)',

    'Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0',

    'Mozilla/5.0 (Linux; U; Android 4.0.3; zh-cn; M032 Build/IML74K) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30',

    'Mozilla/5.0 (Windows; U; Windows NT 5.2) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.2.149.27 Safari/525.13'

]

PROXIES = [

        {"ip_port" :"121.42.140.113:16816", "user_passwd" : "****"},

        #{"ip_prot" :"121.42.140.113:16816", "user_passwd" : ""}

        #{"ip_prot" :"121.42.140.113:16816", "user_passwd" : ""}

        #{"ip_prot" :"121.42.140.113:16816", "user_passwd" : ""}

]

ITEM_PIPELINES = {

    'douban.pipelines.DoubanPipeline': 300,

}

# MONGODB 主机名

MONGODB_HOST = "127.0.0.1"

# MONGODB 端口号

MONGODB_PORT = 27017

# 数据库名称

MONGODB_DBNAME = "Douban"

# 存放数据的表名称

MONGODB_SHEETNAME = "doubanmovies"

middlewares.py

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import random

import base64

from settings import USER_AGENTS

from settings import PROXIES

# 随机的User-Agent

class RandomUserAgent(object):

    def process_request(self, request, spider):

        useragent = random.choice(USER_AGENTS)

        #print useragent

        request.headers.setdefault("User-Agent", useragent)

class RandomProxy(object):

    def process_request(self, request, spider):

        proxy = random.choice(PROXIES)

        if proxy['user_passwd'] is None:

            # 没有代理账户验证的代理使用方式

            request.meta['proxy'] = "http://" + proxy['ip_port']

        else:

            # 对账户密码进行base64编码转换

            base64_userpasswd = base64.b64encode(proxy['user_passwd'])

            # 对应到代理服务器的信令格式里

            request.headers['Proxy-Authorization'] = 'Basic ' + base64_userpasswd

            request.meta['proxy'] = "http://" + proxy['ip_port']

Scrapy爬虫案例 | 数据存储至MongoDB的更多相关文章

Scrapy爬虫案例 | 数据存储至MySQL
首先,MySQL创建好数据库和表然后编写各个模块 item.py import scrapy class JianliItem(scrapy.Item): name = scrapy.Field() ...
Python爬虫框架Scrapy实例（三）数据存储到MongoDB
Python爬虫框架Scrapy实例(三)数据存储到MongoDB任务目标:爬取豆瓣电影top250,将数据存储到MongoDB中. items.py文件复制代码# -*- coding: utf-8 ...
scrapy抓取拉勾网职位信息（七）——数据存储（MongoDB，Mysql，本地CSV）
上一篇完成了随机UA和随机代理的设置,让爬虫能更稳定的运行,本篇将爬取好的数据进行存储,包括本地文件,关系型数据库(以Mysql为例),非关系型数据库(以MongoDB为例). 实际上我们在编写爬虫r ...
Spring Boot 揭秘与实战（二）数据存储篇 - MongoDB
文章目录 1. 环境依赖 2. 数据源 2.1. 方案一使用 Spring Boot 默认配置 2.2. 方案二手动创建 3. 使用mongoTemplate操作4. 总结 3.1. 实体对象 3 ...
【18】如何把数据存储到MongoDB数据库
如何把数据存储到MongoDB数据库时间:2018.10.31 edit by :北鼻一.mongoDB环境安装需要使用mongoDB数据库的话需要安装环境, ...
python3下scrapy爬虫(第十一卷:scrapy数据存储进mongodb）
说起python爬虫数据存储就不得不说到mongodb,现在我们来试一下scrapy操作mongodb 首先开启mongodb mongod --dbpath=D:\mongodb\db 开启服务后就 ...
04 爬虫数据存储之Mongodb
MongoDB 认识MongoDB MongoDB是一个基于分布式文件存储的数据库.由C++语言编写.旨在为WEB应用提供可扩展的高性能数据存储解决方案.MongoDB是一个介于关系数据库和非关系数据 ...
selenium爬取NBA并将数据存储到MongoDB
from selenium import webdriver driver = webdriver.Chrome() url = 'https://www.basketball-reference.c ...
第十节：Web爬虫之数据存储与MySQL8.0数据库安装和数据插入
用解析器解析出数据之后,接下来就是存储数据了,保存的形式可以多种多样,最简单的形式是直接保存为文本文件,如 TXT.JSON.csv 另外,还可以保存到数据库中,如关系型数据库MySQL ,非关系型数 ...

随机推荐

Scala2.12 从入门到精通实战高端视频课程（含网盘下载地址）
Scala快速入门到精通下载地址链接:https://pan.baidu.com/s/1bTSZSlWftFYaLQL6lVH62A 提取码:ohfk 下载后使用视频中自带的专用播放器打开视频就能看 ...
MySQL5.6.17 绿色版安装配置
安装篇: 下载完成之后,用解压工具解压到没有中文.空格的文件夹下,解压后的显示如图: 个人建议把解压后的文件夹重命名,如果有中文去掉中文,便于自己理解使用,如图: 打开重命名之后的文件夹,找到mysq ...
rest-spring-boot-starter
rest-spring-boot-starter 基于spring boot,统一业务异常处理,统一返回格式包装依赖 <dependency> <groupId>tk.fis ...
2019 滴滴java面试笔试总结（含面试题解析）
本人5年开发经验.18年年底开始跑路找工作,在互联网寒冬下成功拿到阿里巴巴.今日头条.滴滴等公司offer,岗位是Java后端开发,因为发展原因最终选择去了滴滴,入职一年时间了,也成为了面试官, ...
Java自学-接口与继承默认方法
默认方法步骤 1 : 什么是默认方法默认方法是JDK8新特性,指的是接口也可以提供具体方法了,而不像以前,只能提供抽象方法 Mortal 这个接口,增加了一个默认方法 revive,这个方法有实现 ...
FullCalendar日历插件说明文档（看到这篇手册，解决了困扰我3天的js问题）
FullCalendar提供了丰富的属性设置和方法调用,开发者可以根据FullCalendar提供的API快速完成一个日历日程的开发,本文将FullCalendar的常用属性和方法.回调函数等整理成中 ...
【Kafka】Exactly Once语义与事务
Kafka在0.11.0.0之前的版本中只支持At Least Once和At Most Once语义,尚不支持Exactly Once语义. 但是在很多要求严格的场景下,如使用Kafka处理交易数据 ...
Django:RestFramework之-------版本控制
6.版本控制从URL通过get传参获取版本. 6.1自定义版本控制 from rest_framework.views import APIView class ParamVersion(objec ...
网址URL分解
http://www.joymood.cn:8080/test.php?user=admin&pwd=admin#login 1.location.href:得到整个如上的完整url 2.lo ...
IOS 微信、QQ、叮叮等APP虚拟定位实在太好用了
前不久爱思助手更新了最新版本:V7.96,同时更新了好几个功能,包括给ios设备修改虚拟定位功能,想要给手机修改,我们需要电脑下载爱思助手最新版本V7.96,数据线连接电脑修改. 借助爱思助手的虚拟定 ...

Scrapy爬虫案例 | 数据存储至MongoDB

Scrapy爬虫案例 | 数据存储至MongoDB的更多相关文章

随机推荐

热门专题