scrapy爬取豆瓣电影top250

# -*- coding: utf-8 -*-

# scrapy爬取豆瓣电影top250

import scrapy

from douban.items import DoubanItem

class DoubanspiderSpider(scrapy.Spider):

    name = "doubanspider"

    # allowed_domains = ["movie.douban.com/top250"]注意这里的主页限制,一旦翻页可能超出范围

    start_urls = ['http://movie.douban.com/top250']

    def parse(self, response):

        item = DoubanItem()

        for each in response.css('.article .grid_view li'):

            # 电影名称

            title = each.css('.item .hd .title:nth-child(1)::text').extract_first()

            # 导演

            dire_actor = each.css('.item .bd p::text').extract()[0].strip()

            director = dire_actor.split('\xa0\xa0\xa0')[0].strip()

            # 演员

            actor = dire_actor.split('\xa0\xa0\xa0')[1].strip()

            # 年代

            info = each.css('.item .bd p::text').extract()[1].strip()

            year = info.split('/')[0].strip()

            # 国家

            country = info.split('/')[1].strip()

            # 类型

            type = info.split('/')[2].strip()

            # 评分

            rating_num = each.css('.item .bd .star .rating_num::text').extract_first()

            # 经典台词

            quote = each.css('.item .bd .quote span::text').extract_first()

            # 海报

            image = each.css('.item .pic a img::attr(src)').extract_first()

            item['title'] = title

            item['director'] = director

            item['actor'] = actor

            item['year'] = year

            item['country'] = country

            item['type'] = type

            item['rating_num'] = rating_num

            item['quote'] = quote

            item['image'] = image

            yield item

        # 构造下一页的请求

        next = response.css('.paginator .next a::attr(href)').extract_first()

        if next:

            url = 'http://movie.douban.com/top250' + next

            print(url)

            yield scrapy.Request(url=url, callback=self.parse)

scrapy爬取豆瓣电影top250的更多相关文章

Scrapy爬取豆瓣电影top250的电影数据、海报，MySQL存储
从GitHub得到完整项目(https://github.com/daleyzou/douban.git) 1.成果展示数据库本地海报图片 2.环境 (1)已安装Scrapy的Pycharm (2 ...
Scrapy中用xpath/css爬取豆瓣电影Top250：解决403HTTP status code is not handled or not allowed
好吧,我又开始折腾豆瓣电影top250了,只是想试试各种方法,看看哪一种的方法效率是最好的,一直进行到这一步才知道 scrapy的强大,尤其是和selector结合之后,速度飞起.... 下面我就采用 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...
python2.7爬取豆瓣电影top250并写入到TXT，Excel，MySQL数据库
python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务爬取豆瓣电影top250 以txt文件保存以Excel文档保存将数据录入数据库 2.分析电影 ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
python 爬虫&爬取豆瓣电影top250
爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml impor ...
【转】爬取豆瓣电影top250提取电影分类进行数据分析
一.爬取网页,获取需要内容我们今天要爬取的是豆瓣电影top250页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入主题吧! 知道我们需要的内容在哪里了, ...
Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...

随机推荐

angular的$scope的使用
1. 可以在scope中直接使用 // 监听日期变化 $scope.$watch('vaFilter.startEffectiveDate', function(newDate, oldDate, s ...
Mycat 配置说明（server.xml)
server.xml 几乎保存了所有mycat需要的系统配置信息,包括 mycat 用户管理.DML权限管理等,其在代码内直接的映射类为SystemConfig 类. user 标签该标签主要用于定 ...
[机器学习Lesson 2]代价函数之线性回归算法
本章内容主要是介绍:单变量线性回归算法(Linear regression with one variable) 1. 线性回归算法(linear regression) 1.1 预测房屋价格该问题 ...
把文件每隔三行合并成一行（awk之RS、ORS与FS、OFS）
比如文本如下:123abc合并后的结果是:1 2 3a b c #.txt a b c awk之RS.ORS与FS.OFS 转自http://www.cnblogs.com/fhefh/archive ...
python（字符串操作）
一.字符串的局部替换 python 字符串替换可以用2种方法实现:1是用字符串本身的方法.2用正则来替换字符串下面用个例子来实验下:a = 'hello word'我把a字符串里的word替换为py ...
小程序之Tab切换
小程序越来越火了,作为一名,额有理想的攻城狮,当然要紧跟互联网时代的步伐啦,于是我赶紧抽时间学习了一下小程序的开发,顺便把经验分享给大家. 对于申请账号以及安装开发工具等,大家可以看官网:http ...
一周Maven框架学习随笔
第一次写博客,可能写得不是很好,但是希望自己持之以恒,以后会更好.也希望通过写博客记录随笔,让自己本身有所收获. 下面是今天的maven总结: maven个人理解中是Maven项目对象模型(POM), ...
JVM学习九：JVM之GC算法和种类
我们前面说到了JVM的常用的配置参数,其中就涉及了GC相关的知识,趁热打铁,我们今天就学习下GC的算法有哪些,种类又有哪些,让我们进一步的认识GC这个神奇的东西,帮助我们解决了C 一直挺头疼的内存回收 ...
2017年秋软工-领跑衫获奖感言&我最感谢的人
啥都不说,先上幅图.获得领跑衫,开心. 一.回忆这是我第二次来上恩师杨的软件工程,第一次是2016年春,那时候我还是本科三年级的学生.忘了第一次为啥去蹭课,印象中是我的榜样亮哥把我给忽悠过去的?我也 ...
IIS 错误代码
错误码: 1.HTTP 1xx-信息提示这些状态代码表示临时的响应.客户端在收到常规响应之前,应准备接收一个或多个1xx响应. 100-继续. 101-切换协议. 2xx-成功这类状态代码表明服务 ...

scrapy爬取豆瓣电影top250

scrapy爬取豆瓣电影top250的更多相关文章

随机推荐

热门专题