scrapy爬取阳光电影网全站资源

说一下我的爬取过程吧

第一步: 当然是 scrapy startproject + 名字新建爬虫项目

第二步: scrapy genspider -t crawl +爬虫名字+ 所爬取网站的域名 (-t crawl是全站爬虫)

第三步:

spider文件下的代码

import scrapy

import re

from scrapy.linkextractors import LinkExtractor  # 链接提取器

from scrapy.spiders import CrawlSpider, Rule  # 导入全站爬虫和采集规则

class Ygdy8Spider(CrawlSpider):

    name = 'ygdy8'  # 爬虫名字

    allowed_domains = ['www.ygdy8.com']  # 爬虫只在该域名下爬取数据

    start_urls = ['http://www.ygdy8.com/']  # 开始采集的网址

    # 采集规则集合

    rules = (

        # 具体采集的规则

        # allow 是选择出所有带有index的网址 allow是正则表达式 只要写你想提取的链接的一部分就可以了, deny是不允许提取的

        Rule(LinkExtractor(allow=r'index.html', deny='game')),

        # follow=true 意思是下一次提取的网页中如果包含我们需要提取的信息,是否还要继续提取,True代表继续提取

        Rule(LinkExtractor(allow=r'list_\d+_\d+.html'), follow=True),

        # 提取详情页信息 callback 回调函数, 将相应交给这个函数来处理

        Rule(LinkExtractor(allow=r'/\d+/\d+.html'), follow=True, callback='parse_item'),

    )

    # 解析采集回来的数据

    def parse_item(self, response):

        # 处理网页数据,提取下载链接

        # .*?代表提取除了换行以外的任何信息

        ftp_url = re.findall(r'<a href="(.*?)">ftp', response.text)

        name = re.findall(r'<title>(.*?)</title>', response.text)

        if ftp_url and name:

            items = {

                'name': name,

                'ftp_url': ftp_url

            }

        yield items

管道文件

import json

import os

import csv

class JsonPipeline(object):

    def __init__(self):

        self.file = open('阳光电影.json', 'w+', encoding='utf-8')

    def open_spider(self, spider):

        self.file.write('[')

    def process_item(self, item, spider):

        line = json.dumps(dict(item), ensure_ascii=False) + ",\n"

        self.file.write(line)

        return item

    def close_spider(self, spider):

        self.file.seek(-1, os.SEEK_END)

        self.file.truncate()

        self.file.write(']')

        self.file.close()

class CsvPipeline(object):

    def __init__(self):

        self.f = open("阳光电影.csv", "w", newline='')

        self.writer = csv.writer(self.f)

        self.writer.writerow(['name', 'ftp_url'])

    def process_item(self, item, spider):

        yangguang_list = [item['name'], item['ftp_url']]

        self.writer.writerow(yangguang_list)

        return item

settings

ITEM_PIPELINES = {

   'movie.pipelines.JsonPipeline': 300,

   'movie.pipelines.CsvPipeline': 300,

}

最后执行爬虫代码 scrapy crawl + 爬虫名字

scrapy爬取阳光电影网全站资源的更多相关文章

Python 2.7_First_try_爬取阳光电影网_20161206
之前看过用Scrapy 框架建立项目爬取网页解析时候用的Xpath进行解析的网页元素这次尝试用select方法匹配元素 1.入口爬取页面 http://www.ygdy8.com/index.ht ...
Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207
1.昨天文章http://www.cnblogs.com/Mr-Cxy/p/6139705.html 是获取电影网站主菜单然后获取每个菜单下的电影url 2.今天是对电影url 进行再次解析获取下 ...
scrapy爬取豆瓣电影top250
# -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class ...
使用 Scrapy 爬取去哪儿网景区信息
Scrapy 是一个使用 Python 语言开发,为了爬取网站数据,提取结构性数据而编写的应用框架,它用途广泛,比如:数据挖掘.监测和自动化测试.安装使用终端命令 pip install Scrapy ...
Python Scrapy 爬取煎蛋网妹子图实例（一）
前面介绍了爬虫框架的一个实例,那个比较简单,这里在介绍一个实例爬取煎蛋网妹子图,遗憾的是上周煎蛋网还有妹子图了,但是这周妹子图变成了随手拍, 不过没关系,我们爬图的目的是为了加强实战应用,管 ...
scrapy爬取猫眼电影排行榜
做爬虫的人,一定离不开的一个框架就是scrapy框架,写小项目的时候可以用requests模块就能得到结果,但是当爬取的数据量大的时候,就一定要用到框架. 下面先练练手,用scrapy写一个爬取猫眼电 ...
Python网络爬虫 | Scrapy爬取妹子图网站全站照片
根据现有的知识,写了一个下载妹子图(meizitu.com)Scrapy脚本,把全站两万多张照片下载到了本地. 网站的分析网页的网址分析打开网站,发现网页的网址都是以 http://www.mei ...
网络爬虫之scrapy爬取某招聘网手机APP发布信息
1 引言过段时间要开始找新工作了,爬取一些岗位信息来分析一下吧.目前主流的招聘网站包括前程无忧.智联.BOSS直聘.拉勾等等.有段时间时间没爬取手机APP了,这次写一个爬虫爬取前程无忧手机APP岗位 ...
scrapy爬取迅雷电影天堂最新电影ed2k
前言几天没用scrapy爬网站了,正好最近在刷电影,就想着把自己常用的一个电影分享网站给爬取下来保存到本地mongodb中项目开始第一步仍然是创建scrapy项目与spider文件切换到工作目 ...

随机推荐

Docker - 查看容器进程在宿主机的 PID
概述查看 docker 进程, 在容器外的 pid 背景 docker 中运行的进程, 本质上是运行在 host 上的这些进程, 在 host 上, 也可以有自己的 pid 如果某种情况下, 连不 ...
Cut Ribbon
Polycarpus has a ribbon, its length is n. He wants to cut the ribbon in a way that fulfils the follo ...
ubuntu 终端快捷方式汇总
terminal 是一个命令行终端,将启动系统默认的shell,shell是一个解释并执行在命令行提示符输入的命令的程序. 启动 terminal1 在 “面板主页” 的应用程序搜索栏中,输入命令gn ...
jenkins+maven配置findbugs+checkstyle+pmd
一.findbugs+checkstyle+pmd介绍工具目的检查项 FindBugs 检查.class 基于Bug Patterns概念,查找javabytecode(.class文件)中的潜 ...
hadoop之mr框架的源码理解注意点
1.reduce源码中的 GroupComparable和SecondaryComparable到底都是干什么的理解点1: 源码位置理解点 secondaryComparable这个是可以对map ...
SQL Server 用户定义表类型
用户定义表类型: CREATE TYPE [dbo].[TVP_Location] AS TABLE( [Location] [varchar](50) NOT NULL, [Address] [va ...
Docker - 容器的连接与退出
概述连接容器, 退出容器命令 run exec attach 退出选项 -i -t -d 1. docker run 概述 docker run 通常用来创建新容器 docker run 的三 ...
Maven - skiptest
1. 概述 maven install 中尝试跳过单元测试 2. 背景从别处找来的工程改了改发现测试过不了编译都过不了但又要着急继续调整就是懒这种事本来不提倡, 但是生产里数不胜数 Ma ...
排序：ORDER BY
1.按照字段值进行排序: 语法:order by 字段升序|降序 (asc|desc) 默认情况下为“升序” asc.asc=ascending 升 desc=descending 降 2.允许多字 ...
Linux下tail命令的使用方法
Linux下tail命令的使用方法: linux tail命令用途是依照要求将指定的文件的最后部分输出到标准设备,通常是终端,通俗讲来,就是把某个档案文件的最后几行显示到终端上,假设该档案有更新,ta ...

scrapy爬取阳光电影网全站资源

scrapy爬取阳光电影网全站资源的更多相关文章

随机推荐

热门专题