scrapy初体验

1. 构建scrapy项目

scrapy startproject ['项目名']

在spiders下生成文件

cd spiders

scrapy genspider douban_spider ['域名']

2. 明确目标

明确需要抓取哪些内容，在items.py中定义数据结构：

import scrapy

class DoubanItem(scrapy.Item):

    # 序号

    serial_number = scrapy.Field()

    # 电影名

    movie_name = scrapy.Field()

    # 介绍

    introduce = scrapy.Field()

    # 星级

    star = scrapy.Field()

    # 评论

    evaluate = scrapy.Field()

    # 描述

    describe = scrapy.Field()

3. spider文件编写

打开spider.py文件，默认会有三个参数：

class DoubanSpiderSpider(scrapy.Spider):

    # 爬虫名

    name = 'douban_spider'

    # 允许的域名，超出该域名的链接不会进行抓取

    allowed_domains = ['movie.douban.com']

    # 入口url

    start_urls = ['https://movie.douban.com/top250']

    def parse(self, response):

        pass

在def parse方法中进行内容解析：

def parse(self, response):

    print(response.text)

4. 启动scrapy项目

命令行中启动

# douban_spider 即spider.py中的爬虫名

scrapy crawl douban_spider

报错403的原因：user_agent设置不对，去settings.py中设置：

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'

在pycharm中启动

创建一个main.py文件:

from scrapy import cmdline

if __name__ == '__main__':

    cmdline.execute('scrapy crawl douban_spider'.split())

5. 编写解析方式

如何解析是写在def parse(self, response)中。

xpath提取内容

需要去学习下xpath的语法

movie_list = response.xpath("//div[@class='article']//ol[@class='grid_view']/li")

根据之前的item.py来封装对象
```
from douban.items import DoubanItem
```

具体代码

# 先使用xpath语法来选取，然后后跟text()函数获取内容

movie_list = response.xpath("//div[@class='article']//ol[@class='grid_view']/li")

for item in movie_list:

    douban_item = DoubanItem()

    douban_item['serial_number'] = item.xpath(".//div[@class='item']//em/text()").extract_first()

    douban_item['movie_name'] = item.xpath(".//div[@class='info']//a/span/text()").extract_first()

    content = item.xpath(".//div[@class='bd']/p[1]/text()").extract()

    content_set = list()

    for i_content in content:

        tmp = ""

            for temp in i_content.split():

                tmp += temp

                content_set.append(tmp)

            douban_item['introduce'] = content_set

    douban_item['star'] = item.xpath(".//div[@class='star']/span[2]/text()").extract_first()

    douban_item['evaluate'] = item.xpath(".//div[@class='star']/span[4]/text()").extract_first()

    douban_item['describe'] = item.xpath(".//div[@class='bd']/p[2]/span/text()").extract_first()

# 重点

yield douban_item

对象解析完毕后务必要调用yield来进行提交
```
yield douban_item
```

6. 翻页实现

上面的代码只能读取当前页的信息，需要去抓取下一页的链接，然后再次yield

# 取下一页链接

next_link = response.xpath("//span[@class='next']/link/@href").extract()

# 如果不为最后一页

if next_link:

    next = next_link[0]

    yield scrapy.Request("https://movie.douban.com/top250" + next, callback=self.parse)

7. 保存输出

在命令的后边加入-o参数即可，支持json(unicode编码保存)、csv等多个格式

scrapy crawl douban_spider -o test.json

scrapy初体验的更多相关文章

Scrapy 初体验
开发笔记 Scrapy 初体验 scrapy startproject project_name 创建工程 scrapy genspider -t basic spider_name website. ...
Scrapy初体验（一）环境部署
系统选择centOs 7,Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更确切来说, ...
scrapy初体验 - 安装遇到的坑及第一个范例
scrapy,python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.scrapy用途广泛,可以用于数据挖掘.监测和自动化测试.scrapy的安装稍 ...
Scrapy的初体验
上一节安装了python2和python3的开发环境首先第一步:进入开发环境,workon article_spider 进入这个环境: 安装Scrapy,在安装的过程中出现了一些错误:通常这些错误 ...
python--爬虫入门（七）urllib库初体验以及中文编码问题的探讨
python系列均基于python3.4环境 ---------@_@? --------------------------------------------------------------- ...
[转]Python爬虫框架--pyspider初体验
标签: python爬虫pyspider 2015-09-05 10:57 9752人阅读评论(0) 收藏举报分类: Python(8) 版权声明:本文为博主原创文章,未经博主允许不得转载. ...
.NET平台开源项目速览(15)文档数据库RavenDB-介绍与初体验
不知不觉,“.NET平台开源项目速览“系列文章已经15篇了,每一篇都非常受欢迎,可能技术水平不高,但足够入门了.虽然工作很忙,但还是会抽空把自己知道的,已经平时遇到的好的开源项目分享出来.今天就给大家 ...
Xamarin+Prism开发详解四：简单Mac OS 虚拟机安装方法与Visual Studio for Mac 初体验
Mac OS 虚拟机安装方法最近把自己的电脑升级了一下SSD固态硬盘,总算是有容量安装Mac 虚拟机了!经过心碎的安装探索,尝试了国内外的各种安装方法,最后在youtube上找到了一个好方法. 简单 ...
Spring之初体验
Spring之初体验 Spring是一个轻量级的Java Web开发框架,以IoC(Inverse of Control 控制反转)和 ...

随机推荐

【vps】Centos 7安装python3.8.5
[vps]Centos 7安装python3.8.5 前言由于服务器的搬迁,从香港搬到了大陆,原来的香港服务器即将到期,所以趁着大陆服务器在备案的时候,将新服务器的配置先配置一下.这篇文章就是分享C ...
STC8H开发(六): SPI驱动ADXL345三轴加速度检测模块
目录 STC8H开发(一): 在Keil5中配置和使用FwLib_STC8封装库(图文详解) STC8H开发(二): 在Linux VSCode中配置和使用FwLib_STC8封装库(图文详解) ST ...
【记录一个问题】golang中的time.Now()非常慢
对一个代码做profile: 总函数调用 29.74s 20.25s 153: timestamp := time.Now().Unix() 这样的一行占了20.25秒. 我知道linux下 time ...
C++构造函数语义学(二)(基于C++对象模型)
带有虚函数的情况. 下面情况编译器也会在需要的时候为其合成. 1.如果一个类自己声明为虚函数. 1 #include<iostream> 2 using namespace std; 3 ...
什么是Listener监听器
什么是Listener监听器 1,Listener 监听器它是JavaWeb的三大组件之一.JavaWeb的三大组件:Servlet程序,Filter过滤器,Listener监听器. 2,Listen ...
通俗易懂详解iptables
防火墙相关概念从逻辑上讲.防火墙可以大体分为主机防火墙和网络防火墙. 主机防火墙:针对于单个主机进行防护. 网络防火墙:往往处于网络入口或边缘,针对于网络入口进行防护,服务于防火墙背后的本地局域网. ...
【Azure 应用服务】Azure Mobile App (NodeJS) 的服务端部署在App Service for Windows中出现404 Not Found -- The resource you are looking for has been removed, had its name changed, or is temporarily unavailable.
问题描述使用NodeJS的后端应用,开发一个Mobile App的服务端,手机端通过REST API来访问获取后端数据.在本地编译好后,通过npm start启动项目,访问效果如下: 但是,当把项目 ...
html+css+js（登录页）
直接上代码 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF ...
setcontext+orw
setcontext+orw 大致可以把2.27,2.29做为两个分界点. 我们先来讨论 2.27 及以下的 setcontext + orw 的写法. 首先 setcontext 是什么?了解过 S ...
Linux配置Redis集群和缓存介绍。
// 一.什么是缓存? mybatis一级缓存和二级缓存 mybatis的一级缓存存在哪? SqlSession,就不会再走数据库什么情况下一级缓存会失效? 当被更新,删除的时候sqlsession ...