scrapy安装及入门使用

安装

pip3.7 install Scrapy

输入scrapy命令查看是否安装成功

J-pro:myproject will$ scrapy

Scrapy 2.1.0 - project: myproject

Usage:

  scrapy <command> [options] [args]

Available commands:

  bench         Run quick benchmark test

  check         Check spider contracts

  crawl         Run a spider

  edit          Edit spider

  fetch         Fetch a URL using the Scrapy downloader

  genspider     Generate new spider using pre-defined templates

  list          List available spiders

  parse         Parse URL (using its spider) and print the results

  runspider     Run a self-contained spider (without creating a project)

  settings      Get settings values

  shell         Interactive scraping console

  startproject  Create new project

  version       Print Scrapy version

  view          Open URL in browser, as seen by Scrapy

Use "scrapy <command> -h" to see more info about a command

如出现上述提示，则表示scrapy安装成功。

简单入门

使用scrapy 创建项目

scrapy startproject myproject

进入到项目中查看，目录如下:

J-pro:myproject will$ ls -al

total 8

drwxr-xr-x   4 will  staff  128  6 11 23:47 .

drwxr-xr-x   3 will  staff   96  6 11 23:47 ..

drwxr-xr-x  10 will  staff  320  6 11 23:47 myproject // 项目目录

-rw-r--r--   1 will  staff  261  6 11 23:18 scrapy.cfg // 项目配置文件

J-pro:myproject will$ cd myproject/

J-pro:myproject will$ ls -al

total 56

drwxr-xr-x  10 will  staff   320  6 11 23:47 .

drwxr-xr-x   4 will  staff   128  6 11 23:47 ..

-rw-r--r--   1 will  staff     0  6 11 23:03 __init__.py

drwxr-xr-x   5 will  staff   160  6 11 23:42 __pycache__

-rw-r--r--   1 will  staff  8407  6 11 23:47 items.json // 爬虫抓爬下来的数据JSON

-rw-r--r--   1 will  staff   369  6 11 23:42 items.py // 定义需要提取数据的结构文件

-rw-r--r--   1 will  staff  3587  6 11 23:18 middlewares.py // 中间件文件，是和Scrapy的请求/响应处理相关联的框架

-rw-r--r--   1 will  staff   283  6 11 23:18 pipelines.py // 用来对items里面提取的数据进一步处理，如保存等

-rw-r--r--   1 will  staff  3115  6 11 23:18 settings.py // 设置文件

drwxr-xr-x   6 will  staff   192  6 11 23:47 spiders // 存储爬虫代码目录

实战Demo

编辑items.py文件，输入抓取数据字段

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class DetailItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    title = scrapy.Field()

    author = scrapy.Field()

    reply = scrapy.Field()

    pass

进入spiders文件夹，创建一个爬虫文件：myspider.py

import scrapy

from myproject.items import DetailItem

import sys

class MySpider(scrapy.Spider):

    """

    name:scrapy唯一定位实例的属性，必须唯一

    allowed_domains：允许爬取的域名列表，不设置表示允许爬取所有

    start_urls：起始爬取列表

    start_requests：它就是从start_urls中读取链接，然后使用make_requests_from_url生成Request，

                    这就意味我们可以在start_requests方法中根据我们自己的需求往start_urls中写入

                    我们自定义的规律的链接

    parse：回调函数，处理response并返回处理后的数据和需要跟进的url

    log：打印日志信息

    closed：关闭spider

    """

    # 设置name

    name = "spidertieba"

    # 设定域名

    allowed_domains = ["baidu.com"]

    # 填写爬取地址

    start_urls = [

        "http://tieba.baidu.com/f?kw=%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB&ie=utf-8",

    ]

    # 编写爬取方法

    def parse(self, response):

        for line in response.xpath('//li[@class=" j_thread_list clearfix"]'):

            # 初始化item对象保存爬取的信息

            item = DetailItem()

            # 这部分是爬取部分，使用xpath的方式选择信息，具体方法根据网页结构而定

            item['title'] = line.xpath('.//div[contains(@class,"threadlist_title pull_left j_th_tit ")]/a/text()').extract()

            item['author'] = line.xpath('.//div[contains(@class,"threadlist_author pull_right")]//span[contains(@class,"frs-author-name-wrap")]/a/text()').extract()

            item['reply'] = line.xpath('.//div[contains(@class,"col2_left j_threadlist_li_left")]/span/text()').extract()

            yield item

上述完成代码编写阶段，接下来执行爬虫。

scrapy crawl spidertieba -o items.json

执行scrapy crawl进行抓取数据，spidertieba是myspider.py文件中定义的name。 -o 将抓取结果输出到指定文件中。
执行上述语句结果如下：

J-pro:myproject will$ scrapy crawl spidertieba -o items.json

2020-06-12 23:05:12 [scrapy.utils.log] INFO: Scrapy 2.1.0 started (bot: myproject)

2020-06-12 23:05:13 [scrapy.utils.log] INFO: Versions: lxml 4.5.1.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.7.5 (default, Nov  1 2019, 02:16:32) - [Clang 11.0.0 (clang-1100.0.33.8)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1g  21 Apr 2020), cryptography 2.9.2, Platform Darwin-18.7.0-x86_64-i386-64bit

2020-06-12 23:05:13 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor

2020-06-12 23:05:13 [scrapy.crawler] INFO: Overridden settings:

{'BOT_NAME': 'myproject',

 'NEWSPIDER_MODULE': 'myproject.spiders',

 'ROBOTSTXT_OBEY': True,

 'SPIDER_MODULES': ['myproject.spiders']}

2020-06-12 23:05:13 [scrapy.extensions.telnet] INFO: Telnet Password: b20d9ac1dc58b0eb

2020-06-12 23:05:13 [scrapy.middleware] INFO: Enabled extensions:

['scrapy.extensions.corestats.CoreStats',

 'scrapy.extensions.telnet.TelnetConsole',

 'scrapy.extensions.memusage.MemoryUsage',

 'scrapy.extensions.feedexport.FeedExporter',

 'scrapy.extensions.logstats.LogStats']

2020-06-12 23:05:13 [scrapy.middleware] INFO: Enabled downloader middlewares:

['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',

 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',

 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',

 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',

 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',

 'scrapy.downloadermiddlewares.retry.RetryMiddleware',

 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',

 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',

................................................................................................

这个时候则在当前目录下发现多了指定输入文件item.json，打开则是爬取数据。

scrapy安装及入门使用的更多相关文章

[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...
转：Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）
Scrapy在window上的安装教程见下面的链接:Scrapy安装教程上述安装教程已实践,可行.(本来打算在ubuntu上安装Scrapy的,但是Ubuntu 磁盘空间太少了,还没扩展磁盘空间,所 ...
Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）
Scrapy在window上的安装教程见下面的链接:Scrapy安装教程上述安装教程已实践,可行.(本来打算在ubuntu上安装Scrapy的,但是Ubuntu 磁盘空间太少了,还没扩展磁盘空间,所 ...
Scrapy 教程(一)-安装与入门
安装具体请自行百度依赖库网上说pip安装会内分泌失调,我试了下还行吧,不过也遇到几个问题解决方法 pip install -I cryptography 解决方法 pip install -U ...
scrapy爬虫框架入门教程
scrapy安装请参考:安装指南. 我们将使用开放目录项目(dmoz)作为抓取的例子. 这篇入门教程将引导你完成如下任务: 创建一个新的Scrapy项目定义提取的Item 写一个Spider用来爬行 ...
Scrapy 爬虫框架入门案例详解
欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者:崔庆才 Scrapy入门本篇会通过介绍一个简单的项目,走一遍Scrapy抓取流程,通过这个过程,可以对 ...
Python -- Scrapy 框架简单介绍（Scrapy 安装及项目创建）
Python -- Scrapy 框架简单介绍最近在学习python 爬虫,先后了解学习urllib.urllib2.requests等,后来发现爬虫也有很多框架,而推荐学习最多就是Scrapy框架 ...
Python3 Scrapy 安装方法
Python3 Scrapy 安装方法 (一脸辛酸泪) 写在前面最近在学习爬虫,在熟悉了Python语言和BeautifulSoup4后打算下个爬虫框架试试. 没想到啊,这坑太深了... 看了看相关 ...
Scrapy框架-scrapy框架快速入门
1.安装和文档安装:通过pip install scrapy即可安装. Scrapy官方文档:http://doc.scrapy.org/en/latest Scrapy中文文档:http://sc ...

随机推荐

零基础入门c语言函数之递归函数
今天来总结一下关于递归函数的使用方面的问题. 递归函数就是在函数使用的时候自己调用自己,层层调用,来实现你想要的功能. 有两个最常用的例子,我们来写一下. (1)计算阶乘 #include int f ...
攻防世界杂项 1.base64÷4
666C61677B45333342374644384133423834314341393639394544444241323442363041417D 根据题目base64÷4得base16 在线工 ...
arduino 使用 analogRead 读取不到数据，digitalRead 却可以正常读取
项目场景: 最近在使用安信可的 ESP32S P14 引脚(ADC 16)读取一个电路状态的时候遇到一个问题,电路状态不是很稳定,在高电平的时候,会突然出现毫秒级的波动,出现短暂的低电平,造成设备状态 ...
Python ImportError: No module named '_tkinter', please install the python3-tk package
ImportError: No module named '_tkinter', please install the python3-tk package 这个问题的原因是使用的python3环境内 ...
Qt Creator打造VScode one dark pro主题配色
1.缘由我之前习惯使用 vscode 进行开发,对 vscode 的 one dark pro 主题情有独钟.无奈公司需要使用 Qt Creator 进行日常开发,只能暂时舍弃 vscode,采用曲 ...
Vue 基础自查——条件渲染和列表渲染
v-if和v-show的区别是什么? v-if和v-for为什么不能一起用? v-for中的key有什么作用? 1 v-if 和 v-show 1.1 作用都用来控制元素的显示和隐藏 1.2 控制元 ...
Linux&C open creat read write lseek 函数用法总结
一:五个函数的参数以及返回值. 函数参数返回值 open (文件名,打开方式以及读 ...
k8s入坑之路（9）k8s网络插件详解
Flannel: 最成熟.最简单的选择 Calico: 性能好.灵活性最强,目前的企业级主流 Canal: 将Flannel提供的网络层与Calico的网络策略功能集成在一起. Weave: 独有的功 ...
解决虚拟机linux系统全屏问题
修改设置 1) 如下图右单击虚拟机名,选择[settings-],调出虚拟机设置界面. 2) 在设置界面选择[hardware]->[CD/DVD2(IDE)]->[Connection] ...
多层pcb线路板的制作流程
PCB制作第一步是整理并检查pcb多层线路板布局(Layout).电路板制作工厂收到PCB设计公司的CAD文件,由于每个CAD软件都有自己独特的文件格式,所以深圳PCB板厂会转化为一个统一的格式Ger ...

scrapy安装及入门使用

scrapy安装及入门使用

安装

输入scrapy命令查看是否安装成功

简单入门

使用scrapy 创建项目

进入到项目中查看，目录如下:

实战Demo

编辑items.py文件，输入抓取数据字段

进入spiders文件夹，创建一个爬虫文件：myspider.py

这个时候则在当前目录下发现多了指定输入文件item.json，打开则是爬取数据。

scrapy安装及入门使用的更多相关文章

随机推荐

热门专题