scrapy --爬取媒体文件示例详解

scrapy 图片数据的爬取

基于scrapy进行图片数据的爬取:
- 在爬虫文件中只需要解析提取出图片地址，然后将地址提交给管道
- 配置文件中写入文件存储位置：IMAGES_STORE = './imgsLib'
- 在管道文件中进行管道类的制定：
  - 1.from scrapy.pipelines.images import ImagesPipeline
  - 2.将管道类的父类修改成ImagesPipeline
  - 3.重写父类的三个方法

校花网爬取示例

spider.py文件

import scrapy
from imgspider.items import ImgspiderItem
class ImgSpiderSpider(scrapy.Spider):
    name = 'img_spider'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://www.521609.com/daxuemeinv/']
    url = 'http://www.521609.com/daxuemeinv/list8%d.html'
    pageNum = 1
    def parse(self, response):
        li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')
        # 拼接图片url
        for li in li_list:
            print(self.pageNum)
            img_src = 'http://www.521609.com' + li.xpath('./a[1]/img/@src').extract_first()
            item = ImgspiderItem()
            item['src'] = img_src
            yield item
            if self.pageNum < 3:
                self.pageNum += 1
                new_url = format(self.url % self.pageNum)
                yield scrapy.Request(new_url, callback=self.parse)

pipelines.py文件

import scrapy
from imgspider.items import ImgspiderItem
class ImgSpiderSpider(scrapy.Spider):
    name = 'img_spider'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://www.521609.com/daxuemeinv/']
    url = 'http://www.521609.com/daxuemeinv/list8%d.html'
    pageNum = 1
    def parse(self, response):
        li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')
        # 拼接图片url
        for li in li_list:
            print(self.pageNum)
            img_src = 'http://www.521609.com' + li.xpath('./a[1]/img/@src').extract_first()
            item = ImgspiderItem()
            item['src'] = img_src
            yield item
            if self.pageNum < 3:
                self.pageNum += 1
                new_url = format(self.url % self.pageNum)
                yield scrapy.Request(new_url, callback=self.parse)

scrapy --爬取媒体文件示例详解的更多相关文章

Python爬虫之爬取淘女郎照片示例详解
这篇文章主要介绍了Python爬虫之爬取淘女郎照片示例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧本篇目标抓取淘宝MM ...
Python爬虫：爬取喜马拉雅音频数据详解
前言喜马拉雅是专业的音频分享平台,汇集了有声小说,有声读物,有声书,FM电台,儿童睡前故事,相声小品,鬼故事等数亿条音频,我最喜欢听民间故事和德云社相声集,你呢? 今天带大家爬取喜马拉雅音频数据,一 ...
python 爬取媒体文件（使用chrome代理，启动客户端，有防火墙）
#coding = utf-8 ''' 中文转经纬度 ''' import time,json import urllib.request from selenium import webdriver ...
python 爬取媒体文件（无防火墙）
#coding = utf-8 import requests import pandas as pd import os,time root_path = './根目录/' input_file = ...
Scrapy框架——介绍、安装、命令行创建，启动、项目目录结构介绍、Spiders文件夹详解（包括去重规则）、Selectors解析页面、Items、pipelines（自定义pipeline）、下载中间件（Downloader Middleware）、爬虫中间件、信号
一介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可 ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
转 Scrapy笔记（5）- Item详解
Item是保存结构数据的地方,Scrapy可以将解析结果以字典形式返回,但是Python中字典缺少结构,在大型爬虫系统中很不方便. Item提供了类字典的API,并且可以很方便的声明字段,很多Scra ...
在java poi导入Excel通用工具类示例详解
转: 在java poi导入Excel通用工具类示例详解更新时间:2017年09月10日 14:21:36 作者:daochuwenziyao 我要评论这篇文章主要给大家介绍了关于在j ...
史上最全的maven pom.xml文件教程详解
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/20 ...

随机推荐

【基础知识】CPU上下文切换(进程上下文切换 - 线程上下文切换 - 中断上下文切换)
CPU 上下文切换是什么 CPU 上下文切换,就是先把前一个任务的 CPU 上下文(也就是 CPU 寄存器和程序计数器)保存起来,然后加载新任务的上下文到这些寄存器和程序计数器,最后再跳转到程序计数器 ...
Chrome：开发者模式下复制Element下的代码
Element模块下的代码只能一行一行复制,想要复制一个代码块,可以把该代码块先收起来,再对这个收起来的代码块进行复制就OK了
Python数据可视化 -- Wordcloud
Python数据可视化 -- Wordcloud 安装启动命令行,输入:pip install wordcloud word cloud 库介绍及简单使用 wordcloud库,可以说是pytho ...
（转载）虚拟化(3)：os调度策略。
转自:https://zhuanlan.zhihu.com/p/38046313 这一章主要是介绍几个简单的调度器策略.内容比较简单,就简单汇总下. 首先我们对现有的计算机环境有如下几个假设: 1.每 ...
linux多进/线程编程（2）—— fork函数和进程间“共享”数据
参考: 1.博客1:https://www.pianshen.com/article/4305691855/ fork:在原进程的基础上"分叉"出一个子进程,即创建一个子进程. N ...
『现学现忘』Docker相关概念 — 4、虚拟化概念
目录 1.虚拟化的概念 2.为什么出现虚拟化 3.虚拟化技术 1.虚拟化的概念虚拟化是指通过虚拟化技术将计算机虚拟为多台逻辑计算机.在一台计算机上同时运行多个逻辑计算机,每个逻辑计算机可运行不同的操 ...
Comparator.comparing排序使用示例
Comparator.comparing排序使用示例目录 Comparator.comparing排序使用示例背景实体类示例一示例二背景以前常用的排序方式是通过实现Comparator接 ...
think php 未登录，禁止访问页面 + 退出登录
1.首先在Local创建一个基类控制器 D:\PHP\phpstudy_pro\WWW\1906A\pyg>php think make:controller goods/Base --plai ...
eval()计算某个字符串,js和jquery都可以使用
实例执行JavaScript代码或表达式: <script>eval("x=10;y=20;document.write(x*y)");document.write( ...
tensorflow源码解析之framework拾遗
把framework中剩余的内容,按照文件名进行了简单解析.时间原因写的很仓促,算是占个坑,后面有了新的理解再来补充. allocation_description.proto 一个对单次内存分配结果 ...

scrapy --爬取媒体文件示例详解

scrapy 图片数据的爬取

scrapy --爬取媒体文件示例详解的更多相关文章

随机推荐

热门专题