scrapy之360图片爬取

#今日目标

**scrapy之360图片爬取**

今天要爬取的是360美女图片，首先分析页面得知网页是动态加载，故需要先找到网页链接规律，

然后调用ImagesPipeline类实现图片爬取

*代码实现*

so.py

```

# -*- coding: utf-8 -*-

import scrapy

import json

from ..items import SoItem

class SoSpider(scrapy.Spider):

    name = 'so'

    allowed_domains = ['imaeg.os.com']

    # 重写

    def start_requests(self):

        url = 'http://image.so.com/zjl?ch=beauty&sn={}&listtype=new&temp=1'

        # 生成5页的地址,交给调度器

        for i in range(5):

            sn = i*30

            full_url = url.format(sn)

            yield scrapy.Request(

                url = full_url,

                callback = self.parse_image,

                dont_filter=False

            )

    def parse_image(self,response):

        html = json.loads(response.text)

        # 提取图片链接

        for img in html['list']:

            item = SoItem()

            item['img_link'] = img['qhimg_url']

            yield item

```

item.py

```

import scrapy

class SoItem(scrapy.Item):

    # define the fields for your item here like:

    # 图片链接

    img_link = scrapy.Field()

```

pipelines.py

```

# 导入scrapy的图片管道类

from scrapy.pipelines.images import ImagesPipeline

import scrapy

# 1. 继承 ImagesPipeline

# 2. 重写 类内方法

class SoPipeline(ImagesPipeline):

    def get_media_requests(self, item, info):

        # 把图片链接发给调度器

        yield scrapy.Request(url = item['img_link'],dont_filter=False)

```

settings.py

```

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

CONCURRENT_REQUESTS = 10

DEFAULT_REQUEST_HEADERS = {

  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

  'Accept-Language': 'en',

  'User-Agent':'Mozilla/5.0',

}

ITEM_PIPELINES = {

   'So.pipelines.SoPipeline': 300,

}

IMAGES_STORE = '/home/ccc/image/' #个人保存路径

```

scrapy之360图片爬取的更多相关文章

Scrapy爬虫框架之爬取校花网图片
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
[Python_scrapy图片爬取下载]
welcome to myblog Dome地址爬取某个车站的图片 item.py 中 1.申明item 的fields class PhotoItem(scrapy.Item): # define ...
Python爬虫入门教程 26-100 知乎文章图片爬取器之二
1. 知乎文章图片爬取器之二博客背景昨天写了知乎文章图片爬取器的一部分代码,针对知乎问题的答案json进行了数据抓取,博客中出现了部分写死的内容,今天把那部分信息调整完毕,并且将图片下载完善到代码中 ...
4k图片爬取+中文乱码
4k图片爬取+中文乱码此案例有三种乱码解决方法,推荐第一种 4k图片爬取其实和普通图片爬取的过程是没有本质区别的 import requests import os from lxml import ...
基于scrapy框架输入关键字爬取有关贴吧帖子
基于scrapy框架输入关键字爬取有关贴吧帖子站点分析首先进入一个贴吧,要想达到输入关键词爬取爬取指定贴吧,必然需要利用搜索引擎点进看到有四种搜索方式,分别试一次,观察url变化我们得知: 搜 ...
初识scrapy，美空网图片爬取实战
这俩天研究了下scrapy爬虫框架,遂准备写个爬虫练练手.平时做的较多的事情是浏览图片,对,没错,就是那种艺术照,我骄傲的认为,多看美照一定能提高审美,并且成为一个优雅的程序员.O(∩_∩ ...
scrapy图片-爬取哈利波特壁纸
话不多说,直接开始,直接放上整个程序过程 1.创建工程和生成spiders就不用说了,会用scrapy的都知道. 2.items.py class HarryItem(scrapy.Item): # ...
Scrapy项目 - 实现百度贴吧帖子主题及图片爬取的爬虫设计
要求编写的程序可获取任一贴吧页面中的帖子链接,并爬取贴子中用户发表的图片,在此过程中使用user agent 伪装和轮换,解决爬虫ip被目标网站封禁的问题.熟悉掌握基本的网页和url分析,同时能灵活使 ...

随机推荐

vue-cli的基础构造
1,项目目录 2, bulid 下文件及目录 3,config下文件及目录接下来说说vue-cli项目中页面相关的主要文件^o^ 首先是index.html: 说明:一般只定义一个空的根节点,在ma ...
[CSP-S模拟测试]:硬币（博弈论+DP+拓展域并查集）
题目传送门(内部题135) 输入格式第一行包含一个整数$T$,表示数据组数. 对于每组数据,第一行两个整数$h,w$,表示棋盘大小. 接下来$h$行,每行一个长度为$w$的字符串,每个位置由为$o, ...
request.getAttribute()和request.getParameter()两个方法的区别
request.getAttribute()获得的数据必须曾经有过setAttibute()过: 而request.getParameter()获得是客户端POST或者GET请求时所携带的参数的值 g ...
第十四周课程总结 & 实验报告
一.JDBC JDBC概述 JDBC提供了一种与平台无关的用于执行SQL语句的标准JavaAPI,可以方便的实现多种关系型数据库的统一操作,它由一组用Java语言编写的类和接口组成 JDBC的主要操作 ...
xshell上windows和linux互传文件命令
1.安装lrzsz包: yum install -y lrzsz 2.从windows上传文件到linux服务器: rz 会弹出选择文件窗口,按照提示做就行3.从linux服务器下载文件到本地的win ...
Scala学习（四）——模式匹配与函数组合
函数组合让我们创建两个函数: def f(s: String) = "f(" + s + ")" def g(s: String) = "g(&qu ...
JAVA-ThreadPoolExecutor 线程池
一.创建线程池 /** * @param corePoolSize 核心线程池大小 * 当提交一个任务到线程池时,如果当前 poolSize < corePoolSize 时,线程池会创建一个线 ...
leetcode-easy-others-461. Hamming Distance
mycode 92.05% class Solution(object): def hammingDistance(self, x, y): """ :type x: ...
Android 中布局的优化措施都有哪些？
1.尽可能减少布局的嵌套层级可以使用 sdk 提供的 hierarchyviewer 工具分析视图树,帮助我们发现没有用到的布局.2.不用设置不必要的背景,避免过度绘制比如父控件设置了背景色,子控件完 ...
VS2017 中安装SVN
VS2017 中安装SVN 1.下载:SVN For Vs2017 2.安装: 先关闭VS2017,找到下载文件,直接双击,安装. 3.启用插件打开Vs2017,直接可用.

scrapy之360图片爬取

scrapy之360图片爬取的更多相关文章

随机推荐

热门专题