使用pyspider爬取巨量淘宝MM图片

具体搭建步骤不再赘述，这里主要使用到了fakeagent，phantomjs和proxy

pyspider的爬取相当智能，在不能获取图片的时候会适当的暂停一段时间再试探性的爬取，配合fakeagent，proxypool和phantomjs，爬取成功率在90%以上。

代码是扒的别人的然后修改提高速度和成功率的，数据总量在百G左右，磁盘大的可以扒一扒。

代码如下：

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

# Created on 2016-03-25 00:59:45

# Project: taobaomm

from pyspider.libs.base_handler import *

from fake_useragent import UserAgent

import base64

import requests

import random

import sys

reload(sys)

sys.setdefaultencoding('UTF-8') 

PAGE_START = 1

PAGE_END = 4301

DIR_PATH = '/root/images/tbmm'

class Handler(BaseHandler):

    r = requests.get(u'http://127.0.0.1:5010/get_all/')

    proxy = random.choice(eval(r.text))

    ua = UserAgent()

    crawl_config = {

        "proxy": proxy,

        "headers":{

            "User-Agent": ua.random

        },

    }

    def __init__(self):

        self.base_url = 'https://mm.taobao.com/json/request_top_list.htm?page='

        self.page_num = PAGE_START

        self.total_num = PAGE_END

        self.deal = Deal()

    def on_start(self):

        while self.page_num <= self.total_num:

            url = self.base_url + str(self.page_num)

            self.crawl(url, callback=self.index_page)

            self.page_num += 1

    def index_page(self, response):

        for each in response.doc('.lady-name').items():

            self.crawl(each.attr.href, callback=self.detail_page, fetch_type='js')

    def detail_page(self, response):

        domain = response.doc('.mm-p-domain-info li > span').text()

        if domain:

            page_url = 'https:' + domain

            self.crawl(page_url, callback=self.domain_page)

    def domain_page(self, response):

        name = base64.b64encode(response.doc('.mm-p-model-info-left-top dd > a').text())

        dir_path = self.deal.mkDir(name)

        brief = response.doc('.mm-aixiu-content').text()

        if dir_path:

            imgs = response.doc('.mm-aixiu-content img').items()

            count = 1

            self.deal.saveBrief(brief, dir_path, name)

            for img in imgs:

                url = img.attr.src

                if url:

                    extension = self.deal.getExtension(url)

                    file_name = name + str(count) + '.' + extension

                    count += 1

                    self.crawl(img.attr.src, callback=self.save_img,

                               save={'dir_path': dir_path, 'file_name': file_name})

    def save_img(self, response):

        content = response.content

        dir_path = response.save['dir_path']

        file_name = response.save['file_name']

        file_path = dir_path + '/' + file_name

        self.deal.saveImg(content, file_path)

import os

class Deal:

    def __init__(self):

        self.path = DIR_PATH

        if not self.path.endswith('/'):

            self.path = self.path + '/'

        if not os.path.exists(self.path):

            os.makedirs(self.path)

    def mkDir(self, path):

        path = path.strip()

        dir_path = self.path + path

        exists = os.path.exists(dir_path)

        if not exists:

            os.makedirs(dir_path)

            return dir_path

        else:

            return dir_path

    def saveImg(self, content, path):

        f = open(path, 'wb')

        f.write(content)

        f.close()

    def saveBrief(self, content, dir_path, name):

        file_name = dir_path + "/" + name + ".txt"

        f = open(file_name, "w+")

        f.write(content.encode('utf-8'))

    def getExtension(self, url):

        extension = url.split('.')[-1]

        return extension

使用pyspider爬取巨量淘宝MM图片的更多相关文章

python爬虫爬取京东、淘宝、苏宁上华为P20购买评论
爬虫爬取京东.淘宝.苏宁上华为P20购买评论 1.使用软件 Anaconda3 2.代码截图三个网站代码大同小异,因此只展示一个 3.结果(部分) 京东淘宝苏宁 4.分析这三个网站上的评论数据 ...
Python爬虫(三)爬淘宝MM图片
直接上代码: # python2 # -*- coding: utf-8 -*- import urllib2 import re import string import os import shu ...
Python爬虫开源项目代码，爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等代码整理
作者:SFLYQ 今天为大家整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [ ...
23个Python爬虫开源项目代码：爬取微信、淘宝、豆瓣、知乎、微博等
来源:全球人工智能作者:SFLYQ 今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.Wec ...
使用Python 爬取京东，淘宝。商品详情页的数据。（避开了反爬虫机制）
以下是爬取京东商品详情的Python3代码,以excel存放链接的方式批量爬取.excel如下代码如下 from selenium import webdriver from lxml import ...
转载｜23个Python爬虫开源项目代码：爬取微信、淘宝、豆瓣、知乎、微博等
地址:https://ask.julyedu.com/article/323
Python爬虫之一 PySpider 抓取淘宝MM的个人信息和图片
ySpider 是一个非常方便并且功能强大的爬虫框架,支持多线程爬取.JS动态解析,提供了可操作界面.出错重试.定时爬取等等的功能,使用非常人性化. 本篇通过做一个PySpider 项目,来理解 Py ...
python 爬虫实战4 爬取淘宝MM照片
本篇目标抓取淘宝MM的姓名,头像,年龄抓取每一个MM的资料简介以及写真图片把每一个MM的写真图片按照文件夹保存到本地熟悉文件保存的过程 1.URL的格式在这里我们用到的URL是 http:/ ...
芝麻HTTP：Python爬虫实战之抓取淘宝MM照片
本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式在这里我们用到的URL ...

随机推荐

bzoj1801: [Ahoi2009]chess 中国象棋 dp
题意:在N行M列的棋盘上,放若干个炮可以是0个,使得没有任何一个炮可以攻击另一个炮. 请问有多少种放置方法,中国像棋中炮的行走方式大家应该很清楚吧. 题解:dp[i][j][k]表示到了第i行,有j列 ...
IQC来料检验报表
***************************************************************** * System : XXXXXXXXX * Module : QM ...
php分页、正则验证
//原装分页<?phpheader("Content-type:text/html;Charset=utf8"); $link=mysqli_connect("lo ...
jqgrid取所有行的值，jqgrid取行对应列（name）的值，jqgrid取多行值对应列转json的方法
1.jqgrid取所有行的值(#gridTable指对应table的ID) var obj = $("#gridTable").jqGrid("getRowData&qu ...
如何引用GitHub的静态资源文件 js css
参考:引用GitHub的静态资源文件有些人说直接用 Github Raw 浏览器不执行是因为返回的 content-type 是 text/plain,这么说不准确.实际上浏览器对 MIME 类型并 ...
SpringBoot热部署：spring-boot-devtools在Idea中热部署方法
1 pom.xml文件注:热部署功能spring-boot-1.3开始有的  <dependency> <groupId>org.sprin ...
python(2)之列表
列表的使用 names=["zhangyang","liming",["sese","popo"],"xiao ...
git merge branch
git branch look at your branches git branch newbranch git checkout newbrach do something git check ...
H5 PWA技术以及小demo
H5 PWA技术 1.原生app优缺点 a.体验好.下载到手机上入口方便 b.开发成本高(ios和安卓) c.软件上线需要审核 d.版本更新需要将新版本上传到不同的应用商店 e.使用前需下载 2.we ...
Weka中数据挖掘与机器学习系列之数据格式ARFF和CSV文件格式之间的转换（五）
不多说,直接上干货! Weka介绍: Weka是一个用Java编写的数据挖掘工具,能够运行在各种平台上.它不仅提供了可以直接用于数据挖掘的软件,还提供了src代码,使用者可以修改源代码,进行二次开发. ...

使用pyspider爬取巨量淘宝MM图片

使用pyspider爬取巨量淘宝MM图片的更多相关文章

随机推荐

热门专题