python 斗图图片爬虫

捣鼓了三小时，有一些小Bug，望大佬指导

废话不说，直接上代码：

#!/usr/bin/python3

# -*- coding:UTF-8 -*-

import os,re,requests

from urllib import request,parse

class Doutu_api(object):

    def __init__(self):

        self.api_html = r'http://www.doutula.com/search?keyword=%s'

        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 '

                                      '(KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}

        self.path = os.path.dirname(os.path.realpath(__file__))+'\\temp'

    def make_path(self,path=''):#返回假为已创建，否则创建新文件夹

        self.path = self.path+'\\'+path

        if os.path.exists(self.path):  # 判断文件夹是否存在

            return False

        else:

            os.mkdir(self.path)  # 创建文件夹

            return True

    def get_img_html(self,html):

        self.make_path(path=html)

        html = self.api_html%parse.quote(html)

        pattern = re.compile(u'<a.*?class="col-xs-6 col-md-2".*?href="(.*?)".*?style="padding:5px;">.*?</a>',re.S)

        pattern_img = re.compile(u'<td>.*?<img.*?src="(.*?)".*?alt="(.*?)".*?onerror=".*?">.*?</td>',re.S)

        try:

            req = request.Request(html, headers=self.headers)

            imgs = request.urlopen(req)

            imgs = imgs.read().decode('utf-8')

            imgs = re.findall(pattern, imgs)

            for img in imgs:

                req = request.Request(img, headers=self.headers)

                imgurl = request.urlopen(req).read().decode('utf-8')

                imgurl =re.findall(pattern_img, imgurl)

                with open(self.path+'\\{}.png'.format(imgurl[0][1].replace('/','-')), 'wb') as file:

                    response = requests.get(imgurl[0][0]).content  # 下载图片

                    file.write(response)  # 读取图片

            print('已完成下载,图片地址:',self.path)

        except Exception as e:

            print(e)

        return None

doutu = Doutu_api()

doutu.get_img_html(input('斗图内容关键字：'))

测试成功

python 斗图图片爬虫的更多相关文章

py3+requests+urllib+bs4+threading，爬取斗图图片
实现原理及思路请参考我的另外几篇爬虫实践博客 py3+urllib+bs4+反爬,20+行代码教你爬取豆瓣妹子图:http://www.cnblogs.com/UncleYong/p/6892688. ...
python+tkinter+动画图片+爬虫（查询天气）的GUI图形界面设计
1.完整代码: import time import urllib.request #发送网络请求,获取数据 import gzip #压缩和解压缩模块 import json #解析获得的数据 fr ...
【Python】：简单爬虫作业
使用Python编写的图片爬虫作业: #coding=utf-8 import urllib import re def getPage(url): #urllib.urlopen(url[, dat ...
python多线程爬虫+批量下载斗图啦图片项目（关注、持续更新）
python多线程爬虫项目() 爬取目标:斗图啦(起始url:http://www.doutula.com/photo/list/?page=1) 爬取内容:斗图啦全网图片使用工具:requests ...
python爬虫我是斗图之王
python爬虫我是斗图之王本文会以斗图啦网站为例,爬取所有表情包. 阅读之前需要对线程池.连接池.正则表达式稍作了解. 分析网站页面url分析打开斗图啦网站,简单翻阅之后发现最新表情每页包含的 ...
Python爬虫入门教程 13-100 斗图啦表情包多线程爬取
斗图啦表情包多线程爬取-写在前面今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aioht ...
【Python爬虫实战】图片爬虫-淘宝图片爬虫--千图网图片爬虫
所谓图片爬虫,就是从互联网中自动把对方服务器上的图片爬下来的爬虫程序.有些图片是直接在html文件里面,有些是隐藏在JS文件中,在html文件中只需要我们分析源码就能得到如果是隐藏在JS文件中,那么就 ...
python 爬虫系列09-异步斗图来一波
斗图斗图,妈妈再也不怕我都不赢了 import requests from lxml import etree from urllib import request import os import ...
python多线程爬取斗图啦数据
python多线程爬取斗图啦网的表情数据使用到的技术点 requests请求库 re 正则表达式 pyquery解析库,python实现的jquery threading 线程 queue 队列 ' ...

随机推荐

Sqoop Export HDFS
Sqoop Export应用场景——直接导出直接导出我们先复制一个表,然后将上一篇博文(Sqoop Import HDFS)导入的数据再导出到我们所复制的表里. sqoop export \ -- ...
Unity Download Assistant Error： 'SendRequest Error' while downloading ini file from http://files.unity3d.com/bootstrapper/29055738eb78/unity-5.3.6f1-win.ini
Unity 官网的哥们如此说道 I open the exe on Compatibility Mode , it's solved. You can try. :) 翻译就是我用兼容模式打开,就能 ...
程序运行的cpu时间
time.clock() 测量CPU时间,比较精准,通过比较程序运行前后的CPU时间差,得出程序运行的CPU时间.
【干货】Html与CSS入门学习笔记1-3
从23号开始用了4天时间看完了<Head First Html与CSS>这本书,本书讲解方式深入浅出,便于理解,结合习题,便于记忆,是一本不错的入门书.下面是本书的学习笔记: 一.认识HT ...
【Android开发笔记】程序崩溃异常总结
广播注册相关(broadcastReceiver) 没有注册广播就注销广播注册广播但未注销广播注册广播后重复注销广播解决办法: 添加一个布尔变量,注册广播后为true,若为true在执行注销,注 ...
php编译安装过程中遇到问题
编译安装PHP时遇到的问题问题1: configure: error: xml2-config not found. Please check your libxml2 installation. ...
redis在Windows下以后台服务一键搭建集群(单机--伪集群)
redis在Windows下以后台服务一键搭建集群(单机--伪集群) 一.概述此教程介绍如何在windows系统中同一台机器上布置redis伪集群,同时要以后台服务的模式运行.布置以脚本的形式,一键 ...
oracle 11g r2卸载
1. 进入计算机管理>>服务里,停止所有oracle的服务 2. 开始菜单>>程序>>Oracle>>Oracle安装产品>>Univers ...
远程链接mongoDB robomongo
墙裂推荐一个软件robomongo 下载地址:https://robomongo.org/download 最初不用这个软件的时候需要shell链接mongoDB,折腾了半天结果版本不匹配用robo ...
java中list强转为map类型
起因:读取数据库文件的测试用例,测试用例需要存放到一个map中,方便下次调用, 读取的内容返回的内容存放在一个list中,并且数据内容是key=value的形式,最开始使用切片方式,做了很多无用功,后 ...

python 斗图图片爬虫

python 斗图图片爬虫的更多相关文章

随机推荐

热门专题