Python多线程爬虫爬取网页图片

临近期末考试，但是根本不想复习！啊啊啊啊啊啊啊！！！！

于是做了一个爬虫，网址为 https://yande.re，网页图片为动漫美图（图片带点颜色........宅男福利

github项目地址为：https://github.com/MyBules/yande_pider

多线程代码分为两个版本：一个是基于多页面多线程，一个是基于单页面多线程

一下是第一种代码：

'''

基于多页面多线程

'''

import os  # 引入文件模块

import re  # 正则表达式

import urllib.request

import threading

# 连接网页并返回源码

def open_url(url):

    try:

        req = urllib.request.Request(url)

        req.add_header("User-Agent",

                       "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")

        response = urllib.request.urlopen(req)

        status_code = response.code

        html = response.read()

        return html

    except:

        print(url + "")

        return 404

def mkdir(path):

    '''

    :param path: 路径

    :return:

    '''

    # 引入模块

    import os

    # 去除首位空格

    path = path.strip()

    # 去除尾部 \ 符号

    path = path.rstrip("\\")

    # 判断路径是否存在

    # 存在     True

    # 不存在   False

    isExists = os.path.exists(path)

    # 判断结果

    if not isExists:

        # 如果不存在则创建目录

        # 创建目录操作函数

        os.makedirs(path)

        print(path + ' 创建成功')

        return True

    else:

        # 如果目录存在则不创建，并提示目录已存在

        print(path + ' 目录已存在')

        return False

def Yande1(i):

    imgs = 1

    url = 'https://yande.re/post?page=' + str(i)

    floder = "E:\\Python\\爬虫\\yande\\img\\page" + str(i)

    mkdir(floder)

    html = open_url(url)

    html = html.decode('gbk', 'ignore')

    img_adds = []

    img_adds = re.findall(r'<a class="directlink largeimg" href="([^"]+\.jpg)"', html)

    for i in img_adds:

        filename = floder + "\\" + str(imgs) + '.jpg'

        imgs += 1

        img_html = open_url(i)

        if img_html == 404:

            continue

        with open(filename, 'wb') as f:

            f.write(img_html)

            print(i + ' 下载完成......')

exitflag = 0

class myThread(threading.Thread):

    def __init__(self, threadID, name, list):

        threading.Thread.__init__(self)

        self.threadID = threadID

        self.name = name

        self.list = list

    def run(self):

        print("开始线程：" + self.name)

        # threadLock.acquire()

        get_img(self.name, self.list)

        # threadLock.release()

        print("退出线程："+ self.name)

def get_img(threadname, list):

    if len(list):

        for i in list:

            if exitflag:

                threadname.exit()

            Yande1(i)

if __name__ == '__main__':

    pages1 = int(input('请输入你要下载的起始页面数：'))

    pages2 = int(input('请输入你要下载的末尾页面数：'))

    mkdir('img')

    # for i in range()

    list1 = []

    list2 = []

    list3 = []

    for i in range(pages1, pages2+1):

        if i % 3 == 0:

            list3.append(i)

        if i % 3 == 1:

            list1.append(i)

        if i % 3 == 2:

            list2.append(i)

    threadLock = threading.Lock()

    threads = []

    thread1 = myThread(1, "thread-1", list1)

    thread2 = myThread(2, "thread-2", list2)

    thread3 = myThread(3, "thread-3", list3)

    thread1.start()

    thread2.start()

    thread3.start()

    threads.append(thread1)

    threads.append(thread2)

    threads.append(thread3)

    for t in threads:

        t.join()

    print("退出主线程")

经测试，两种方法速度相差不大。

第二种方法放在github项目地址里了，如果各位游客是为了学习的话，第二种方法的代码还是去看一下较好。

Python多线程爬虫爬取网页图片的更多相关文章

node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...
erlang 爬虫——爬取网页图片
说起爬虫,大家第一印象就是想到了python来做爬虫.其实,服务端语言好些都可以来实现这个东东. 在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌 ...
Python爬虫爬取网页图片
没想到python是如此强大,令人着迷,以前看见图片总是一张一张复制粘贴,现在好了,学会python就可以用程序将一张张图片,保存下来. 今天逛贴吧看见好多美图,可是图片有点多,不想一张一张地复制粘贴 ...
Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
java爬虫-简单爬取网页图片
刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语言编程,这次我选择了 ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
python requests库爬取网页小实例：爬取网页图片
爬取网页图片: #网络图片爬取 import requests import os root="C://Users//Lenovo//Desktop//" #以原文件名作为保存的文 ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
python3爬虫爬取网页思路及常见问题（原创）
学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...

随机推荐

安装CCS提示错误Windows8.1-KB2999226-x64安装提示此更新不适用你的计算机
问题如图所示: 解决方案: 放在D:\目录下 windows键+X 选择命令提示符(管理员) 一定要是管理员打开cmd 分别执行下面两句.红色部分就是自己的更新程序了.其他安装同理例如Wi ...
easyui-numberspinner实现双箭头效果
效果图: 实现了 [点击左上角输入框的值加 0.5] [ 左下角值减0.5 ] [ 右上角点击值加1] [ 右下角点击值减1] 代码: <span style="positio ...
codevs1227:方格取数2
题目描述 Description 给出一个n*n的矩阵,每一格有一个非负整数Aij,(Aij <= )现在从(,)出发,可以往右或者往下走,最后到达(n,n),每达到一格,把该格子的数取出来,该 ...
hdoj3746（kmp算法的nex数组求最小循环节）
题目链接:https://vjudge.net/problem/HDU-3746 题意:给定一个字符串,问最少在两端添加多少元素使得整个字符串是呈周期性的. 思路: 应用到kmp中nex数组的性质,数 ...
webstorm对引入的css资源进行提示
（十三）自定义JSTL标签
前面的博客,我们讲过了自定义 el函数 : 讲一个自定义标签技术 : 目录自定义标签快速入门:使用标签输出客户机IP 关于标签处理器类的方法自定义标签功能扩展传统标签简单标签配置简单标 ...
C++Primer 5th Chap5 Statements
else语句对应的始终是最近的那条if语句,除非有{}强行控制,如: if(A){ if(B){/*.............*/} }else{/*.......*/}//这里else和if(A)对 ...
python对影评进行评论分析，形成词云图
1 # -*- coding:utf-8 -*- 2 ''' 3 抓取豆瓣电影某部电影的评论 4抓取电影 5 网址链接:https://movie.douban.com/subject/ ...
go 结构体2 文法
结构体文法表示通过结构体字段的值作为列表来新分配一个结构体. 使用 Name: 语法可以仅列出部分字段.(字段名的顺序无关.) 特殊的前缀 & 返回一个指向结构体的指针. //分配的v1结构体 ...
ActiveMQ Topic使用示例
一.非持久的Topic Topic 发送 public class NoPersistenceSender { public static void main(String[] args) throw ...

Python多线程爬虫爬取网页图片

Python多线程爬虫爬取网页图片的更多相关文章

随机推荐

热门专题