python多线程爬取图片二

上一篇的多线程是使用类创建的，这一次使用函数创建多线程，还是同一个网站https://www.quanjing.com/category/1286521/1.html，

代码如下：

 # 多线程，自动创建文件夹，每个页面单独存储一个文件夹

 import requests

 import threading

 import re

 import time

 import queue

 import os

 from bs4 import BeautifulSoup

 string = 'https://www.quanjing.com/category/1286521/'

 url_queue = queue.Queue()

 pipei = re.compile('lowsrc="(.*?)" m=')　　　　　　　　# 定义正则表达式，匹配出每一张图片的链接

 def get_url(page):　　　　　　　　　　# 根据传入的页面数，创建1-page每个页面的url

     for i in range(1, page+1):

         url = string + str(i) + '.html'　　　　　　# 拼接url

         url_queue.put(url)　　　　　　　　　　　　# 把每个url放入队列中

     # print(url_queue.queue)

 def spider(url_queue):　　　　　　# 爬取函数

     url = url_queue.get()　　　　# 从队列中取出最前面的url

     floder_count = url[-7:-5]　　# 判断当前爬取的为第几页，用于后面的创建文件夹，如果页数为两位数，则会截取当前页数，如果为一位数字，则会截取当前页数和前面的‘/’符号

     if floder_count[0] == '/':

         floder_name = floder_count[1]

     else:

         floder_name = floder_count

     os.mkdir('第{0}页'.format(floder_name)) # mkdir创建文件夹

     html = requests.get(url=url).text

     soup = BeautifulSoup(html, 'lxml')　　　　# 对源码进行解析

     ul = soup.find_all(attrs={"class": "gallery_list"})　　　　# 提取出图片链接的部分

     # print(ul)

     lianjies = re.findall(pipei, str(ul))       # 匹配出每一张图片的链接，正则匹配必须是字符串类型

     i = 1

     for lianjie in lianjies:

         # print(lianjie)

         result = requests.get(url=lianjie).content　　　　# 二进制方式请求每张图片，并存储。

         with open('第{0}页\{1}.jpg'.format(floder_name, i), 'ab') as f:

             f.write(result)

         print('第{0}页第{1}张存储完成'.format(floder_name, i))

         i += 1

     if not url_queue.empty():　　　　# 如果队列未空，则该线程继续工作，从队列中取出url

         spider(url_queue)

 def main():　　　　　　# main函数，用于线程的创建，线程的启动

     queue_list = []　　　　# 线程列表

     queue_count = 3　　　　# 线程数量

     for i in range(queue_count):

         t = threading.Thread(target=spider, args=(url_queue, ))　　# 创建线程，第一个参数为线程要调用的函数，第二个参数为函数的参数

         queue_list.append(t)　　　　　　　　# 把线程加入队列

     for t in queue_list:　　　　# 线程开始

         t.start()

     for t in queue_list:　　# 等待所有线程结束

         t.join()

 if __name__ == '__main__':

     page = int(input("请输入需要爬取的页数:"))

     get_url(page)

     start_time = time.time()

     main()

     print("test3用时：%f" % (time.time() - start_time))　　　　# 计算爬取用时

在写代码时，遇到了两点困难：一是队列未空时，怎么让线程继续工作。刚开始是在if判断后调用main函数，但这样做等于又重新定义了新的线程，并不是之前的线程在继续工作，且有时候会存在爬取不完的情况，后来尝试调用spider函数，爬取成功

第二个困难是文件夹的创建，刚开始没有对截图的两个字符进行判断，导致创建失败，百度一下后发现可以用makedirs解决，试了后发现这样创建的是多级目录，也不行，（可能是‘/’字符的缘故），后来加了一个判断，才解决这一问题。

写完这两个多线程爬虫，才算是了解了线程的工作机制的程序。（ps：若有错误的地方，欢迎大佬随时指正。。xixix）

python多线程爬取图片二的更多相关文章

python多线程爬取图片实例
今天试着把前面那个爬取图片的爬虫改成了多线程爬取,虽然最后可以爬取存储图片了,但仍存在一些问题.网址还是那个网址https://www.quanjing.com/category/1286521/1. ...
python多线程爬取斗图啦数据
python多线程爬取斗图啦网的表情数据使用到的技术点 requests请求库 re 正则表达式 pyquery解析库,python实现的jquery threading 线程 queue 队列 ' ...
[python爬虫] 爬取图片无法打开或已损坏的简单探讨
本文主要针对python使用urlretrieve或urlopen下载百度.搜狗.googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨.同时 ...
Python多线程爬图&Scrapy框架爬图
一.背景对于日常Python爬虫由于效率问题,本次测试使用多线程和Scrapy框架来实现抓取斗图啦表情.由于IO操作不使用CPU,对于IO密集(磁盘IO/网络IO/人机交互IO)型适合用多线程,对于 ...
python多线程爬取世纪佳缘女生资料并简单数据分析
一. 目标作为一只万年单身狗,一直很好奇女生找对象的时候都在想啥呢,这事也不好意思直接问身边的女生,不然别人还以为你要跟她表白啥的,况且工科出身的自己本来接触的女生就少,即使是挨个问遍,样本量也 ...
Python 爬虫爬取图片入门
爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 用户看到的网页实质是由 HTML 代码构成的,爬 ...
Python 多线程爬取站酷（zcool.com.cn）图片
极速爬取下载站酷(https://www.zcool.com.cn/)设计师/用户上传的全部照片/插画等图片. 项目地址:https://github.com/lonsty/scraper 特点: 极 ...
python多线程爬取-今日头条的街拍数据（附源码加思路注释）
这里用的是json+re+requests+beautifulsoup+多线程 1 import json import re from multiprocessing.pool import Poo ...
Python 多线程使用线程 (二)
Python中实现多线程需要使用到 threading 库,其中每一个 Thread类的实例控制一个线程. Thread类 #类签名 def __init__(self, group=None, t ...

随机推荐

OpenGL（二十一） glPolygonOffset设置深度偏移解决z-fighting闪烁问题
开启深度测试后OpenGL就不会再去绘制模型被遮挡的部分,这样实现的显示画面更为真实,但是由于深度缓冲区精度的限制,对于深度相差非常小的情况(例如在同一平面上进行两次绘制),OpenGL就不能正确判定 ...
JS数组操作：去重，交集，并集，差集
原文:JS数组操作:去重,交集,并集,差集 1. 数组去重方法一: function unique(arr) { //定义常量 res,值为一个Map对象实例 const res = new Map ...
WPF 3D 平移模型+动画（桥梁检测系统）
原文:WPF 3D 平移模型+动画(桥梁检测系统) 关于WPF 3D,网上有很多旋转的例子,但是关于平移的例子并不是太多.本文并非WPF 3D扫盲篇,因此需要对WPF 3D有一定了解,至少知道View ...
CefSharp For WPF自定义右键菜单栏
原文:CefSharp For WPF自定义右键菜单栏初始化  <cefSharpWPF:ChromiumWebBrowser Name="webBr ...
HBase 数据备份
HBase提供了备份API,直接使用shell脚本可以叫它.如下面的命令的详细信息: hbase org.apache.hadoop.hbase.mapreduce.Export 'user' /hb ...
hibernate关于一对一注解配置
注解(Annotation),也叫元数据.一种代码级别的说明.它是JDK1.5及以后版本引入的一个特性,与类.接口.枚举是在同一个层次.它可以声明在包.类.字段.方法.局部变量.方法参数等的前面,用来 ...
JAVA实现黑客帝国代码雨效果
import java.awt.*; import java.awt.event.ActionEvent; import java.awt.event.ActionListener; import j ...
宽字符std::wstring的长度和大小问题？sizeof(std::wstring)是固定的32，说明std::wstring是一个普通的C++类，而且和Delphi不一样，没有负方向，因为那个需要编译器的支持
std::wstring ws=L"kkkk"; int il=ws.length(); int ia=sizeof(ws); int ib=sizeof(&qu ...
用MVVM模式开发中遇到的零散问题总结（5）——将动态加载的可视元素保存为图片的控件，Binding刷新的时机
原文:用MVVM模式开发中遇到的零散问题总结(5)--将动态加载的可视元素保存为图片的控件,Binding刷新的时机在项目开发中经常会遇到这样一种情况,就是需要将用户填写的信息排版到一张表单中,供打 ...
jquery 可以给事件传参数
<!DOCTYPE html><html><head><meta http-equiv="Content-Type" content=&q ...

python多线程爬取图片二

python多线程爬取图片二的更多相关文章

随机推荐

热门专题