Python多线程Threading爬取图片，保存本地，openpyxl批量插入图片到Excel表中

之前用过openpyxl库保存数据到Excel文件写入不了，换用xlsxwriter

批量插入图片到Excel表中

 1 import os

 2 import requests

 3 import re

 4 from openpyxl import load_workbook

 5 import xlsxwriter

 6 from multiprocessing.dummy import Pool as ThreadPool

 7 from openpyxl.drawing.image import Image

 8

 9 def spider(url):

10     headers = {

11         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}

12     html = requests.get(url, headers, timeout=None)

13     pic_url = re.findall('class="product-image">.*?<img src="(.*?)"  height="', html.text, re.S)

14     sku = re.findall('q=(\d+)', url, re.S)#正则匹配链接后面的sku

15     if pic_url != []:

16         print('正在下载'+sku[0]+'图片，图片地址：' + pic_url[0])

17         pic = requests.get(pic_url[0])

18         dir = cwd + '\\images\\' + sku[0] + '.jpg'

19         # print(dir)

20         with open(dir, 'wb') as file:

21             file.write(pic.content)

22     else:

23         if sku !=[]:

24             print('没有找到' + sku[0]+'产品')

25             No_images.append(sku[0])

26 #之前用过openpyxl创建新的Excel文件，但是写入不了，之后换用xlsxwriter保存数据到Excel

27 def save_excel(sku):

28     print(sku)

29     wb1 = xlsxwriter.Workbook(cwd + '\\' + 'No_images.xlsx')

30     ws1 = wb1.add_worksheet()

31     ws1.write(0, 0, 'No_images_sku')

32     for i in range(1,len(sku)+1):

33         ws1.write(i, 0, sku[i-1])

34     wb1.close()

35     print('保存没有图片的sku成功！')

36

37 #插入图片到Excel

38 def insert_images(sku):

39     wb = load_workbook(path)

40     ws = wb.worksheets[0]

41     img_path = cwd + '\\images\\'+sku+'.jpg'

42     print(img_path)

43     ws.column_dimensions['H'].width = 11#设置单元格列宽

44     try:

45         img = Image(img_path)

46         #设置图片大小

47         img.width = 80

48         img.height = 96

49         # print(img)

50         for i in range(1,ws.max_row+1):

51             if ws.cell(i,2).value == int(sku):

52                 ws.row_dimensions[i].height = 88#设置单元格行高

53                 ws.add_image(img,'H'+str(i))

54                 wb.save(path)

55     except(FileNotFoundError) as e:

56         print(e)

57     wb.close()#每次插入一张图片需要关闭一次Excel表

58

59 if __name__ == '__main__':

60     cwd=os.getcwd()

61     path = cwd + '\\'+'图片测试.xlsx'

62     wb =load_workbook(path)

63     ws = wb.worksheets[0]

64     pool =ThreadPool(50)#开启多少个进程，四核电脑

65     urls = []

66     No_images = []

67     for i in range(1, ws.max_row+1):#通过循环将Excel数据读取出来

68         sku = ws.cell(i,2).value

69         if sku !=None:

70             print('正在爬取第'+str(i)+'个sku图片')

71             url = 'http://www.fulchic.com/catalogsearch/result/?q=' + str(sku)

72             urls.append(url)

73     pool.map(spider,urls)#多线程工作，其中，spider是爬虫函数名，urls是个爬取链接列表

74     pool.close()

75     pool.join()

76     #保存图片到本地

77     save_excel(No_images)

78     #循环写入保存图片，并设置单元格和图片大小

79     for i in range(1, ws.max_row + 1):  # 通过循环将Excel数据读取出来

80         sku = ws.cell(i, 2).value

81         if sku != None:

82             print('正在保存第' + str(i) + '个sku图片')

83             insert_images(str(sku))

Python多线程Threading爬取图片，保存本地，openpyxl批量插入图片到Excel表中的更多相关文章

python实现scrapy爬取图片到本地时的sha1摘要算法文件名
2017-03-29 Scrapy爬图片到本地应该会给图片自动生成sha1摘要算法文件名,我第一次用scrapy也不清楚太多,就在程序里自己写了一段实现这一功能的代码.需import hashlib ...
【Python】- scrapy 爬取图片保存到本地、且返回保存路径
https://blog.csdn.net/xueba8/article/details/81843534
PHP 爬取图片保存本地
public function getImage($url,$filename='') { if($url == ''){ return false; } if($filename == ''){ $ ...
用python库openpyxl操作excel,从源excel表中提取信息复制到目标excel表中
现代生活中,我们很难不与excel表打交道,excel表有着易学易用的优点,只是当表中数据量很大,我们又需要从其他表册中复制粘贴一些数据(比如身份证号)的时候,我们会越来越倦怠,毕竟我们不是机器,没法 ...
python多线程threading.Lock锁用法实例
本文实例讲述了python多线程threading.Lock锁的用法实例,分享给大家供大家参考.具体分析如下: python的锁可以独立提取出来 mutex = threading.Lock() #锁 ...
Python xlrd模块读取Excel表中的数据
1.xlrd库的安装直接使用pip工具进行安装(当然也可以使用pycharmIDE进行安装,这里就不详述了) pip install xlrd 2.xlrd模块的一些常用命令 ①打开excel文件并 ...
python xlrd 模块（获取Excel表中数据）
python xlrd 模块(获取Excel表中数据) 一.安装xlrd模块到python官网下载http://pypi.python.org/pypi/xlrd模块安装,前提是已经安装了pyt ...
scrapy爬虫系列之三--爬取图片保存到本地
功能点:如何爬取图片,并保存到本地爬取网站:斗鱼主播完整代码:https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代码: douyu.py im ...
python +requests 爬虫-爬取图片并进行下载到本地
因为写12306抢票脚本需要用到爬虫技术下载验证码并进行定位点击所以这章主要讲解,爬虫,从网页上爬取图片并进行下载到本地爬虫实现方式: 1.首先选取你需要的抓取的URL:2.将这些URL放入待抓 ...

随机推荐

CF226E Noble Knight's Path/bzoj4704 旅行
题目描述: bz luogu 题解: 主席树维护大力树剖. 一条路径上不允许过的点的个数是当前袭击数-$y$时袭击数, 所以允许经过的点的个数是总数-当前袭击数+$y$时袭击数. 用主席树去维护每个时 ...
object 转json 相互转换
1.object 转json 2.json转object 参考 https://blog.csdn.net/justry_deng/article/details/80780175
下面这条语句一共创建了多少个对象：String s="a"+"b"+"c"+"d"？
对于如下代码: String s1 = "a"; String s2 = s1 + "b"; String s3 = "a" + " ...
什么是基于Java的Spring注解配置? 给一些注解的例子？
基于Java的配置,允许你在少量的 Java注解的帮助下,进行你的大部分Spring配置而非通过XML文件. 以@Configuration 注解为例,它用来标记类可以当做一个bean的定义,被Sp ...
Zookeeper 的典型应用场景 ?
Zookeeper 是一个典型的发布/订阅模式的分布式数据管理与协调框架,开发人员可以使用它来进行分布式数据的发布和订阅. 通过对 Zookeeper 中丰富的数据节点进行交叉使用,配合 Watch ...
java中的generate
流generate(Supplier s)返回无限顺序无序流,其中每个元素由提供的供应商生成.这适用于生成恒定流,随机元素流等. public class Flow { public static v ...
1、Jetson Nano 远程桌面XP问题
jeston nano上网方法3(最简单的方法) 最简单的方法真的特简单,用USB数据线连接主板的USB接口以及手机,打开手机的USB共享即可,若要使用静态IP,可在主板上修改配置文件,接口一般为u ...
vue2源码框架和流程分析
vue整体框架和主要流程分析之前对看过比较多关于vue源码的文章,但是对于整体框架和流程还是有些模糊,最后用chrome debug对vue的源码进行查看整理出这篇文章.... 本文对vue的整体框 ...
老版本的Spring应用该如何应对CVE-2022-22965漏洞？
昨天,在发布了<Spring官宣承认网传大漏洞,并提供解决方案>之后.群里就有几个小伙伴问了这样的问题:我们的Spring版本比较老,该怎么办?这是一个好问题,所以DD今天单独拿出来说说. ...
Hibernate快速上手
一. Hibernate介绍 1. Hibernate简介 Hibernate是一个开放源码的对象-关系映射(ORM)框架,他对JDBC进行了轻量级封装,开发人员可以使用面向对象的编程思想来进行持久层 ...

Python多线程Threading爬取图片，保存本地，openpyxl批量插入图片到Excel表中

Python多线程Threading爬取图片，保存本地，openpyxl批量插入图片到Excel表中的更多相关文章

随机推荐

热门专题