python批量下载图片的三种方法

　　一是用微软提供的扩展库win32com来操作IE：

win32com可以获得类似js里面的document对象，但貌似是只读的（文档都没找到）。

　　二是用selenium的webdriver：

selenium则提供了Chrome，IE，FireFox等的支持，每种浏览器都有execute_script和find_element_by_xx方法，可以方便的执行js脚本（包括修改元素）和读取html里面的元素。不足是selenium只提供对python2.6和2.7的支持。

　　三是用python自带的HTMLParser解析：

HTMLParser则是需要自己写个类继承基类，重写解析元素的方法。

1.win32com

 #将滚动条滑到底,最多滑动20000像素

 #模拟键盘右键，查看多张图片

 import sys

 import win32com.client,win32api

 import urllib.request

 import time

 import os

 def main():

     #获取参数

     url=sys.argv[1]

     #操作IE

     ie=win32com.client.Dispatch("InternetExplorer.Application")

     ie.Navigate(url)

     ie.Visible=True

     last_url=''

     dir_name=''

     while last_url!=url:

         print('\nThe URL is:',url,'\n')

         while ie.ReadyState != 4:

             time.sleep(1)

         while ie.Document.readyState != "complete":

             time.sleep(1)

         #滑动滚动条

         win=ie.Document.parentWindow

         lastY=-1;

         for i in range(40):

             win.scrollTo(0,500*i)

             nowY=win.pageYOffset

             if(nowY==lastY):

                 break

             lastY=nowY

             time.sleep(0.4)

         print('Document load state:',ie.Document.readyState)

         doc=ie.Document

         #第一次需要创建目录

         if(dir_name==''):

             root_dir='E:\\img'

             dir_name=root_dir+'\\'+doc.title

             dir_name=dir_name.replace('|','-')

             if(os.path.exists(root_dir)!=True):

                 os.mkdir(root_dir)

             if(os.path.exists(dir_name)!=True):

                 os.mkdir(dir_name)

         all_image=doc.images

         print('共有',all_image.length,'张图片')

         count=0;

         for img in all_image:

             if(img.id=='b_img'):

                 count=count+1

                 print(count,img.src)

                 time.sleep(1)

                 img_file=urllib.request.urlopen(img.src)

                 byte=img_file.read()

                 print(count,'donwload complete!','-'*10,'size:','{:.3}'.format(byte.__len__()/1024),'KB')

                 if(byte.__len__()>7000):

                     file_name=img.src.replace('/','_')

                     file_name=file_name.replace(':','_')

                     end=file_name.__len__()

                     if(file_name.rfind('!')!=-1):

                         end=file_name.rfind('!')

                     if(file_name.rfind('?')!=-1):

                         end=file_name.rfind('?')

                     file_name=file_name[:end]

                     write_file=open(dir_name+'\\'+file_name,'wb')

                     write_file.write(byte)

                     write_file.close()

                     print(count,file_name,'complete!')

         #下一张

         last_url=url

         win32api.keybd_event(39,0)

         time.sleep(1)

         url=ie.Document.url

         print(last_url,url)

     #ie.Quit()

 if __name__ == '__main__':

     main()

2.selenium

 # -*- coding: cp936 -*-

 import sys

 import urllib

 import time

 import os

 from selenium import webdriver

 def main():

     #获取参数

     url=sys.argv[1]

     #操作IE

     driver=webdriver.Chrome()

     driver.get(url)

     driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

     #创建目录

     dir_name=driver.find_element_by_tag_name('title').text

     print dir_name

     root_dir='E:\\img'

     dir_name=root_dir+'\\'+dir_name

     dir_name=dir_name.replace('|','-')

     if(os.path.exists(root_dir)!=True):

         os.mkdir(root_dir)

     if(os.path.exists(dir_name)!=True):

         os.mkdir(dir_name)

     images=driver.find_elements_by_tag_name('img')

     count=0

     for image in images:

         count=count+1

         image_url=str(image.get_attribute('src'))

         img_file=urllib.urlopen(image_url)

         byte=img_file.read()

         print count,'donwload complete!','-'*10,'size:',byte.__len__()/1024,'KB'

         if(byte.__len__()>7000):

             file_name=image_url.replace('/','_')

             file_name=file_name.replace(':','_')

             end=file_name.__len__()

             if(file_name.rfind('!')!=-1):

                 end=file_name.rfind('!')

             if(file_name.rfind('?')!=-1):

                 end=file_name.rfind('?')

             file_name=file_name[:end]

             write_file=open(dir_name+'\\'+file_name,'wb')

             write_file.write(byte)

             write_file.close()

             print count,file_name,'complete!'

     driver.quit()

 if __name__ == '__main__':

     main()

3.HTMLParser:

 # import modules used here -- sys is a very standard one

 import sys

 import urllib.request

 # Gather our code in a main() function

 from html.parser import HTMLParser

 class MyHTMLParser(HTMLParser):

     def handle_starttag(self,tag,attrs):

         if(tag=='img'):

             for attr in attrs:

                 if(attr[0]=='src'):

                     img_file=urllib.request.urlopen(attr[1])

                     byte=img_file.read()

                     #文件大于1000b则生成文件,添加计数，下载多少图片，显示html代码

                     if(byte.__len__()>1000):

                         file_name=attr[1].replace('/','_')

                         file_name=file_name.replace(':','_')

                         end=file_name.__len__()

                         if(file_name.rfind('!')!=-1):

                             end=file_name.rfind('!')

                         if(file_name.rfind('?')!=-1):

                             end=file_name.rfind('?')

                         file_name=file_name[:end]

 ##                        print(file_name)

                         write_file=open('E:\\img\\'+file_name,'wb')

                         write_file.write(byte)

                         write_file.close()

 def main():

     #获取参数

     url=sys.argv[1]

     print('\nThe URL is:',url,'\n')

     #读取url所指向的资源

     html_file=urllib.request.urlopen(url)

     byte_content=html_file.read()

     #将html网页保存起来

     url_file=open('E:\\img\\html\\result.htm','wb')

     url_file.write(byte_content)

     url_file.close()

     #从字节转换为字符串

     s=str(byte_content, encoding = "utf-8")

     #print(s)

     #bytes.decode(html_file.read())

     parser=MyHTMLParser(strict=False)

     parser.feed(s)

 # Standard boilerplate to call the main() function to begin

 # the program.

 if __name__ == '__main__':

     main()

python批量下载图片的三种方法的更多相关文章

Python实现下载文件的三种方法
下面来看看三种方法是如何来下载zip文件的:方法一: import urllib print "downloading with urllib" url = 'http://www ...
Python 下载图片的三种方法
import os os.makedirs('./image/', exist_ok=True) IMAGE_URL = "http://image.nationalgeographic.c ...
前端下载图片的N种方法
前几天一个简单的下载图片的需求折腾了我后端大佬好几天,最终还是需要前端来搞,开始说不行的笔者最后又行了,所以趁着这个机会来总结一下下载图片到底有多少种方法. 先起个服务使用expressjs起个简单 ...
python实现XML解析的三种方法
python实现XML解析的三种方法三种方法:一是xml.dom.*模块,它是W3C DOM API的实现,若需要处理DOM API则该模块很适合:二是xml.sax.*模块,它是SAX API的实 ...
python下载文件的三种方法
Python开发中时长遇到要下载文件的情况,最常用的方法就是通过Http利用urllib或者urllib2模块. 当然你也可以利用ftplib从ftp站点下载文件.此外Python还提供了另外一种方法 ...
Android TextView里直接显示图片的三种方法
方法一:重写TextView的onDraw方法,也挺直观就是不太好控制显示完图片后再显示字体所占空间的位置关系.一般假设字体是在图片上重叠的推荐这样写.时间关系,这个不付源代码了. 方法二:利用Tex ...
url下载网页的三种方法
# -*- coding: utf-8 -*- import cookielib import urllib2 url = "http://www.baidu.com" print ...
[Python]实现字符串倒序的三种方法
a=" 1: print(a[::-1]) 2: b=list(a) b.reverse() print(''.join(b)) 3: c=len(a)-1 str_1=[] while(c ...
使用Python读写csv文件的三种方法
Python读写csv文件觉得有用的话,欢迎一起讨论相互学习~Follow Me 前言逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是 ...

随机推荐

Oozie 快速入门
设想一下,当你的系统引入了spark或者hadoop以后,基于Spark和Hadoop已经做了一些任务,比如一连串的Map Reduce任务,但是他们之间彼此右前后依赖的顺序,因此你必须要等一个任务执 ...
Sublime Text3 Package Control 在菜单栏中不显示
前言最近由于在 Sublime Text3 下配置了React 开发环境,最近也更新了Sublime Text3 的版本,由此装上了很多的插件.今天打开Sublime 想要通过 `Package C ...
Knockout中文开发指南(完整版API中文文档) 目录索引
a, .tree li > span { padding: 4pt; border-radius: 4px; } .tree li a { color:#46cfb0; text-decorat ...
sizzle编译函数
一个人去完成一件事情,如果派多个人去做的话,只要配合默契,效率比一个人做肯定要高,效率提高,所需的时间就减少了.如果只能一个人完成,那么必须设法提高自己的劳动效率,这个提高可以是量的改变也可以是质的改 ...
OpenNURBS 3DM Viewer
OpenNURBS 3DM Viewer eryar@163.com Abstract. The openNURBS Toolkit consists of C++ source code for a ...
WPF gridview 不允许编辑
WPF gridview正常双击是运行编辑的,如何让他不允许编辑呢,如果采用readonly属性,在双击时会报错,当然可以通过try catch处理,但是这样不好,好一点的解决办法就是在绑定数据时采用 ...
关于SubSonic3.0插件使用SubSonic.Query.Select查询时，字段类型为tinyint时列丢失问题的Bug修复
下午在写代码时,突然发现一个列名为Enable的字段怎么也查询不出来,开始以为可能这个名称是关键字,所以给过滤掉了,所以就将名称修改为IsEnable,问题还是一样......将名称又改为IsEnab ...
深入理解 OWIN 中的 Host 和 Server
The Open Web Interface for .NET (OWIN),注意单词为大写,之前好像都写成了 Owin,但用于项目的时候,可以写成:Microsoft.Owin.*. OWIN 体系 ...
android 伸缩控件ExpandableListView 展开失败的可能原因。
(原创)转载请声明出处http://www.cnblogs.com/linguanh/ 问题原型: ExpandableListView 展开失效. --------------------直接看结论 ...
基于android studio编译工具下的android开发之IBeacon 例子
想直接看主要内容的请调到红字下面. 之所以会接触到android下的IBeacon,是因为我自己导师给的任务.一个网址http://estimote.com/和一句话:看看这个网站,然后试下在安卓手机 ...

python批量下载图片的三种方法

python批量下载图片的三种方法的更多相关文章

随机推荐

热门专题