[python爬虫] 爬取图片无法打开或已损坏的简单探讨
本文主要针对python使用urlretrieve或urlopen下载百度、搜狗、googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨。同时,作者将进一步帮你巩固selenium自动化操作和urllib库等知识。
感谢朋友"露为霜"的帮助!希望以后能实现强大的图片爬虫代码~
一. 引入Selenium自动爬取百度图片
下面这部分Selenium代码的主要功能是:
1.先自动运行浏览器,并访问百度图片链接:http://image.baidu.com/
2.通过driver.find_element_by_xpath()函数获取输入框的位置;
3.在输入框中自动输入搜索关键词"邓肯",再输入回车搜索"邓肯"相关图片;
4.再通过find_element_by_xpath()获取图片的原图url,这里仅获取一张图片;
5.调用urllib的urlretrieve()函数下载图片。
最后整个动态效果如下图所示,但是图片却无法显示:
代码如下:
# -*- coding: utf-8 -*-
import urllib
import re
import time
import os
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import selenium.webdriver.support.ui as ui
from selenium.webdriver.common.action_chains import ActionChains #Open PhantomJS
#driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")
driver = webdriver.Firefox()
wait = ui.WebDriverWait(driver,10) #Search Picture By Baidu
url = "http://image.baidu.com/"
name = u"邓肯"
driver.get(url)
elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")
elem_inp.send_keys(name)
elem_inp.send_keys(Keys.RETURN)
time.sleep(5) #Get the URL of Pictures
#elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a")
elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a/img")
elem_url = elem_pic.get_attribute("src")
print elem_url #Download Pictures
driver.get(elem_url)
urllib.urlretrieve(elem_url,"picture.jpg")
print "Download Pictures!!!"
二. 简单分析原因及知识巩固
1.urllib.urlretrieve()
通过urlretrieve()函数可设置下载进度发现图片是一下子就加载的。这里给大家巩固这个urlretrieve函数的方法和Python时间命名方式,代码如下:
# -*- coding: utf-8 -*-
import urllib
import time
import os #显示下载进度
def schedule(a,b,c):
#a:已下载的数据块 b:数据块的大小 c:远程文件的大小
per = 100.0 * a * b / c
if per > 100 :
per = 100
print '%.2f%%' % per if __name__ == '__main__':
url = "http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg"
#定义文件名 时间命名
t = time.localtime(time.time())
#反斜杠连接多行
filename = str(t.__getattribute__("tm_year")) + "_" + \
str(t.__getattribute__("tm_mon")) + "_" + \
str(t.__getattribute__("tm_mday"))
target = "%s.jpg" % filename
print target
urllib.urlretrieve(url,target,schedule)
print "Download Picture!!!"
发现该图片的大小仅为168字节,其中输出结果如下图,获取的URL地址如下:
http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg
而换张图片是能显示下载进度的,如我的头像。显然我想让程序加个进度就能爬取图片的想法失败。头像地址:http://avatar.csdn.net/F/8/5/1_eastmount.jpg
猜测可能获取的百度URL不是原图地址,或者是个服务器设置了相应的拦截或加密。参考"Python爬虫抓取网页图片",函数相关介绍如下:
>>> help(urllib.urlretrieve)
Help on function urlretrieve in module urllib:
urlretrieve(url, filename=None, reporthook=None, data=None) 参数url:
指定的下载路径
参数 finename:
指定了保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据。)
参数 reporthook:
是一个回调函数,当连接上服务器、以及相应的数据块传输完毕时会触发该回调,
我们可以利用这个回调函数来显示当前的下载进度。
参数 data:
指 post 到服务器的数据,该方法返回一个包含两个元素的(filename, headers)元组,
filename 表示保存到本地的路径,header 表示服务器的响应头。
2.urllib2.urlopen()
换个方法urlopen()实现,同时设置消息头试试,并输出信息和图片大小。
# -*- coding: utf-8 -*-
import os
import sys
import urllib
import urllib2 #设置消息头
url = "http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg"
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) \
AppleWebKit/537.36 (KHTML, like Gecko) \
Chrome/35.0.1916.114 Safari/537.36',
'Cookie': 'AspxAutoDetectCookieSupport=1'
}
request = urllib2.Request(url, None, header)
response = urllib2.urlopen(request)
print response.headers['Content-Length'] with open("picture.jpg","wb") as f:
f.write(response.read())
print response.geturl()
print response.info() #返回报文头信息
print urllib2.urlopen(url).read()
返回内容是”HTTPError: HTTP Error 403: Forbidden“,Selenium打开如下:
其中403错误介绍如下,服务器拒绝服务:
换成我的博客图像那张图是能下载的,同时设置消息头和代理,推荐一篇文章:
[Python]网络爬虫(五):urllib2的使用细节与抓站技巧
三. 解决方法
主要参考三篇文章和自己的一些想法:
selenium+python 爬取网络图片(2) -- 百度
Python 3 多线程下载百度图片搜索结果
CSDN博客搬家到WordPress - curl设置headers爬取
第一个方法 F12审查元素和SRC的骗局
这是感谢"露为霜"同学提供的方法,如果你通过浏览器点开百度搜索"邓肯"的第一张图片,复制网址后,会发现图片真实的地址为:
http://gb.cri.cn/mmsource/images/2015/11/22/sb2015112200073.jpg
此时你再分析百度搜索页面,你会发现"F12审查元素和获取src元素的行为欺骗了你",正是因为它俩定位到了错误的图片链接。而真实的URL是在"ul/li/"中的"data-objurl"属性中。
代码如下:
# -*- coding: utf-8 -*-
import urllib
import re
import time
import os
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import selenium.webdriver.support.ui as ui
from selenium.webdriver.common.action_chains import ActionChains #Open PhantomJS
#driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")
driver = webdriver.Firefox()
wait = ui.WebDriverWait(driver,10) #Search Picture By Baidu
url = "http://image.baidu.com/"
name = u"邓肯"
driver.get(url)
elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")
elem_inp.send_keys(name)
elem_inp.send_keys(Keys.RETURN)
time.sleep(5) #Get the URL of Pictures
num = 1
elem_pic = driver.find_elements_by_xpath("//div[@class='imgpage']/ul/li")
for elem in elem_pic:
elem_url = elem.get_attribute("data-objurl")
print elem_url
#Download Pictures
name = "%03d" % num
urllib.urlretrieve(elem_url, str(name) + ".jpg")
num = num + 1
else:
print "Download Pictures!!!"
运行代码成功爬取了9张图片,显然成功了!虽然最后报错:IOError: [Errno socket error] [Errno 10060] ,只爬取了9张图片,但是至少可以正确解决了该问题。运行截图如下所示:
同样的道理,googto的elem.get_attribute("src")改成elem.get_attribute("data-imgurl")即可获取正确的图片地址并正确下载。
PS:百度图片动态加载的功能是非常强大的,当你的鼠标拖动时,它会自动增加新的页面,在<ul>中包括新的一批<li>张图片,这也是不同于其它网页在右下角点击"1、2、3..."翻页的,可能也会成为海量图片爬取的又一难点。
第二个方法 Selenium使用右键另存为
还是使用老的链接,虽然读取是无法显示的,但尝试通过Selenium的鼠标右键另存为功能,看能不能爬取成功。
# -*- coding: utf-8 -*-
import urllib
import re
import time
import os
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import selenium.webdriver.support.ui as ui
from selenium.webdriver.common.action_chains import ActionChains #Open PhantomJS
driver = webdriver.Firefox()
wait = ui.WebDriverWait(driver,10) #Search Picture By Baidu
url = "http://image.baidu.com/"
name = u"邓肯"
driver.get(url)
elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")
elem_inp.send_keys(name)
elem_inp.send_keys(Keys.RETURN)
time.sleep(5) #Get the URL of Pictures
elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a/img")
elem_url = elem_pic.get_attribute("src")
print elem_url #鼠标移动至图片上 右键保存图片
driver.get(elem_url)
print driver.page_source
elem = driver.find_element_by_xpath("//img")
action = ActionChains(driver).move_to_element(elem)
action.context_click(elem) #右键 #当右键鼠标点击键盘光标向下则移动至右键菜单第一个选项
action.send_keys(Keys.ARROW_DOWN)
action.send_keys('v') #另存为
action.perform()
print "Download Pictures!!!"
运行效果如下图所示。虽然它能实现右键另存为,但是需要手动点击保存,其原因是selenium无法操作操作系统级的对话框,又说"set profile"代码段的设置能解决问题的并不靠谱。通过钩子Hook函数可以实现,以前做过C#的钩子自动点击功能,但是想到下载图片需要弹出并点击无数次对话框就很蛋疼,所以该方法并不好!
钩子函数java版本结合robot可以阅读下面这篇文章:
selenium webdriver 右键另存为下载文件(结合robot and autoIt)
第三个方法 通过Selenium自动点击百度的下载按钮
其实现过程就是通过Selenium找到"下载"按钮,再点击或获取链接即可。
该方法参考文章:selenium+python 爬取网络图片(2) -- 百度
同时,这里需要强调百度动态加载,可以通过Selenium模拟滚动窗口实现,也参考上面文章。其中核心代码为:
driver.maximize_window()
pos += i*500 # 每次下滚500
js = "document.documentElement.scrollTop=%d" % pos
driver.execute_script(js)
第四个方法 百度图片解码下载及线程实现
参考文章:Python 3 多线程下载百度图片搜索结果
最近看了一些优秀的文章,真心感觉自己缕蚁一般,太过渺小,还有好多知识需要学习啊!加油~而且不知道现在自己做的这些东西是否有用?心理的几个想法一直还未实现,挺担心的。还是自己博客描述那句话:
无知的自己 · 乐观的面对 · 谦逊的学习 · 低调的前行 · 更要会生活
希望文章对你有所帮助,如果有错误或不足之处,还请海涵~
(By:Eastmount 2015-12-07 清晨6点 http://blog.csdn.net/eastmount/)
[python爬虫] 爬取图片无法打开或已损坏的简单探讨的更多相关文章
- 利用python爬虫爬取图片并且制作马赛克拼图
想在妹子生日送妹子一张用零食(或者食物类好看的图片)拼成的马赛克拼图,因此探索了一番= =. 首先需要一个软件来制作马赛克拼图,这里使用Foto-Mosaik-Edda(网上也有在线制作的网站,但是我 ...
- Python 爬虫 爬取图片入门
爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 用户看到的网页实质是由 HTML 代码构成的,爬 ...
- Spider-Python实战之通过Python爬虫爬取图片制作Win7跑车主题
1. 前期准备 1.1 开发工具 Python 3.6 Pycharm Pro 2017.3.2 Text文本 1.2 Python库 requests re urllib 如果没有这些Python库 ...
- 使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip install ...
- Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频 喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
- Python爬虫爬取全书网小说,程序源码+程序详细分析
Python爬虫爬取全书网小说教程 第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下 点击Network之后出现如下 ...
- python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍 爬取英文名: 一. 爬虫模块详细设计 (1)整体思路 对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
- Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理 源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
- 用Python爬虫爬取广州大学教务系统的成绩(内网访问)
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
随机推荐
- 大家一起做训练 第一场 E Number With The Given Amount Of Divisors
题目来源:CodeForce #27 E 题目意思和题目标题一样,给一个n,求约数的个数恰好为n个的最小的数.保证答案在1018内. Orz,这题训练的时候没写出来. 这道题目分析一下,1018的不大 ...
- hdu2090-2097
hdu2090 模拟 #include<stdio.h> int main(){ ]; ,a1,a2; ; while(scanf("%s%lf%lf",b,& ...
- java并发编程-Executor框架 + Callable + Future
from: https://www.cnblogs.com/shipengzhi/articles/2067154.html import java.util.concurrent.*; public ...
- 【HAOI2010】订货
可以DP也可以是费用流,然而被我用非常简单的DP破了[开心] 原题: 某公司估计市场在第i个月对某产品的需求量为Ui,已知在第i月该产品的订货单价为di,上个月月底未销完的单位产品要付存贮费用m,假定 ...
- Memcached 真的过时了吗?
这两年Redis火得可以,Redis也常常被当作Memcached的挑战者被提到桌面上来.关于Redis与Memcached的比较更是比比皆是.然而,Redis真的在功能.性能以及内存使用效率上都超越 ...
- stardog 基本试用(社区版)
stardog 是一个知识图谱的实现,实现了sparql 以及graphql 协议,使用起来也比较简单,官方文档挺全 下载 社区版,注册之后会有邮件通知,里面会包含license 以及软件包 下载地址 ...
- Oracle集合类型
Oracle集合类型介绍 集合类型 1. 使用条件: a. 单行单列的数据,使用标量变量 . b. 单行多列数据,使用记录 c. 单列多行数据,使用集合 *集 ...
- sql server insert values 多值 与oracle 的不同
类似的语句在 oracle 中是不能执行的 insert into temp_tbl values('app'),('demo'); 但是在sql server 中是可以的 insert into c ...
- C# 线程会合实例
有这样一个题目:四个线程t1,t2,t3,t4,向4个文件中写入数据,要求:t1只能写入“1”,t2只能写入“2”,t3只能写入“3”,t4只能写入“4”,对4个文件A,B,C,D写入如下内容: A: ...
- Windows OS系统变量
%userprofile% C:\Users\Administrator\ %windir% C:\Windows\