Python 保存爬行动物捕捉网页

选址的桌面壁纸网站汽车主题：

下面的两个print打开调试期间

#print tag

#print attrs

#!/usr/bin/env python

import re

import urllib2

import HTMLParser

base = "http://desk.zol.com.cn"

path = '/home/mk/cars/'

star = ''

def get_url(html):

	parser = parse(False)

	request = urllib2.Request(html)

	response = urllib2.urlopen(request)

	resp = response.read()

	parser.feed(resp)

def download(url):

	content = urllib2.urlopen(url).read()

	format = '[0-9]*\.jpg';

	res = re.search(format,url);

	print 'downloading:',res.group()

	filename = path+res.group()

	f = open(filename,'w+')

	f.write(content)

	f.close()

class parse(HTMLParser.HTMLParser):

	def __init__(self,Index):

		self.Index = Index;

		HTMLParser.HTMLParser.__init__(self)

	def handle_starttag(self,tag,attrs):

		#print tag

		#print attrs

		if(self.Index):

			if not cmp(tag,'a'):

				if(len(attrs) == 4):

					if(attrs[0] ==('class','pic')):

						#print tag

						#print attrs

						new = base+attrs[1][1]

						print 'found a link:',new

						global star

						star = new

						get_url(new)

		else:

			if not cmp(tag,'img'):

				if(attrs[0] == ('id','bigImg')):

					#print tag

					#print attrs

					Image_url = attrs[1][1]

					print 'found a picture:',Image_url

					download(Image_url)

			if not cmp(tag,'a'):

				if (len(attrs) == 4):

					if (attrs[1] == ('class','next')):

						#print tag

						#print attrs

						next = base + attrs[2][1]

						print 'found a link:',next

						if (star != next):

							get_url(next)

Index_url = 'http://desk.zol.com.cn/qiche/'

con = urllib2.urlopen(Index_url).read()

Parser_index = parse(True)

Parser_index.feed(con)

唯一的缺点是，在网站上漂亮的壁纸桌面壁纸。

。。

Python 保存爬行动物捕捉网页的更多相关文章

python通过代理刷网页点击量
python通过代理刷网页点击量更新异常处理情况 @time 2013-0803 更新循环里计数问题和随机等待时间问题 #!/usr/bin/python #-*- coding:utf-8 -*- ...
python笔记之提取网页中的超链接
python笔记之提取网页中的超链接对于提取网页中的超链接,先把网页内容读取出来,然后用beautifulsoup来解析是比较方便的.但是我发现一个问题,如果直接提取a标签的href,就会包含jav ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
Python 保存数据的方法（4种方法）
Python 保存数据的方法: open函数保存使用with open()新建对象写入数据(这里使用的是爬取豆瓣读书中一本书的豆瓣短评作为例子) import requests from lxml ...
python 处理抓取网页乱码
python 处理抓取网页乱码问题一招鲜相信用python的人一定在抓取网页时,被编码问题弄晕过一阵前几天写了一个测试网页的小脚本,并查找是否包含指定的信息. 在html = urllib2. ...
Python 爬取单个网页所需要加载的地址和CSS、JS文件地址
Python 爬取单个网页所需要加载的URL地址和CSS.JS文件地址通过学习Python爬虫,知道根据正式表达式匹配查找到所需要的内容(标题.图片.文章等等).而我从测试的角度去使用Python爬 ...
python之爬取网页数据总结（一）
今天尝试使用python,爬取网页数据.因为python是新安装好的,所以要正常运行爬取数据的代码需要提前安装插件.分别为requests Beautifulsoup4 lxml 三个插件 ...
python python 入门学习之网页数据爬虫cnbeta文章保存
需求驱动学习的动力. 因为我们单位上不了外网所以读新闻是那么的痛苦,试着自己抓取网页保存下来,然后离线阅读.今天抓取的是cnbeta科技新闻,抓取地址是http://m.cnbeta.com/wap/ ...
API例子：用Python驱动Firefox采集网页数据
1,引言本文讲解怎样用Python驱动Firefox浏览器写一个简易的网页数据采集器.开源Python即时网络爬虫项目将与Scrapy(基于twisted的异步网络框架)集成,所以本例将使用Scra ...

随机推荐

linux进程通信之信号
本节主要学习信号和与信号相关的处理函数,兴许还会更新. http://blog.csdn.net/xiaoliangsky/article/details/40264151 一信号信号是UNIX和 ...
Liftoff Software | Next stop, innovation
Liftoff Software | Next stop, innovation Previous Next Gate One 1.1 Now Available Submitted by Dan M ...
浅谈Storm流式处理框架（转）
Hadoop的高吞吐,海量数据处理的能力使得人们可以方便地处理海量数据.但是,Hadoop的缺点也和它的优点同样鲜明——延迟大,响应缓慢,运维复杂. 有需求也就有创造,在Hadoop基本奠定了大数据霸 ...
pro-engineer&UG
Pro/Engineer操作软件是美国参数技术公司(PTC)旗下的CAD/CAM/CAE一体化的三维软件.Pro/Engineer软件以参数化著称,是参数化技术的最早应用者,在目前的三维造型软件领域中 ...
Learning Cocos2d-x for WP8（1）——创建首个项目
原文:Learning Cocos2d-x for WP8(1)--创建首个项目 Cocos2d-x for WP8开发语言是C++,系列文章将参考兄弟篇Learning Cocos2d-x for ...
HashMap-死锁导致cpu占用100%分析（转）
最近项目里面的一段千年代码出了问题,这个问题以前也出现过,不过不是那么明显,这次迁移机器由以前的4台机子变成2台以后问题被放大,最终不得不解决,特此分析一下. 先放出问题的代码 ? 1 2 3 4 5 ...
Rational Rose的四种视图介绍
Rose模型中有四种视图:Use Case View(用例视图),Logical View(逻辑视图),Component View(组建视图)和Deployment View(配置视图). 用例视图 ...
asp.net Form 认证【转】
第一部分如何运用 Form 表单认证一. 新建一个测试项目为了更好说明,有必要新建一个测试项目(暂且为“FormTest”吧),包含三张页面足矣(Default.aspx.Logi ...
JAVA命令参数详解
JAVA命令参数详解 JAVA命令详解结构说明 Java 和 OldJava JIT 选项另请参阅结构 java [ options ] class [ argument ... ] java ...
mysql-定时调用存储过程
mysql定时调用存储过程,对表数据集表结构进行备份存储过程实例: BEGIN DECLARE tname varchar(64); set @tname = CONCAT('RENAME TABL ...

Python 保存爬行动物捕捉网页

Python 保存爬行动物捕捉网页的更多相关文章

随机推荐

热门专题