Python爬虫之路——简单的网页抓图

转载自我自己的博客:http://www.mylonly.com/archives/1401.html

用Python的urllib2库和HTMLParser库写了一个简单的抓图脚本。主要抓的是http://desk.zol.com.cn/meinv/这个链接下的图片，通过得到图集的起始URL地址。得到第一张图片，然后不断的去获取其下一个图片的URL。继而得到全部首页的图集的图片。

整个源代码例如以下。比較简单。写这个仅仅是简单的练手而已

#coding: utf-8 #############################################################

# File Name: girls.py

# Author: mylonly

# mail: mylonly@gmail.com

# Created Time: Mon 09 Jun 2014 09:23:18 PM CST

#########################################################################

#!/usr/bin/python

import urllib2,HTMLParser,re

#根url

host = "http://desk.zol.com.cn"

#本地保存地址

localSavePath = '/data/girls/'

#起始图片html地址

startHtmlUrl = ''

#图片页Html的地址

htmlUrlList = []

#图片Url地址

imageUrlList = []

#依据得到的图片路径URL将图片下载下来保存本地

def downloadImage(url):

	cont = urllib2.urlopen(url).read()

	patter = '[0-9]*\.jpg';

	match = re.search(patter,url);

	if match:

		print '正在下载文件：',match.group()

		filename = localSavePath+match.group()

		f = open(filename,'w+')

		f.write(cont)

		f.close()

	else:

		print 'no match'

#依据首页得到的图片集遍历每一个图片集

def getImageUrlByHtmlUrl(htmlUrl):

	parser = MyHtmlParse(False)

	request = urllib2.Request(htmlUrl)

	try:

		response = urllib2.urlopen(request)

		content = response.read()

		parser.feed(content)

	except urllib2.URLError,e:

		print e.reason

class MyHtmlParse(HTMLParser.HTMLParser):

	def __init__(self,isIndex):

		self.isIndex = isIndex;

		HTMLParser.HTMLParser.__init__(self)

	def handle_starttag(self,tag,attrs):

		if(self.isIndex):

			if(tag == 'a'):

				if(len(attrs) == 4):

					if(attrs[0] ==('class','pic')):

						newUrl = host+attrs[1][1]

						print '找到一处图片的网页链接:',newUrl

						global startHtml

						startHtmlUrl = newUrl

						getImageUrlByHtmlUrl(newUrl)

		else:

			if(tag == 'img'):

				if(attrs[0] == ('id','bigImg')):

						imageUrl = attrs[1][1]

						print '找到一张图片:',imageUrl

						downloadImage(imageUrl)

						#imageUrlList.append(imageUrl)

			if (tag == 'a'):

				if (len(attrs) == 4):

					if (attrs[1] == ('class','next')):

						nextUrl = host + attrs[2][1]

						print '找到一处图片的网页链接:',nextUrl

						global startHtmlUrl

						if (startHtmlUrl != nextUrl):

							getImageUrlByHtmlUrl(nextUrl)

#分析首页得到每一个图片集的链接

indexUrl = 'http://desk.zol.com.cn/meinv/'

m = urllib2.urlopen(indexUrl).read()

parserIndex = MyHtmlParse(True)

parserIndex.feed(m

Python爬虫之路——简单的网页抓图的更多相关文章

Python爬虫之路——简单网页抓图升级版（添加多线程支持）
转载自我的博客:http://www.mylonly.com/archives/1418.html 经过两个晚上的奋斗.将上一篇文章介绍的爬虫略微改进了下(Python爬虫之路--简单网页抓图),主要 ...
python实现的一个简单的网页爬虫
学习了下python,看了一个简单的网页爬虫:http://www.cnblogs.com/fnng/p/3576154.html 自己实现了一个简单的网页爬虫,获取豆瓣的最新电影信息. 爬虫主要是获 ...
小白学 Python 爬虫（8）：网页基础
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
【音乐爬虫】Python爬虫-selenium+browsermob-proxy 解决动态网页 js渲染问题
1.一般的python爬虫很简单,直接请求对应网址,解析返回的数据即可,但是有很多网站的数据的js动态渲染的,你直接请求是得不到对应的数据的这时就需要其它手段来处理了. 2.以一个例子来说明,整个过 ...
python爬虫之路——初识基本页面构造原理
通过chrome浏览器的使用简单介绍网页构成 360浏览器使用右键审查元素,Chrome浏览器使用右键检查,都可查看网页代码. 网页代码有两部分:HTML文件和CSS样式.其中有<script& ...
python爬虫之路——无头浏览器初识及简单例子
from selenium import webdriver url='https://www.jianshu.com/p/a64529b4ccf3' def get_info(url): inclu ...
Python爬虫使用selenium处理动态网页
对于静态网页,使用requests等库可以很方便的得到它的网页源码,然后提取出想要的信息.但是对于动态网页,情况就要复杂很多,这种页面的源码往往只有一个框架,其内容都是由JavaScript渲染出来的 ...
【python爬虫】一个简单的爬取百家号文章的小爬虫
需求用"老龄智能"在百度百家号中搜索文章,爬取文章内容和相关信息. 观察网页红色框框的地方可以选择资讯来源,我这里选择的是百家号,因为百家号聚合了来自多个平台的新闻报道.首先看 ...
python爬虫之路——初识爬虫三大库，requests,lxml,beautiful.
三大库:requests,lxml,beautifulSoup. Request库作用:请求网站获取网页数据. get()的基本使用方法 #导入库 import requests #向网站发送请求,获 ...

随机推荐

SQL中实现千分位的语句
传递一个sql的小知识,现成的语句,在工作流的表单域中很实用. 数字或字符串转成千分位 ) 字符串转换成数值 )
Ajax : load()
<body> <input type="button" value="Ajax" /> <div id="box&quo ...
hysbz 2243 染色(树链剖分)
题目链接:hysbz 2243 染色题目大意:略. 解题思路:树链剖分+线段树的区间合并,可是区间合并比較简单,节点仅仅要记录左右端点的颜色就可以. #include <cstdio> ...
android-5.1编译配置（van）
必备文件: archives1211.tgz ubuntu_install_1204.tgz 安装指引: ubuntu_install_1204/readme.txt 工作目录结构: git ├── ...
关于VUE的一些指令的介绍
V-cloak 这是一个不常用的指令,出现这个指令的原因是因为有时候网络速度慢,还没加载完vue,代码就开始编译了,这个时候渲染出来的内容就可想而知了 <!DOCTYPE html> &l ...
c++ 常识
1) 功能:格式化字符串输出说明:format指定输出格式,后面跟要输出的变量目前printf支持以下格式: %c 单个字符 ...
[D3] Add label text
If we want to add text to a node or a image // Create container for the images const svgNodes = svg ...
好记性不如烂笔头——double
两个数据转换成double型做差,会出现误差,转换成Decimal就OK了.
Altium Designer中敷铜和板子一样大
angular 响应式表单（登录实例）
一.表单验证 1. 只有一个验证规则: this.myGroup = this.fb.group({ email:['hurong.cen@qq.com',Validators.required], ...

Python爬虫之路——简单的网页抓图

Python爬虫之路——简单的网页抓图的更多相关文章

随机推荐

热门专题