一次Python爬虫的修改，抓取淘宝MM照片

这篇文章是2016-3-2写的，时隔一年了，淘宝的验证机制也有了改变。代码不一定有效，保留着作为一种代码学习。

崔大哥这有篇>>小白爬虫第一弹之抓取妹子图不失为学python爬虫的绝佳教材，动力十足。但是这他篇文章中最下边那段代码中32行应改为img = self.request.get(img_url)才能跑起来，据说这是故意留的坑，记着点啊。

本修改为在原基础上的一次学习与优化，毕竟刚开始学习，故代码中注释有所保留，方便以后回顾与学习语法。

请先了解原来能实现的目标，在此不再赘述，原文地址Python爬虫实战四之抓取淘宝MM照片，感谢作者的代码与思路。

本修改详情

代码改写为python3.5运行，因为3.5版本语法与模块有所变更
增加cookie验证解决跳转
无法保存图片能够容错而不是停止运行
其他细节修改

流程修改为：

加上cookie与伪装浏览器后先保存所有详情页，因为cookie有过期时间，而保存所有图片太耗时，故先保存详情页面下来，再提取网址获取图片。也可以将提取出来的地址保存为文件再导入获取图片，另一个思路而已，皆可行。

代码部分：

spider.py

#!/usr/bin/python
# -*- coding:utf-8 -*-
 
import urllib.request
import re
import tool
import os
import http.cookiejar
 
#抓取MM
class Spider:
 
	#页面初始化
	def __init__(self):
		self.siteURL = 'https://mm.taobao.com/json/request_top_list.htm'
		self.tool = tool.Tool()
 
	#获取索引页面的内容
	def getPage(self,pageIndex):
		url = self.siteURL + "?page=" + str(pageIndex)
		request = urllib.request.Request(url)
		response = urllib.request.urlopen(request)
		return response.read().decode('gbk')
 
	#获取索引界面所有MM的信息，list格式
	def getContents(self,pageIndex):
		page = self.getPage(pageIndex)
		pattern = re.compile('<div class="list-item".*?pic-word.*?<a href="(.*?)".*?<img src="(.*?)".*?<a class="lady-name.*?>(.*?)</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>',re.S)
		items = re.findall(pattern,page)
		contents = []
		for item in items:
			contents.append([item[0],item[1],item[2],item[3],item[4]])
		return contents
 
	#获取MM个人详情页面
	def getDetailPage(self,infoURL):
		def makeMyOpener(head = {
			'accept-encoding':'deflate, sdch',
			'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
			'Accept-Language': 'zh-CN,zh;q=0.8',
			#此处填写浏览器发送的cookie数据，开发者模式可捕获
			#'cookie':'',
			'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36'
		}):
			cookie = http.cookiejar.CookieJar()
			opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cookie))
			header = []
			for key, value in head.items():
				elem = (key, value)
				header.append(elem)
			opener.addheaders = header
			return opener
 
		oper = makeMyOpener()
		uop = oper.open(infoURL)
		data = uop.read().decode('gbk')
		return data
		# response = urllib.request.urlopen(infoURL)
		# return response.read().decode('gbk')
 
	#获取个人文字简介
	def getBrief(self,page):
		pattern = re.compile('<div class="mm-aixiu-content".*?>(.*?)<!--',re.S)
		result = re.search(pattern,page)
		#print(result.group())
		return self.tool.replace(result.group(1))
 
	#获取页面所有图片
	def getAllImg(self,page):
		pattern = re.compile('<div class="mm-aixiu-content".*?>(.*?)<!--',re.S)
		#个人信息页面所有代码
		content = re.search(pattern,page)
		#从代码中提取图片
		patternImg = re.compile('<img.*?src="(.*?)"',re.S)
		images = re.findall(patternImg,content.group(1))
		return images
 
	#保存多张写真图片
	def saveImgs(self,images,name):
		number = 1
		print (u"发现",name,u"共有",len(images),u"张照片")
		for imageURL in images:
			splitPath = imageURL.split('.')
			splitPath=splitPath
			fTail = splitPath.pop()
			if len(fTail) > 3:
				fTail = "jpg"
			fileName = name + "/" + str(number) + "." + fTail
			imageURL='https:'+imageURL
			self.saveImg(imageURL,fileName)
			number += 1
 
	# 保存头像
	def saveIcon(self,iconURL,name):
		splitPath = iconURL.split('.')
		fTail = splitPath.pop()
		fileName = name + "/icon." + fTail
		self.saveImg(iconURL,fileName)
 
	#保存个人简介
	def saveBrief(self,content,name):
		fileName = name + "/" + name + ".txt"
		f = open(fileName,"w+")
		print (u"正在保存信息为",fileName)
		f.write(content.decode('utf-8'))
 
	#保存图片地址页到各文件夹中
	def saveToLocal(self,Li,name):
		fileName = name + "/" +"urlPage.txt"
		print (u"正在保存图片地址页：",fileName)
		#f.write(content.decode('utf-8'))
		# pre=pre.replace("[","")
		# pre=pre.replace("]","")+"\n"
		#print (pre)
		f = open(fileName,"w")
		f.write(Li)
		f.close()
 
		#追加方式写入当前爬行的名字，后续调用
		content=name+" "
		with open('url.txt', 'a') as url:
			url.write(content)
			url.close()
		print (name+u"追加完成！\n")
 
	#传入图片地址，文件名，保存单张图片
	def saveImg(self,imageURL,fileName):
		try:
			u = urllib.request.urlopen(imageURL)
			data = u.read()
			f = open(fileName, 'wb')
			f.write(data)
			print (u"正在保存的一张图片为",fileName)
			f.close()
		except urllib.request.URLError as e:
			 print (e.reason)
 
	#创建新目录
	def mkdir(self,path):
		path = path.strip()
		# 判断路径是否存在
		# 存在	 True
		# 不存在   False
		isExists=os.path.exists(path)
		# 判断结果
		if not isExists:
			# 如果不存在则创建目录
			print (u"新建了名字叫做",path,u'的文件夹')
			# 创建目录操作函数
			os.makedirs(path)
			return True
		else:
			# 如果目录存在则不创建，并提示目录已存在
			print (u"名为",path,'的文件夹已经创建成功')
			return False
 
	#将一页淘宝MM的信息保存起来
	def savePageInfo(self,pageIndex):
		#获取第一页淘宝MM列表
		contents = self.getContents(pageIndex)
		for item in contents:
			#item[0]个人详情URL,item[1]头像URL,item[2]姓名,item[3]年龄,item[4]居住地
			print (u"发现一位名字叫",item[2],u"年龄",item[3],u",她在",item[4])
			print (u"正在保存",item[2],"的信息")
 
			print (u"个人详情地址是","https:"+str(item[0]))
			#个人详情页面的URL
			detailURL = "http:"+str(item[0])
			#得到个人详情页面代码
			detailPage = self.getDetailPage(detailURL)
			#获取个人简介
			brief = self.getBrief(detailPage)
			#获取所有图片列表
			images = self.getAllImg(detailPage)
			self.mkdir(item[2])
			#保存个人简介
			self.saveBrief(brief.encode('utf-8'),item[2])
			#保存图片地址页到本地
			self.saveToLocal(detailPage,item[2])
			#保存头像
			self.saveIcon("https:"+str(item[1]),item[2])
 
	#删除旧名单(如果有)
	def deleteOldTxt(self):
		filename = 'url.txt'
		if os.path.exists(filename):
			os.remove(filename)
			print("\n发现旧名单，已删除\n采集开始\n")
 
	#传入起止页码，获取MM页面保存
	def savePagesInfo(self,start,end):
		for i in range(start,end+1):
			print (u"正在寻找第",i,u"个地方")
			self.savePageInfo(i)
			#保存图片
			#self.saveImgs(images,item[2])
 
	#读取名字list
	def openNameList(self):
		with open("url.txt","r") as f:
			for line in f:
				line=line.strip()
				# line.split(",")
				# result.append(line)
				#result.append(line.split(","))
			#\s匹配空格与tab，\s+表示至少一个
			result=re.split(r'\s+',line)
		return result
 
	#逐个调取文件夹下页面中地址来保存
	def saveAll(self):
		i=spider.openNameList()
		for name in i:
			print ("当前正在保存的是"+name+"的图片")
			filepath=name+"/urlPage.txt"
			with open(filepath,"r") as urlContent:
				urlContent=urlContent.read()
			images=spider.getAllImg(urlContent)
			spider.saveImgs(images,name)
 
#传入起止页码即可，在此传入了6,10,表示抓取第6到10页的MM
spider = Spider()
spider.deleteOldTxt()
spider.savePagesInfo(6,10)
print("\n第一步保存信息完成，输入y保存所有图片，其他信息退出：")
a=input()
if a=='y':
	spider.saveAll()
else:
	pass

tool.py

#!/usr/bin/python
#-*- coding:utf-8 -*-
import re
 
#处理页面标签类
class Tool:
    #去除img标签,1-7位空格,
    removeImg = re.compile(r'<img.*?>| {1,7}| ')
    #删除超链接标签
    removeAddr = re.compile(r'<a.*?>|</a>')
    #把换行的标签换为\n
    replaceLine = re.compile(r'<tr>|<div>|</div>|</p>')
    #将表格制表<td>替换为\t
    replaceTD= re.compile(r'<td>')
    #将换行符或双换行符替换为\n
    replaceBR = re.compile(r'<br><br>|<br>')
    #将其余标签剔除r
    removeExtraTag = re.compile(r'<.*?>')
    #将多行空行删除
    removeNoneLine = re.compile(r'\n+')
	#删除 
    removeSpace=re.compile(r' ')
    def replace(self,x):
        x = re.sub(self.removeImg,"",x)
        x = re.sub(self.removeAddr,"",x)
        x = re.sub(self.replaceLine,"\n",x)
        x = re.sub(self.replaceTD,"\t",x)
        x = re.sub(self.replaceBR,"\n",x)
        x = re.sub(self.removeExtraTag,"",x)
        x = re.sub(self.removeNoneLine,"\n",x)
        x = re.sub(self.removeSpace,"",x)
        #strip()将前后多余内容删除
        return x.strip()

cookie获取方式：

注意只取cookie部分复制，把#去掉

实现效果：

总结：

思路很重要，与大家一起学习。小生刚出道，大神勿喷。

欢迎大家探讨。

2016-3-2 By WangZilong

一次Python爬虫的修改，抓取淘宝MM照片的更多相关文章

芝麻HTTP：Python爬虫实战之抓取淘宝MM照片
本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式在这里我们用到的URL ...
Python爬虫之一 PySpider 抓取淘宝MM的个人信息和图片
ySpider 是一个非常方便并且功能强大的爬虫框架,支持多线程爬取.JS动态解析,提供了可操作界面.出错重试.定时爬取等等的功能,使用非常人性化. 本篇通过做一个PySpider 项目,来理解 Py ...
python 爬虫实战4 爬取淘宝MM照片
本篇目标抓取淘宝MM的姓名,头像,年龄抓取每一个MM的资料简介以及写真图片把每一个MM的写真图片按照文件夹保存到本地熟悉文件保存的过程 1.URL的格式在这里我们用到的URL是 http:/ ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
简单的抓取淘宝关键字信息、图片的Python爬虫|Python3中级玩家：淘宝天猫商品搜索爬虫自动化工具（第一篇）
Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇) 淘宝改字段,Bugfix,查看https://github.com/hunterhug/taobaoscrapy.git 由于Gith ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
Python爬虫学习==>第十二章：使用 Selenium 模拟浏览器抓取淘宝商品美食信息
学习目的: selenium目前版本已经到了3代目,你想加薪,就跟面试官扯这个,你赢了,工资就到位了,加上一个脚本的应用,结局你懂的正式步骤需求背景:抓取淘宝美食 Step1:流程分析搜索关键字 ...
python(27) 抓取淘宝买家秀
selenium 是Web应用测试工具,可以利用selenium和python,以及chromedriver等工具实现一些动态加密网站的抓取.本文利用这些工具抓取淘宝内衣评价买家秀图片. 准备工作下 ...
Selenium模拟浏览器抓取淘宝美食信息
前言: 无意中在网上发现了静觅大神(崔老师),又无意中发现自己硬盘里有静觅大神录制的视频,于是乎看了其中一个,可以说是非常牛逼了,让我这个用urllib,requests用了那么久的小白,体会到sel ...

随机推荐

mysql修改default值
ALTER TABLE xxxxx ALTER COLUMN xxxxx SET DEFAULT '0';
六十一.常用组件、 Kafka集群、 Hadoop高可用
1.Zookeeper安装搭建Zookeeper集群并查看各服务器的角色停止Leader并查看各服务器的角色 1.1 安装Zookeeper1)编辑/etc/hosts ,所有集群主机可以相互 pin ...
bzoj2738矩阵乘法
题意: 给你一个N*N的矩阵,没有修改,每次询问一个子矩形中的第K小数. 题目链接思路: 当它只有一列时,其实就是区间第K大,也就是整体二分可以解决的. 现在到了二维,只需要将之前的树状数组改成二维 ...
luogu 1144
最短路计数 #include <bits/stdc++.h> using namespace std; , M = 2e6 + ; << ); #define gc getch ...
树套树【bzoj3262】陌上花开
/* [bzoj3262]陌上花开 2014年6月19日1,2430 Description 有n朵花,每朵花有三个属性:花形(s).颜色(c).气味(m),又三个整数表示.现要对每朵花评级,一朵花的 ...
sweiper做一个tab切换
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
CUDA编程前言
GPU架构 GPU特别适用于密集计算,高度可并行计算,图形学晶体管主要被用于执行计算,而不是缓存数据,控制指令流 GPU计算的历史 2001/2002 -- 研究人员把GPU当做数据并行协处理器 ...
python下载后出现python 已停止工作
背景: 在执行IDLE或者在terminal窗口执行 python命令时出现如下提示,修改了防火墙关闭也不行,找不到解决办法? 如图: [解决方案] 1.卸载重装python,确保python版本与系 ...
Telegraf+Influxdb+Grafana（Windows下本机简易监控系统搭建）
1.文件名称 telegraf-1.5.0_windows_amd64.zip influxdb-1.4.2_windows_amd64.zip grafana-4.6.3.windows-x64.z ...
ubuntu video and audio
推荐你直接安装ubuntu-studio系统.里面有默认安装了很多多媒体软件,主要集中在4个方面1.音频编辑:Jack, Ardour, Audacity, Qtractor. Hydrogen, Y ...

一次Python爬虫的修改，抓取淘宝MM照片

一次Python爬虫的修改，抓取淘宝MM照片的更多相关文章

随机推荐

热门专题