Python抓取糗事百科成人版图片

最近开始学习爬虫，一开始看的是静觅的爬虫系列文章，今天看到糗事百科成人版，心里就邪恶了一下，把图片都爬下来吧，哈哈~

虽然后来实现了，但还是存在一些问题，暂且不提，先切入正题吧，没什么好说的，直接上代码如下：

环境：Python2.79

 #coding: utf-8

 import urllib2

 import urllib

 import re

 import os

 #糗百成人版抓取图片

 class QBAdult:

     #类初始化

     def __init__(self):

         self.baseURL = "http://www.qiubaichengnian.com/"

     #获取索引页面内容

     def getPage(self, pageIndex):

         url = self.baseURL + "index_" + str(pageIndex) + ".html"

         req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',

                         'Accept':'text/html;q=0.9,*/*;q=0.8',

                         'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',

                         'Accept-Encoding':'gzip',

                         'Connection':'close',

                         'Referer':None #注意如果依然不能抓取的话，这里可以设置抓取网站的host

                     }

         req_timeout = 5

         request = urllib2.Request(url, None, req_header)

         reponse = urllib2.urlopen(request, None, req_timeout)

         #print reponse.read().decode('gbk')

         return reponse.read().decode('gbk')

     #获取页面所有条目信息，list格式

     def getContents(self, pageIndex):

         page = self.getPage(pageIndex)

         pattern = re.compile('div class="ui-module".*?<a href=.*?>(.*?)</a>.*?<img.*?src="(.*?)"', re.S)

         items = re.findall(pattern, page)

         #for item in items:

             #print item[0], item[1]

         return items

     #获取页面所有图片

     def getAllImgs(self, items):

         images = []

         for item in items:

             images.append(item[1])

         return images

     #保存多张图片

     def saveAllImg(self, images, n, name):

         number = 1

         print u"--------------正在保存第", n , u"页美女图片-------------"

         for imageURL in images:

             splitPath = imageURL.split('.')

             fTail = splitPath.pop()

             fileName = name + "/" + str(n) + "-" + str(number) + "." + fTail

             self.saveImg(imageURL, fileName)

             number += 1

     #传入图片地址，文件名，保存单张图片

     def saveImg(self, imageURL, fileName):

         u = urllib.urlopen(imageURL)

         data = u.read()

         f = open(fileName, 'wb')

         f.write(data)

         print u"正在保存美女图片", fileName

         f.close()

     #创建新目录

     def mkdir(self, path):

         path = path.strip()

         #判断是否存在

         isExists = os.path.exists(path)

         if not isExists:

             print u"新建名字为", path, u"的文件夹"

             os.makedirs(path)

             return True

         else:

             #如果目录存在则不创建，并提示目录已存在

             print u"名为", path, u"的文件夹已经创建成功"

             return False

     def savePageInfos(self, start, end):

         fileName = "beautifull"

         #获取一页内容,存入beautifull文件夹

         self.mkdir(fileName)

         for i in range(start, end+1):

             print u"正在保存第", i, "页的美女图片"

             contents = self.getContents(i)

             images = self.getAllImgs(contents)

             self.saveAllImg(images, i, fileName)

 qAdult = QBAdult()

 qAdult.savePageInfos(1, 301)

其中16-23行的代码是后来出现IOERROR以及超时等错误后加上的，但是这种方法只是治标不治本，时不时程序还会停止，错误如下：

小规模抓取图片，几百页抓取会出现如上问题，我还没有找到什么原因。。。。

Python抓取糗事百科成人版图片的更多相关文章

Xpath--使用Xpath爬取糗事百科成人版图片
#!usr/bin/env python#-*- coding:utf-8 _*-"""@author:Hurrican@file: 爬取糗事百科.py@time: 20 ...
python 抓取糗事百科糗图
1 首先看下要抓取的页面这是糗事百科里面的糗图页面,每一页里面有很多的图片,我们要做的就是把这些图片抓取下来. 2 分析网页源代码发现源代码里面的每张图是这样储存的,所以决定使用正则匹配出图片的u ...
Python爬虫--抓取糗事百科段子
今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单.程序每按一次回车输出一条段子,代码参考了 http://cuiqingcai.com/990.html 但该 ...
Python爬取糗事百科
import urllib import urllib.request from bs4 import BeautifulSoup """ 1.抓取糗事百科所有纯 ...
bs4抓取糗事百科
抓取糗事百科内容及评论,不包含图片信息.user-agent填入浏览器的即可.user-agent对应的value,360极速浏览器的话,可以在地址栏输入about:version,回车,用户代理后面 ...
python爬取糗事百科段子
初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) #-*-coding:utf--*- import urllib import urllib2 import re page = url ...
python 爬取糗事百科 gui小程序
前言:有时候无聊看一些搞笑的段子,糗事百科还是个不错的网站,所以就想用Python来玩一下.也比较简单,就写出来分享一下.嘿嘿环境:Python 2.7 + win7 现在开始,打开糗事百科网站,先 ...
Python爬取糗事百科示例代码
参考链接:http://python.jobbole.com/81351/#comment-93968 主要参考自伯乐在线的内容,但是该链接博客下的源码部分的正则表达式部分应该是有问题,试了好几次,没 ...
Python爬虫爬取糗事百科段子内容
参照网上的教程再做修改,抓取糗事百科段子(去除图片),详情见下面源码: #coding=utf-8#!/usr/bin/pythonimport urllibimport urllib2import ...

随机推荐

webpack.dev.conf.js详解
转载自:https://www.cnblogs.com/ye-hcj/p/7087205.html webpack.dev.conf.js详解 //引入当前目录下的utils.js文件模块var ut ...
Connecting to a Remote Serial Port over TCP/IP
https://www.acmesystems.it/socat This article illustrates how to realize a lan to serial gateway Rem ...
NC二次开发常用的方法
//这张表存放的是所有单据模板的信息表如果不知道单据模板的信息后可在数据库中查询PUB_BILLTEMPLET//这张表是打印模板的表改模板可以再此表修改pub_print_template//获取 ...
乐观锁的一种实现方式——CAS
在java里面,synchronized关键字就是一种悲观锁,因为在加上锁之后,只有当前线程可以操作变量,其他线程只有等待. CAS操作是一种乐观锁,它假设数据不会产生冲突,而是在提交的时候再进行版本 ...
HTTPS复习
Https Https其实是两个协议,即HTTP协议和SSL协议,但是由于HTTP协议应用广泛,而且需要为其提供数据隐私保护,所以将HTTP协议与SSL协议结合.HTTP属于应用层,在远古时代,它只需 ...
java 加密解密
https://www.cnblogs.com/kingsleylam/category/752546.html <java加密与解密艺术>代码可抄袭.
【c++ primer, 5e】特殊用途语言特性
[默认实参] 1.注意点:函数的默认实参可以在函数的声明中添加,但是后续声明只能添加默认参数而不能改变先前声明的默认参数.(函数的声明通常是定义在头文件上的,多次声明同一个函数是合法的) 2.默认实参 ...
python3 使用opencv 画基本图形
在Python3 环境下安装opencv-python 后练习画基本图形: import numpy as np import cv2 # BGR format GREEN = (0, 255, 0) ...
vue2.0中配置文件路径
在build/webpack.base.conf.js中添加一些代码即可 module.exports = { resolve: { extensions: ['.js', '.vue', '.jso ...
TypeScript 3.3来了！快看看有什么新功能
翻译:疯狂的技术宅原文:https://github.com/Microsoft/TypeScript/wiki/What's-new-in-TypeScript 本文首发微信公众号:jingchen ...

Python抓取糗事百科成人版图片

Python抓取糗事百科成人版图片的更多相关文章

随机推荐

热门专题