使用python编写一个壁纸网站的简单爬虫

目标网站：http://www.netbian.com/

目的：实现对壁纸各分类的第一页壁纸的获取

一：分析网站，编写代码：

（ps：源代码在文章的最后）

1.获取网站目录部分的一大段代码，下一步再进行仔细匹配网址与标题.

 #coding=gbk

 #目标：下载各目录的壁纸（大图）

 __author__ = 'CQC'

 import urllib2

 import urllib

 import re

 import os

 #创建壁纸下载文件夹

 path = 'd:\\彼岸壁纸'

 if not os.path.isdir(path):

     os.makedirs(path)

 #目录

 big_title = []

 #首页打开

 url = 'http://www.netbian.com/'

 headers = {'User-agent' : 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:22.0) Gecko/20100101 Firefox/22.0'}

 request = urllib2.Request(url,headers = headers)

 response = urllib2.urlopen(request)

 #首页目录源代码获取

 pat_menu = re.compile('<ul class="menu">(.*?)</a></div>',re.S)

 code_menu = re.search(pat_menu,response.read())

如图：

2.进行分类的标题与链接的匹配。

 #目录标题

 pat_menu_title = re.compile('<a href=".*?" title="(.*?)">',re.S)

 menu_title = re.findall(pat_menu_title,code_menu.group(1))

 for a_item in menu_title:

     big_title.append(a_item)

     print a_item

 #目录链接

 pat_menu_link = re.compile('<a href="(.*?)" title=".*?">',re.S)

 menu_link = re.findall(pat_menu_link,code_menu.group(1))

如下图所示：

3.从爬取到的目录进入，获得该目录下所有壁纸的标题与链接.

 #进入目录

 j = 0

 for b_item in menu_link:

     url_menu = 'http://www.netbian.com/' + b_item

     request_son = urllib2.Request(url_menu,headers = headers)

     response_son = urllib2.urlopen(request_son)

     #获得每个目录的图片标题，链接

     #获得子目录标题

     title_son = []

     pat_title_son = re.compile('<img src=".*?" data-src=".*?" alt="(.*?)"/>',re.S)

     res_title = re.findall(pat_title_son,response_son.read())

     for c_item in res_title:

         title_son.append(c_item)

     #筛选出子目录代码

     pat_code_son = re.compile('<ul>(.*?)</ul>',re.S)

     middle_pattern = urllib2.Request(url_menu,headers = headers)

     middle_response = urllib2.urlopen(middle_pattern)

     res_code_son = re.search(pat_code_son,middle_response.read())

     #获得子目录链接，合成大图网页链接

     pat_link_son = re.compile('<li><a href="(.*?)" target="_blank"><img',re.S)

     res_link = re.findall(pat_link_son,res_code_son.group(1))

如下图所示：

4.根据上一步爬取到的链接，合成真正的1080p壁纸链接.

因为我们从上图标题点进去后是这样：

还需要点击下载按钮才能打开1080p壁纸的链接。为了方便，我们直接合成1080p壁纸的链接.

例如： http://www.netbian.com/desk/9805.htm

对应的1080p网址：http://www.netbian.com/desk/9805-1920x1080.htm

代码：

     i = 0

     #显示进度

     print big_title[j]

     for d_item in res_link:

         #获得大图下载链接

         if d_item == 'http://www.mmmwu.com/':

             pass

         else:

             new_link = 'http://www.netbian.com/' + d_item[:-4] + '-1920x1080.htm'

             print new_link

（ps：由于‘美女’分类中的第一个标题链接到了其他网站，为了简单一点，所以我直接跳过了）

5.进入1080p壁纸链接，下载壁纸.

 request_real = urllib2.Request(new_link,headers = headers)

             response_real = urllib2.urlopen(request_real)

             pat_real = re.compile('<img src="(.*?)" alt=".*?"/></td></tr>')

             link_real = re.search(pat_real,response_real.read())

             #跳过vip壁纸

             if link_real:

                 fina_link = link_real.group(1)

                 #创建下载目录

                 path_final = 'd:\\彼岸壁纸\\' + big_title[j] + '\\'

                 if not os.path.isdir(path_final):

                     os.makedirs(path_final)

                 path_pic = path_final + title_son[i] + '.jpg'

                 f = open(path_pic,'wb')

                 data = urllib.urlopen(fina_link)

                 f.write(data.read())

                 f.close()

                 if not data:

                     print "Download Failed."

             i += 1

     print 'One menu download OK.'

     j += 1

6.下载完成.

二、所有的源代码。

 #coding=gbk

 #目标：下载各目录的壁纸（大图）

 __author__ = 'CQC'

 import urllib2

 import urllib

 import re

 import os

 #创建壁纸下载文件夹

 path = 'd:\\彼岸壁纸'

 if not os.path.isdir(path):

     os.makedirs(path)

 #目录

 big_title = []

 #首页打开

 url = 'http://www.netbian.com/'

 headers = {'User-agent' : 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:22.0) Gecko/20100101 Firefox/22.0'}

 request = urllib2.Request(url,headers = headers)

 response = urllib2.urlopen(request)

 #首页目录源代码获取

 pat_menu = re.compile('<ul class="menu">(.*?)</a></div>',re.S)

 code_menu = re.search(pat_menu,response.read())

 #目录标题

 pat_menu_title = re.compile('<a href=".*?" title="(.*?)">',re.S)

 menu_title = re.findall(pat_menu_title,code_menu.group(1))

 for a_item in menu_title:

     big_title.append(a_item)

     print a_item

 #目录链接

 pat_menu_link = re.compile('<a href="(.*?)" title=".*?">',re.S)

 menu_link = re.findall(pat_menu_link,code_menu.group(1))

 #进入目录

 j = 0

 for b_item in menu_link:

     url_menu = 'http://www.netbian.com/' + b_item

     request_son = urllib2.Request(url_menu,headers = headers)

     response_son = urllib2.urlopen(request_son)

     #获得每个目录的图片标题，链接

     #获得子目录标题

     title_son = []

     pat_title_son = re.compile('<img src=".*?" data-src=".*?" alt="(.*?)"/>',re.S)

     res_title = re.findall(pat_title_son,response_son.read())

     for c_item in res_title:

         title_son.append(c_item)

     #筛选出子目录代码

     pat_code_son = re.compile('<ul>(.*?)</ul>',re.S)

     middle_pattern = urllib2.Request(url_menu,headers = headers)

     middle_response = urllib2.urlopen(middle_pattern)

     res_code_son = re.search(pat_code_son,middle_response.read())

     #获得子目录链接，合成大图网页链接

     pat_link_son = re.compile('<li><a href="(.*?)" target="_blank"><img',re.S)

     res_link = re.findall(pat_link_son,res_code_son.group(1))

     i = 0

     #显示进度

     print big_title[j]

     for d_item in res_link:

         #获得大图下载链接

         if d_item == 'http://www.mmmwu.com/':

             pass

         else:

             new_link = 'http://www.netbian.com/' + d_item[:-4] + '-1920x1080.htm'

             print new_link

             request_real = urllib2.Request(new_link,headers = headers)

             response_real = urllib2.urlopen(request_real)

             pat_real = re.compile('<img src="(.*?)" alt=".*?"/></td></tr>')

             link_real = re.search(pat_real,response_real.read())

             #跳过vip壁纸

             if link_real:

                 fina_link = link_real.group(1)

                 #创建下载目录

                 path_final = 'd:\\彼岸壁纸\\' + big_title[j] + '\\'

                 if not os.path.isdir(path_final):

                     os.makedirs(path_final)

                 path_pic = path_final + title_son[i] + '.jpg'

                 f = open(path_pic,'wb')

                 data = urllib.urlopen(fina_link)

                 f.write(data.read())

                 f.close()

                 if not data:

                     print "Download Failed."

             i += 1

     print 'One menu download OK.'

     j += 1

使用python编写一个壁纸网站的简单爬虫的更多相关文章

用Python编写一个简单的Http Server
用Python编写一个简单的Http Server Python内置了支持HTTP协议的模块,我们可以用来开发单机版功能较少的Web服务器.Python支持该功能的实现模块是BaseFTTPServe ...
使用 python 编写一个授权登录验证的模块
使用 python 编写一个授权登录验证的模块我们编写的思路: 1.登录的逻辑:如果用户名和密码正确,就返回 token . 2.生成 token 的逻辑,根据用户名,随机数,当前时间 + 2 小时 ...
为Python编写一个简单的C语言扩展模块
最近在看pytorh方面的东西,不得不承认现在这个东西比较火,有些小好奇,下载了代码发现其中计算部分基本都是C++写的,这真是要我对这个所谓Python语音编写的框架或者说是库感觉到一丢丢的小失落,细 ...
[初学Python]编写一个最简单判断SQL注入的检测工具
0x01 背景 15年那会,几乎可以说是渗透最火的一年,各种教程各种文章,本人也是有幸在那几年学到了一些皮毛,中间因学业问题将其荒废至今.当初最早学的便是,and 1=1 和 and 1=2 这最简单 ...
如何用Python编写一个聊天室
一.课程介绍 1.简介本次项目课是实现简单聊天室程序的服务器端和客户端. 2.知识点服务器端涉及到asyncore.asynchat和socket这几个模块,客户端用到了telnetlib.wx. ...
使用python编写量子线路打印的简单项目，并使用Sphinx自动化生成API文档
技术背景该文章一方面从量子线路的打印着手,介绍了一个简单的python量子线路工程.同时基于这个简单的小工程,我们顺带的介绍了python的API文档自动化生成工具Sphinx的基本使用方法. 量子 ...
day-1 用python编写一个简易的FTP服务器
从某宝上购买了一份<Python神经网络深度学习>课程,按照视频教程,用python语言,写了一个简易的FTP服务端和客户端程序,以前也用C++写过聊天程序,编程思路差不多,但是pytho ...
Python 编写一个有道翻译的 workflow 教程
最近使用有道翻译的 workflow 总是翻译不了,可能是 appKey 失效了或者超过调用上限,所以打算自己实现一个. 创建 workflow 打开 Alfred3 的 Preferences,选择 ...
Python入门-编写抓取网站图片的爬虫-正则表达式
//生命太短我用Python! //Python真是让一直用c++的村里孩子长知识了! 这个仅仅是一个测试,成功抓取了某网站1000多张图片. 下一步要做一个大新闻大工程 #config = ut ...

随机推荐

git pull提示当前不在某个分支上
$ git pull You are not currently on a branch, so I cannot use any 'branch.<branchname>.merge' ...
STM32 ADC 测电压
1. STM32F103 ADC 本例使用STM32F103芯片的PA1引脚测试模拟输入的电压值. 查看文档<STM32F103X.pdf>第31页,引脚定义图: 得知PA1使用ADC1的 ...
php 保存到mysql数据库中的中文乱码
近期又php项目,乱码是个头痛的问题解决方法: 1,php 文件中添加 header(“Content-Type: text/html; charset=utf-8"); 2,需要做数据 ...
【Yeoman】热部署web前端开发环境
本文来自 “简时空”:<[Yeoman]热部署web前端开发环境>(自动同步导入到博客园) 1.序言记得去年的暑假看RequireJS的时候,曾少不更事般地惊为前端利器,写了<Sp ...
jquery.fullPage.js全屏滚动插件教程演示
css部分(此处需要导入jquery.fullPage.css) <style> .section { text-align: center; font: 50px "Micro ...
Android开发--apk的生成
0.前言此方法为eclipse中生成apk的方法!!!! 1.生成ketstore 在命令提示符中找到java的jdk路径,例如: D:\study software\Java\jdk1.8.0_2 ...
用c++写一个广告系统
用到的基础类库 1.sstream <sstream> 库定义了三种类:istringstream.ostringstream和stringstream,分别用来进行流的输入.输出和输入输 ...
Amazon EC2免费VPS防止超额被扣钱三大方法:流量硬盘读写运行时长
Amazon EC2也就是亚马逊云服务免费VPS主机服务,内存是613MB,月流量是30GB,主机空间是30GB,可以免费使用一年,又加上Amazon服务器全球多个节点CDN和本身的名气,早在2010 ...
对git的认识
对git这个词我听过但不了解,更谈不了认识.只能咨询百度了. Git是一个开源的分布式版本控制系统,用以有效.高速的处理从很小到非常大的项目版本管理. Git 是 Linus Torvalds 为了帮 ...
关于sysprocesses表各字段的作用
sysprocesses 表中保存关于运行在 Microsoft® SQL Server™ 上的进程的信息.这些进程可以是客户端进程或系统进程.sysprocesses 只存储在 master 数据库 ...

使用python编写一个壁纸网站的简单爬虫

使用python编写一个壁纸网站的简单爬虫的更多相关文章

随机推荐

热门专题