python爬虫_入门

写出来的爬虫，肯定不能只在一个页面爬，只要要爬几个页面，甚至一个网站，这时候就需要用到翻页了

其实翻页很简单，还是这个页面http://bbs.fengniao.com/forum/10384633.html，话说我得给这个人增加了多大的访问量啊......

10384633重点关注下这个数字，这个就是页面的名称，现在尝试把这个数字+/-1看看有没有结果

验证http://bbs.fengniao.com/forum/10384634.html

可以看到，这个页面是可以访问的

再试试http://bbs.fengniao.com/forum/10384632.html，这次不截图了，可以自己去试试，也是可以访问的

那么接下来就好办了，只要把这个数字每次+1或-1就可以了，甚至可以从http://bbs.fengniao.com/forum/1.html开始尝试连接，一直+1，直到502或404断开

下面上代码，还是用之前的内容，这次加了个页面处理的函数

#!/usr/bin/python

# coding: UTF-8

import urllib

import urllib2

import re

#处理地址，并获取页面全部的图片地址

def get_image_url(url):

  #url_format = urllib2.Request(url) #1

  url_open = urllib.urlopen(url) #

  url_read = url_open.read() #

  re_value = re.compile('(?<=src\=\").*?\.jpg')

  image_url_list = re.findall(re_value,url_read) #

  return image_url_list

#这个函数专门用来下载，前面两行是将图片连接中/前面的内容全部删除，留下后面的文件名用来保存文件的，try不说了，不清楚请翻回去看容错

def down_image(image_url):

  rev = '^.*/'

  file_name = re.sub(rev,'',image_url)

  try:

    urllib.urlretrieve(image_url,file_name)

  except:

    print 'download %s fail' %image_url

  else:

    print 'download %s successed' %image_url

#这个函数用来处理页面，每次+1

def get_page(url):

  url_num = re.search('(?<=\/)[0-9]+(?=\.)',url)

  url_num = url_num.group()

  url_num_1 = int(url_num) + 1

  url = url.replace(url_num,str(url_num_1))

  return url

if __name__ == '__main__':

  url = 'http://bbs.fengniao.com/forum/10384633.html'

  for n in range(1,10):

    url = get_page(url)

    image_url_list = get_image_url(url)

    for image_url in image_url_list:

      down_image(image_url) #

其实可以给get_page传两个参数，一个是URL另一个是递增的数值，就变成了get_page(url,n)，但是我没有这么写，可以思考下为什么，如果把for n in range(1,10)改成while True会怎样？嘿嘿......回头人家封你IP可别找我啊

python爬虫_入门_翻页的更多相关文章

python爬虫-基础入门-python爬虫突破封锁
python爬虫-基础入门-python爬虫突破封锁 >> 相关概念 >> request概念:是从客户端向服务器发出请求,包括用户提交的信息及客户端的一些信息.客户端可通过H ...
python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
Python爬虫Scrapy(二)_入门案例
本章将从案例开始介绍python scrapy框架,更多内容请参考:python学习指南入门案例学习目标创建一个Scrapy项目定义提取的结构化数据(Item) 编写爬取网站的Spider并提 ...
Python爬虫从入门到进阶(1)之Python概述及爬虫入门
一.Python 概述 1.计算机语言概述 (1).语言:交流的工具,沟通的媒介 (2).计算机语言:人跟计算机交流的工具 (3).Python是计算机语言的一种 2.Python编程语言代码:人类 ...
Python爬虫小白入门（六）爬取披头士乐队历年专辑封面-网易云音乐
一.前言前文说过我的设计师小伙伴的设计需求,他想做一个披头士乐队历年专辑的瀑布图. 通过搜索,发现网易云音乐上有比较全的历年专辑信息加配图,图片质量还可以,虽然有大有小. 我的例子怎么都是爬取图片? ...
【Python爬虫】入门知识
爬虫基本知识这阵子需要用爬虫做点事情,于是系统的学习了一下python爬虫,觉得还挺有意思的,比我想象中的能干更多的事情,这里记录下学习的经历. 网上有关爬虫的资料特别多,写的都挺复杂的,我这里不打 ...
python爬虫从入门到放弃（九）之实例爬取上海高级人民法院网开庭公告数据
通过前面的文章已经学习了基本的爬虫知识,通过这个例子进行一下练习,毕竟前面文章的知识点只是一个一个单独的散知识点,需要通过实际的例子进行融合分析网站其实爬虫最重要的是前面的分析网站,只有对要爬取 ...

随机推荐

最常用的两种C++序列化方案的使用心得（protobuf和boost serialization）
导读 1. 什么是序列化? 2. 为什么要序列化?好处在哪里? 3. C++对象序列化的四种方法 4. 最常用的两种序列化方案使用心得正文 1. 什么是序列化? 程序员在编写应用程序的时候往往需要将 ...
elk-nginx输出json格式的日志
把Nginx日志的格式输出成JSON格式展示在Kibana面板,生产环境中基本都是这么使用. 1, 配置nginx 主要修改nginx的访问日志格式,这里定义成json格式,以便后面logstash更 ...
Spring Boot(三)：Spring Boot 中 Redis 的使用
Spring Boot 对常用的数据库支持外,对 Nosql 数据库也进行了封装自动化. Redis 介绍 Redis 是目前业界使用最广泛的内存数据存储.相比 Memcached,Redis 支持更 ...
性能提速：debounce（防抖）、throttle（节流／限频）
debounce与throttle是用户交互处理中常用到的性能提速方案,debounce用来实现防抖动,throttle用来实现节流(限频).那么这两个方法到底是什么(what)?为何要用(why-解 ...
UVA 1605 Building for UN(思维)
题目链接: https://cn.vjudge.net/problem/UVA-1605#author=0 /* 问题设计一个包含若干层的联合国大厦,其中每一层都是等大的网格,每个格子分配给一个国家 ...
深入出不来nodejs源码-V8引擎初探
原本打算是把node源码看得差不多了再去深入V8的,但是这两者基本上没办法分开讲. 与express是基于node的封装不同,node是基于V8的一个应用,源码内容已经渗透到V8层面,因此这章简述一下 ...
基于asp.net mvc的近乎产品开发培训课程（第四讲）
演示产品源码下载地址:http://www.jinhusns.com/Products/Download 演示产品源码下载地址:http://www.jinhusns.com/Products/Do ...
C++标准模板库STL
STL(Standard Template Library,标准模板库)是惠普实验室开发的一系列软件的统称.现然主要出现在C++中,但在被引入C++之前该技术就已经存在了很长的一段时间. STL的代码 ...
【原】Solr入门之概念和安装
Apache Solr 是Apache Lucene项目的开源企业搜索平台.其主要功能包括全文检索.命中标示.分面搜索.动态聚类.数据库集成,以及富文本(如Word.PDF)的处理.Solr是高度可扩 ...
Could not initialize plugin: interface org.mockito.plugins.MockMaker
IDE:Idea 添加依赖 <dependency> <groupId>net.bytebuddy</groupId> <artifactId>byte ...

python爬虫_入门_翻页

python爬虫_入门_翻页的更多相关文章

随机推荐

热门专题