Python爬取网址中多个页面的信息

　　通过上一篇博客了解到爬取数据的操作，但对于存在多个页面的网址来说，使用上一篇博客中的代码爬取下来的资料并不完整。接下来就是讲解该如何爬取之后的页面信息。

一、审查元素

　　鼠标移至页码处右键，选择检查元素

　　接着屏幕下方就会出现对应的html语句

二、分析html语句与项目要求

　　本次项目是爬取所有信息，根据第一步中的html语句，我们有两种爬取后续页面信息的方法：

　　方法一：循环访问本页面中的“下一页”链接直至该标签为空

　　即

def next_page(url):

    soup=get_requests(url)

    draw_base_list(soup)

    pcxt=soup.find('div',{'class':'babynames-term-articles'}).find('nav')

    pcxt1=pcxt.find('div',{'class':'nav-links'}).find('a',{'class':'next page-numbers'})

    if pcxt1!=None:

        link=pcxt1.get('href')

        next_page(link)

    else:

        print("爬取完成")

　　方法二：获取总页数，通过更改url来爬取后续信息

　　通过html语句可以看出不同页数的url只有最后的数字不一样，而最后的数字就代表着这个url中的信息是第几页的信息。

　　页面中的html语句给出了总页码，我们只需要定位至该标签并获得总页数即可。

　　即

def get_page_size(soup):

    pcxt=soup.find('div',{'class':'babynames-term-articles'}).find('nav')

    pcxt1=pcxt.find('div',{'class':'nav-links'}).findAll('a')

    for i in pcxt1[:-1]:

        link=i.get('href')

        s=str(i)

    page=re.sub('<a class="page-numbers" href="','',s)

    page1=re.sub(link,'',page)

    page2=re.sub('">','',page1)

    page3=re.sub('</a>','',page2)

    pagesize=int(page3)

    print(pagesize)

    return pagesize

    pass

　　获得总页数后这个模块还没有结束，我们还需要更改url来访问网址，也就是主函数的编写：

if __name__ == '__main__':

        url="http://www.sheknows.com/baby-names/browse/a/"

        soup=get_requests(url)

        page=get_page_size(soup)

        for i in range(1,page+1):

            url1=url+"page/"+str(i)+"/"

            soup1=get_requests(url1)

            draw_base_list(soup1)

　　通过以上的两种方法就可以将多个页面中的信息都爬取下来了，赶紧动手试试吧。

Python爬取网址中多个页面的信息的更多相关文章

python爬取豌豆荚中的详细信息并存储到SQL Server中
买了本书<精通Python网络爬虫>,看完了第6章,我感觉我好像可以干点什么:学的不多,其中的笔记我放到了GitHub上:https://github.com/NSGUF/PythonLe ...
Python 爬取网页中JavaScript动态添加的内容（一）
当我们进行网页爬虫时,我们会利用一定的规则从返回的 HTML 数据中提取出有效的信息.但是如果网页中含有 JavaScript 代码,我们必须经过渲染处理才能获得原始数据.此时,如果我们仍采用常规方法 ...
Python 爬取北京市政府首都之窗信件列表-[信息展示]
日期:2020.01.25 博客期:133 星期六 [代码说明,如果要使用此页代码,必须在本博客页面评论区给予说明] //博客总体说明 1.准备工作 2.爬取工作 3.数据处理 4.信息展示(本期博客 ...
Python 爬取网页中JavaScript动态添加的内容（二）
使用 selenium + phantomjs 实现 1.准备环境 selenium(一个用于web应用程测试的工具)安装:pip install seleniumphantomjs(是一种无界面的浏 ...
python爬取网络中的QQ号码
import urllib.request import ssl import re import os #博客地址:https://blog.csdn.net/qq_36374896 def wri ...
python 爬取国家粮食局东北地区玉米收购价格监测信息
#!/usr/bin/python# -*- coding: UTF-8 -*-import reimport sysimport timeimport urllibimport urllib.req ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
一个自定义python分布式专用爬虫框架。支持断点爬取和确保消息100%不丢失，哪怕是在爬取进行中随意关停和随意对电脑断电。
0.此框架只能用于爬虫,由框架来调度url请求,必须按照此方式开发,没有做到类似celery的通用分布式功能,也不方便测试.可以使用另外一个,基于函数式编程的,调度一切函数的分布式框架,做到了兼容任何 ...
04 Python网络爬虫 <<爬取get/post请求的页面数据>>之requests模块
一. urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib ...

随机推荐

HTTP文件上传
看到网上很多链接文件(word.pdf...)可以下载,想制作http下载链接. 其实是将某文件直接放在服务器上搭建的网站上某目录下即可,例如:http://xxx:port/UpgradePack/ ...
洛谷 P2058 海港题解
P2058 海港题目描述小K是一个海港的海关工作人员,每天都有许多船只到达海港,船上通常有很多来自不同国家的乘客. 小K对这些到达海港的船只非常感兴趣,他按照时间记录下了到达海港的每一艘船只情况: ...
NOIP2015 D1 解题报告
T1 神奇的幻方题目描述幻方是一种很神奇的N*N矩阵:它由数字1,2,3,……,N*N构成,且每行.每列及两条对角线上的数字之和都相同. 当N为奇数时,我们可以通过以下方法构建一个幻方: 首先将1 ...
ArcGIS Pro 性能诊断
是否遇到过 ArcGIS Pro 显示地图很慢很卡的情况呢? 我们可以通过以下步骤来诊断和调整. 调用方法:点击当前展示缓慢的面板(可以是地图视图也可以是三维场景视图),按下键盘 Shift+E.这时 ...
shell编程题（一）
求2个数之和 #!/bin/bash function add { )); then echo "The arg in't correct" else +$)) echo $sum ...
golang－指针
package main import "fmt" func main() { var p *int =&a //定义指针变量p,传递a的地址 //指针:指针就是地址,指针 ...
webpack-merge使用说明
webpack-merge 配置分离随着我们业务逻辑的增多,图片.字体.css.ES6以及CSS预处理器和后处理器逐渐的加入到我们的项目中来,进而导致配置文件的增多,使得配置文件书写起来比较繁琐 ...
[WEB安全]绕过URL跳转限制的思路
0x00 简介说起URL跳转漏洞,有些人可能会觉得,不就是单纯的跳转到某一个其他网页吗?有什么用??? 给大家一个链接,你们进去看一下就明白了: http://www.anquan.us/searc ...
computed的用法
其实在摸板中也是可以做简单的计算的,但是会看起来会很乱 ,可以用computed来做计算 <!DOCTYPE html> <html lang="en"> ...
Ubuntu16.04 RYU pip命令安装
pip命令安装方法 sudo apt install gcc python-dev libffi-dev libssl-dev libxml2-dev libxslt1-dev zlib1g-dev ...

Python爬取网址中多个页面的信息

Python爬取网址中多个页面的信息的更多相关文章

随机推荐

热门专题