python爬虫之静态网页——全国空气质量指数(AQI)爬取

首先爬取地址：http://www.air-level.com/

利用的python库，最近最流行的requests，BeautifulSoup。

requests：用于下载html

BeautifulSoup：用于解析

下面开始分析：要获取所有城市的aqi，就要进入每个城市的单独链接，而这些链接可以从主页中获取

打开主网页，查看源代码，可以看到，所有的城市链接都在id=‘citylist’里面

把所有链接爬下来存在一个列表里面，然后依次爬取每个城市的单个链接，附代码：

def get_all_city():    # 爬取城市链接

    url = "http://www.air-level.com"

    try:

        kv = {'user-agent': 'Mozilla/5.0'}  # 伪装成浏览器，headers

        r = requests.get(url, headers=kv)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

    except:

        print("爬取城市链接失败")

    demo = r.text

    soup = BeautifulSoup(demo, "html.parser")

    time = soup.find('h4').string

    print(time)

    for it in soup.find(id="citylist").children:

        if isinstance(it, bs4.element.Tag):   # 检测it的类型，得是一个bs4.element.Tag类型

            for its in it.find_all('a'):

                clist.append(its.get('href'))  # 加入列表当中去

                cnlist.append(its.string)

之后就是每个城市的单独链接的信息爬取，以北京为例，查看源代码可知：

附爬取每个城市代码：

def get_one_page(city):   # 获得HTML 爬取城市信息

    url = "http://www.air-level.com"+city

    if city in cwlink:

        aqilist.append("异常链接")

    else:

        try:

            kv = {'user-agent': 'Mozilla/5.0'}  # 伪装成浏览器，headers

            r = requests.get(url, headers=kv)

            r.raise_for_status()

            r.encoding = r.apparent_encoding

        except:

            print("爬取失败")

        demo = r.text

        soup = BeautifulSoup(demo, "html.parser")

        s = soup.find("span")

        aqilist.append(s.string)

但是在爬取的过程中会发现问题，有的一些城市网站用浏览器打不开，也就爬取不了，所以要做处理，

在上面可以看到，本人用cwlist存储了所有异常链接，跳过去，不爬取。

附完整代码：

import requests

from bs4 import BeautifulSoup

import bs4

aqilist = []   # 储存城市AQI

clist = []     # 储存城市链接

cnlist = []    # 储存城市名字

cwlink = ["/air/changdudiqu/", "/air/kezilesuzhou/", "/air/linzhidiqu/", "/air/rikazediqu/",

          "/air/shannandiqu/", "/air/simao/", "/air/xiangfan/", "/air/yilihasake/"]   # 异常链接

def get_one_page(city):   # 获得HTML 爬取城市信息

    url = "http://www.air-level.com"+city

    if city in cwlink:

        aqilist.append("异常链接")

    else:

        try:

            kv = {'user-agent': 'Mozilla/5.0'}  # 伪装成浏览器，headers

            r = requests.get(url, headers=kv)

            r.raise_for_status()

            r.encoding = r.apparent_encoding

        except:

            print("爬取失败")

        demo = r.text

        soup = BeautifulSoup(demo, "html.parser")

        s = soup.find("span")

        aqilist.append(s.string)

def get_all_city():    # 爬取城市链接

    url = "http://www.air-level.com"

    try:

        kv = {'user-agent': 'Mozilla/5.0'}  # 伪装成浏览器，headers

        r = requests.get(url, headers=kv)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

    except:

        print("爬取城市链接失败")

    demo = r.text

    soup = BeautifulSoup(demo, "html.parser")

    time = soup.find('h4').string

    print(time)

    for it in soup.find(id="citylist").children:

        if isinstance(it, bs4.element.Tag):   # 检测it的类型，得是一个bs4.element.Tag类型

            for its in it.find_all('a'):

                clist.append(its.get('href'))  # 加入列表当中去

                cnlist.append(its.string)

def main():

    get_all_city()

    print("共爬取了{}个城市".format(len(clist)))

    for it in range(len(clist)):

        get_one_page(clist[it])

        print("{} {}".format(cnlist[it], aqilist[it]))

main()

简单的静态爬取就实现了

python爬虫之静态网页——全国空气质量指数(AQI)爬取的更多相关文章

Python爬虫小实践：寻找失踪人口，爬取失踪儿童信息并写成csv文件，方便存入数据库
前两天有人私信我,让我爬这个网站,http://bbs.baobeihuijia.com/forum-191-1.html上的失踪儿童信息,准备根据失踪儿童的失踪时的地理位置来更好的寻找失踪儿童,这种 ...
Python爬虫入门教程 12-100 半次元COS图爬取
半次元COS图爬取-写在前面今天在浏览网站的时候,忽然一个莫名的链接指引着我跳转到了半次元网站 https://bcy.net/ 打开之后,发现也没有什么有意思的内容,职业的敏感让我瞬间联想到了 c ...
Python爬虫入门教程 3-100 美空网数据爬取
美空网数据----简介从今天开始,我们尝试用2篇博客的内容量,搞定一个网站叫做"美空网"网址为:http://www.moko.cc/, 这个网站我分析了一下,我们要爬取的图片在 ...
Python 爬虫入门（三）—— 寻找合适的爬取策略
写爬虫之前,首先要明确爬取的数据.然后,思考从哪些地方可以获取这些数据.下面以一个实际案例来说明,怎么寻找一个好的爬虫策略.(代码仅供学习交流,切勿用作商业或其他有害行为) 1).方式一:直接爬取网站 ...
Python爬虫入门教程：半次元COS图爬取
半次元COS图爬取-写在前面今天在浏览网站的时候,忽然一个莫名的链接指引着我跳转到了半次元网站 https://bcy.net/ 打开之后,发现也没有什么有意思的内容,职业的敏感让我瞬间联想到了 c ...
小白学 Python 爬虫（16）：urllib 实战之爬取妹子图
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
Python爬虫：设置Cookie解决网站拦截并爬取蚂蚁短租
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Eastmount PS:如有需要Python学习资料的小伙伴可以加 ...
Python爬虫入门教程 11-100 行行网电子书多线程爬取
行行网电子书多线程爬取-写在前面最近想找几本电子书看看,就翻啊翻,然后呢,找到了一个叫做周读的网站 ,网站特别好,简单清爽,书籍很多,而且打开都是百度网盘可以直接下载,更新速度也还可以,于是乎, ...
Python爬虫入门教程 10-100 图虫网多线程爬取
图虫网-写在前面经历了一顿噼里啪啦的操作之后,终于我把博客写到了第10篇,后面,慢慢的会涉及到更多的爬虫模块,有人问scrapy 啥时候开始用,这个我预计要在30篇以后了吧,后面的套路依旧慢节奏的, ...

随机推荐

layui table分页 page为false时，limit问题
问题描述:table数据表格page设为false时,limit为默认设置10 解决办法:limit设为 Number.MAX_VALUE 加载全部数据实例: var table = layui.t ...
centos7 mysql自动备份
MySQL自动备份shell脚本在数据库的日常维护工作中,除了保证业务的正常运行以外,就是要对数据库进行备份,以免造成数据库的丢失,从而给企业带来重大经济损失.通常备份可以按照备份时数据库状态分 ...
Oracle expdp数据泵导出，并在文件上附加上日期格式
一.导出操作的计算机要安装Oracle Client(建议管理员版本) 二.在服务端创建目录 create directory dpdir as '目录'; 三.给目录赋权限 grant read,w ...
[Swift]LeetCode740. 删除与获得点数 | Delete and Earn
Given an array nums of integers, you can perform operations on the array. In each operation, you pic ...
springmvc 请求参数解析细节
springmvc 的请求流程,相信大家已经很熟悉了,不熟悉的同学可以参考下资料! 有了整体流程的概念,是否对其中的实现细节就很清楚呢?我觉得不一定,比如:单是参数解析这块,就是个大学问呢? 首先,我 ...
安装部署jumpserver3.0
1.安装依赖包yum -y install git readline-devel automake autoconf2.下载 jumpservergit clone https://github.co ...
被BAT疯抢的工程师，都是怎么拿到50万年薪Offer的？
许多工程师换工作常会出现这种情况:工作能力和潜力都不错,却在面试时无法充分地表现自己,铩羽而归.据拉勾数据调研显示,约有80%的工程师简历通不过初筛,进入终面的不到5% . 技术面试到底应该如何准备? ...
解决IDEA安装Python插件，下载失败的方法
一.问题通过file-->settings-->Plugins 安装python时,会提示下载失败.可以采用以下方法解决. 二.解决办法 1.在help/about中查看IDEA版本,作 ...
我曾做过陈士成，也做过孔乙己，还做过阿Q
一. 我现在是陈士成,陈士成现在是我.为什么这么说呢? 那年那天,天刚微微亮,似乎还在打着哈欠.我和父亲去得很早,为的就是在“小升初的考试成绩榜单”前面占一个有利的位置.我不记得当时穿的厚还是不厚,体 ...
分享几个 SpringBoot 实用的小技巧
前言最近分享的一些源码.框架设计的东西.我发现大家热情不是特别高,想想大多数应该还是正儿八经写代码的居多:这次就分享一点接地气的: SpringBoot 使用中的一些小技巧. 算不上多高大上的东西, ...

python爬虫之静态网页——全国空气质量指数(AQI)爬取

python爬虫之静态网页——全国空气质量指数(AQI)爬取的更多相关文章

随机推荐

热门专题