最新豆瓣top250爬虫案例代码分析[注释齐全]

导入包

# json包

import json

#正则表达式包

import re

import requests

from requests import RequestException

定义爬取html函数

#函数：获取一页html

def get_one_page(url):

    try:

        headers = {

            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'

        }

        '''

        Response对象返回包含了整个服务器的资源

        Response对象的属性，有以下几种

        r.status_code： HTTP请求的返回状态，200表示连接成功，404表示失败

        2.r.text： HTTP响应内容的字符串形式，即，url对应的页面内容

        3.r.encoding：从HTTP header中猜测的响应内容编码方式

        4.r.apparent_encoding：从内容中分析出的响应内容编码方式（备选编码方式）

        5.r.content： HTTP响应内容的二进制形式

        '''

        response = requests.get(url, headers=headers, timeout=1000)

        if response.status_code == 200:

            return response.text

    except requests.exceptions.RequestException as e:

        print(e)

定义解析html函数【正则】

#函数：解析一页html

def parse_one_page(html):

    #re.compile 是预编译正则表达式函数，是用来优化正则的，它将正则表达式转化为对象

    #re.compile 函数用于编译正则表达式，生成一个 Pattern 对象，pattern 是一个字符串形式的正则表达式

    #pattern 是一个匹配对象Regular Expression，它单独使用就没有任何意义，需要和findall(), search(), match()搭配使用。

    pattern = re.compile(

        '<em class="">(\d+)</em>.*?<a href="(.*?)">.*?' +

        '<img width="100" alt=".*?" src="(.*?)" class=""' +

        '>.*?<span class="title">(.*?)</span>.*?<span ' +

        'class="other">&nbsp;/&nbsp;(.*?)</span>.*?<div ' +

        'class="bd">.*?<p class="">.*?导演: (.*?)&nbsp.*?<br>' +

        '.*?(\d{4})&nbsp;/&nbsp;(.*?)&nbsp;/&nbsp;(.*?)\n' +

        '.*?</p>.*?<span class="rating_num" property="v:' +

        'average">(.*?)</span>',

        re.S)

    items = re.findall(pattern, html)

    for item in items:

        yield {

            'index': item[0],

            'page_src': item[1],

            'img_src': item[2],

            'title': item[3],

            'other_title': item[4],

            'director': item[5],

            'release_date': item[6],

            'country': item[7],

            'type': item[8],

            'rate': item[9],

        }

定义保存内容函数

#函数：将内容写入文件

def write_to_file(content):

    with open('douban_movie_rankings.txt', 'a', encoding='utf-8') as f:

        f.write(json.dumps(content, ensure_ascii=False) + '\n')

定义主函数

#主空函数

def main():

    #用于翻页

    for offset in range(10):

        #获取网址

        url = f'https://movie.douban.com/top250?start={offset * 25}&filter='

        #获取html文件

        html = get_one_page(url)

        for item in parse_one_page(html):

            print(item)

            write_to_file(item)

定义魔法函数

if __name__ == '__main__':

    main()

运行结果：

原创作者：孤飞-博客园

原文链接：https://www.cnblogs.com/ranxi169/p/16564490.html

随机推荐

推荐一款新框架PyScript：在 HTML 嵌入 Python 代码！
一.介绍网页浏览器是目前世界上最普遍,最可携的计算机环境.几乎所有人都可以在计算机或是手机上使用网页浏览器,以没有基础设施障碍的方式访问程序. 在 PyCon US 2022 上,知名 Python ...
Spring 源码（17）Spring Bean的创建过程（8）Bean的初始化
知识回顾 Bean的创建过程会经历getBean,doGetBean,createBean,doCreateBean,然后Bean的创建又会经历实例化,属性填充,初始化. 在实例化createInst ...
Spark在Local环境下的使用
① 将 spark-3.0.0-bin-hadoop3.2.tgz 文件上传到 Linux (cd /opt/module路径下)并解压缩 ② 修改spark-3.0.0-bin-hado ...
Jackson多态序列化
场景做一个消息中心,专门负责发送消息.消息分为几种渠道,包括手机通知(Push).短信(SMS).邮件(Email),Websocket等渠道. 我定义了一个基类MessageRequest用来接收 ...
线程安全性-原子性之synchronized锁
原子性提供了互斥访问:同一时刻只能有一个线程进行操作: 除了Atomic包类之外,还有锁可以实现此功能: synchronized: java关键字,依赖于jvm实现锁功能,被此关键字所修饰的,都是 ...
vue大型电商项目尚品汇（后台篇）day01
开始我们后台篇的内容,前面处理了一些事情,去学校完成授位仪式,由校长授位合影,青春不留遗憾,然后还换了一个电脑,征战了四年的神船终于退役了,各种各样的小毛病是真的烦人. 现在正式开始后台篇的内容,做了 ...
【黑马pink老师的H5/CSS课程】（二）标签与语法
视频链接:P8~P29 黑马程序员pink老师前端入门教程,零基础必看的h5(html5)+css3+移动参考链接: HTML 元素 1.HTML语法规范 1.1 基本语法概述 HTML 标签是由尖 ...
java中常见的锁
1.悲观锁认为别的线程都会修改数据,二话不说先锁上 synchronized 2.乐观锁乐观豁达,起初不操作.最后修改的时候比对一下版本,不一致再上锁 3.可重入锁外层锁了之后,内层仍可以直接使 ...
mysql备份数据库linux
备份数据库问题描述: 我们用的是mysql,以今天遇到的情况为例,我们是在两台服务器上要搭相同的平台,部署完成后页面报错,发现是数据库的问题,我们打开数据库查看,确实数据库中少建一个wind数据 ...
强化学习-学习笔记8 | Q-learning
上一篇笔记认识了Sarsa,可以用来训练动作价值函数\(Q_\pi\):本篇来学习Q-Learning,这是另一种 TD 算法,用来学习最优动作价值函数 Q-star,这就是之前价值学习中用来训练 ...

最新豆瓣top250爬虫案例代码分析[注释齐全]

导入包

定义爬取html函数

定义解析html函数【正则】

定义保存内容函数

定义主函数

定义魔法函数

最新豆瓣top250爬虫案例代码分析[注释齐全]的更多相关文章

随机推荐

热门专题