python爬虫入门新手向实战 - 爬取猫眼电影Top100排行榜

本次主要爬取Top100电影榜单的电影名、主演和上映时间, 同时保存为excel表个形式, 其他相似榜单也都可以依葫芦画瓢

首先打开要爬取的网址https://maoyan.com/board/4, 在不断点击下一页的过程中, 我们可以发现网址的变化是有规律的

https://maoyan.com/board/4?offset=0
https://maoyan.com/board/4?offset=10
https://maoyan.com/board/4?offset=20

不同的页数, 变化的只有offset后面的数字, 且以10的倍数增长

使用的python库

1. requests -> 请求页面
2. re -> 匹配想要获取的内容
3. pandas -> 使内容看起来更有结构化, 同时帮助我们将内容保存为文件

开始编写爬虫程序

获取网页源码

base_url = 'https://maoyan.com/board/4?offset='
# 伪造一个请求头, 这个网上有很多
headers = {
    'User-Agent': 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)'
}
def get_every_page(url):
    result = requests.get(url, headers=headers)
    # 响应成功则返回源代码内容
    if result.status_code == requests.codes.ok:
        return result.text
    return None

分析源码特征, 编写正则表达式, 获取主要内容

<dd>
    <i class="board-index board-index-20">20</i>
    <a href="/films/428" title="指环王3：王者无敌" class="image-link" data-act="boarditem-click" data-val="{movieId:428}">
      <img src="//s3plus.meituan.net/v1/mss_e2821d7f0cfe4ac1bf9202ecf9590e67/cdn-prod/file:5788b470/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
      <img data-src="https://p0.meituan.net/movie/932bdfbef5be3543e6b136246aeb99b8123736.jpg@160w_220h_1e_1c" alt="指环王3：王者无敌" class="board-img" />
    </a>
    <div class="board-item-main">
      <div class="board-item-content">
        <div class="movie-item-info">
            <p class="name"><a href="/films/428" title="指环王3：王者无敌" data-act="boarditem-click" data-val="{movieId:428}">指环王3：王者无敌</a></p>
            <p class="star">
                    主演：伊莱贾·伍德,伊恩·麦克莱恩,丽芙·泰勒
            </p>
            <p class="releasetime">上映时间：2004-03-15</p>
        </div>
        <div class="movie-item-number score-num">
            <p class="score">
                <i class="integer">9.</i>
                <i class="fraction">2</i>
            </p>
        </div>
      </div>
   </div>
</dd>

从返回的源码中可以发现, 电影的信息都集中在<dd>标签内, 根据其规律, 编写下列正则表达式获取电影名、主演和上映时间的信息

# filmname = []
# actor = []
# stime = []
html = get_every_page(url)
        if html:
            # 获取电影信息
            # 同时这里需要注意的重点是, 一定不要忘记了修饰符re.S, 否则什么也匹配不出来!
            data = re.findall('<dd.*?title="(.*?)".*?"star">(.*?)<.*?">(.*?)</p>', html, re.S)
            # data中的每一个都是一个元组

输出每一个元组的信息(以某一页为例)

('霸王别姬', '\n                主演：张国荣,张丰毅,巩俐\n        ', '上映时间：1993-01-01')
('肖申克的救赎', '\n                主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿\n        ', '上映时间：1994-09-10(加拿大)')
('罗马假日', '\n                主演：格利高里·派克,奥黛丽·赫本,埃迪·艾伯特\n        ', '上映时间：1953-09-02(美国)')
('这个杀手不太冷', '\n                主演：让·雷诺,加里·奥德曼,娜塔莉·波特曼\n        ', '上映时间：1994-09-14(法国)')
('泰坦尼克号', '\n                主演：莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩\n        ', '上映时间：1998-04-03')
('唐伯虎点秋香', '\n                主演：周星驰,巩俐,郑佩佩\n        ', '上映时间：1993-07-01(中国香港)')
('魂断蓝桥', '\n                主演：费雯·丽,罗伯特·泰勒,露塞尔·沃特森\n        ', '上映时间：1940-05-17(美国)')
('乱世佳人', '\n                主演：费雯·丽,克拉克·盖博,奥利维娅·德哈维兰\n        ', '上映时间：1939-12-15(美国)')
('天空之城', '\n                主演：寺田农,鹫尾真知子,龟山助清\n        ', '上映时间：1992-05-01')
('辛德勒的名单', '\n                主演：连姆·尼森,拉尔夫·费因斯,本·金斯利\n        ', '上映时间：1993-12-15(美国)')

因为输出的信息格式差异很大, 我们再来统一一下格式

# data = re.findall('<dd.*?title="(.*?)".*?"star">(.*?)<.*?">(.*?)</p>', html, re.S)
            # 去除空格和多余的字符, 分别提取出电影名, 主演和上映时间
            for i in data:
                filmname.append(i[0].strip())
                actor.append((i[1].strip())[3:])
                stime.append(i[2][5:].strip())

将结果保存为文件

将内容生成为DataFrame对象, 再保存为文件

    tdict = {'电影名': filmname, '主演': actor, '上映时间': stime}
    tdict = pd.DataFrame(tdict, index=[i for i in range(1, 101)])
    tdict.to_excel('Top100电影排行榜.xlsx', encoding='utf-8')
    print(tdict)

完整代码

import requests
import re
import pandas as pd
base_url = 'https://maoyan.com/board/4?offset='
headers = {
    'User-Agent': 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)'
}
def get_every_page(url):
    result = requests.get(url, headers=headers)
    if result.status_code == requests.codes.ok:
        return result.text
    return None
def main():
    filmname = []
    actor = []
    stime = []
    for i in range(0, 110, 10):
        url = base_url + str(i)
        html = get_every_page(url)
        if html:
            data = re.findall('<dd.*?title="(.*?)".*?"star">(.*?)<.*?">(.*?)</p>', html, re.S)
            for i in data:
                filmname.append(i[0].strip())
                actor.append((i[1].strip())[3:])
                stime.append(i[2][5:].strip())
    tdict = {'电影名': filmname, '主演': actor, '上映时间': stime}
    tdict = pd.DataFrame(tdict, index=[i for i in range(1, 101)])
    tdict.to_excel('Top100电影排行榜.xlsx', encoding='utf-8')
    print(tdict)
main()

检验成功

打开我们的生成的Top100电影排行榜表格, 结果完美输出nice!

(截取Top10)

python爬虫入门新手向实战 - 爬取猫眼电影Top100排行榜的更多相关文章

爬虫（七）：爬取猫眼电影top100
一:分析网站目标站和目标数据目标地址:http://maoyan.com/board/4?offset=20目标数据:目标地址页面的电影列表,包括电影名,电影图片,主演,上映日期以及评分. 二:上代 ...
多种方法爬取猫眼电影Top100排行榜,保存到csv文件,下载封面图
参考链接: https://blog.csdn.net/BF02jgtRS00XKtCx/article/details/83663400 https://www.makcyun.top/web_sc ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
python 爬取猫眼电影top100数据
最近有爬虫相关的需求,所以上B站找了个视频(链接在文末)看了一下,做了一个小程序出来,大体上没有修改,只是在最后的存储上,由txt换成了excel. 简要需求:爬虫爬取猫眼电影TOP100榜单数据 ...
# [爬虫Demo] pyquery+csv爬取猫眼电影top100
目录 [爬虫Demo] pyquery+csv爬取猫眼电影top100 站点分析代码君 [爬虫Demo] pyquery+csv爬取猫眼电影top100 站点分析 https://maoyan.co ...
50 行代码教你爬取猫眼电影 TOP100 榜所有信息
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天,恋习Python的手把手系列,手把手教你入门Python爬虫,爬取猫眼电影TOP100榜信息,将涉及到基础爬虫 ...
40行代码爬取猫眼电影TOP100榜所有信息
主要内容: 一.基础爬虫框架的三大模块二.完整代码解析及效果展示 1️⃣ 基础爬虫框架的三大模块 1.HTML下载器:利用requests模块下载HTML网页. 2.HTML解析器:利用re正则表 ...
用requests库爬取猫眼电影Top100
这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 import requests from re ...

随机推荐

python 04 列表
1.列表——list [ ] 有序.可变.支持索引查看. 存储数据,支持大多数数据类型:字符串,数字,布尔值.列表.集合.元组.字典等. 1.1 定义: lst(勿用list) lst = [&qu ...
Python——常用模块（time/datetime, random, os, shutil, json/pickcle, collections, hashlib/hmac, contextlib）
1.time/datetime 这两个模块是与时间相关的模块,Python中通常用三种方式表示时间: #时间戳(timestamp):表示的是从1970年1月1日00:00:00开始按秒计算的偏移量. ...
《高效休息法》IT从业者如何高效休息
这本书主要讲什么? 大脑疲劳和身体疲劳不同,身体再怎么休息,大脑疲劳还是会在不知不觉中积累大脑是一个重量仅仅占体重2%,却消耗着20%能量的大胃王,这些能量大部分都用在了预设模式网络(Default ...
HDU 5919 - Sequence II (2016CCPC长春) 主席树（区间第K小+区间不同值个数）
HDU 5919 题意: 动态处理一个序列的区间问题,对于一个给定序列,每次输入区间的左端点和右端点,输出这个区间中:每个数字第一次出现的位子留下, 输出这些位子中最中间的那个,就是(len+1)/2 ...
BZOJ1878[SDOI2009]HH的项链+莫队算法模板
题意:多次询问,求在一个区间中,有多少种珠子: 思路:莫队算法模板题目: 参考:https://www.cnblogs.com/RabbitHu/p/MoDuiTutorial.html #inclu ...
企查猫app数据解密
通过最近几天的对企查猫的研究,目前已经成功将企查猫的数据加密和响应数据加密完成解密. 和之前对启信宝APP的数据解密操作基本一样,不过企查猫对请求和响应都使用aes加密了,抓包的时候可以看到,具体可以 ...
WEB-UI自动化测试实践
一.设计背景随着IT行业的发展,产品愈渐复杂,web端业务及流程更加繁琐,目前UI测试仅是针对单一页面,操作量大.为了满足多页面功能及流程的需求及节省工时,设计了这款UI 自动化测试程序.旨在提供接 ...
深入理解 ThreadLocal
前言上篇文章深入理解 Handler 消息机制中提到了获取线程的 Looper 是通过 ThreadLocal 来实现的: public static @Nullable Looper myLo ...
Redis的那些最常见面试问题(转)
Redis的那些最常见面试问题 1.什么是redis? Redis 是一个基于内存的高性能key-value数据库. 2.Reids的特点 Redis本质上是一个Key-Value类型 ...
Linux上安装JDK1.7步骤
1.使用SecurtCRT连接上Linux,把jdk的压缩包传递过去:(传递的方法在我的博客中也有写,参考之前的博客) 2.解压缩jdk:tar -zxvf jdk-7u55-linux-i586.t ...

python爬虫入门新手向实战 - 爬取猫眼电影Top100排行榜

python爬虫入门新手向实战 - 爬取猫眼电影Top100排行榜的更多相关文章

随机推荐

热门专题