使用Beautiful Soup爬取猫眼TOP100的电影信息

　　使用Beautiful Soup爬取猫眼TOP100的电影信息，将排名、图片、电影名称、演员、时间、评分等信息，提取的结果以文件形式保存下来。

import time

import json

import requests

from bs4 import BeautifulSoup

def get_one_page(url):

    try:

        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36'

                   + '(KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}

        response = requests.get(url, headers=headers)

        response.encoding = response.apparent_encoding

        if response.status_code == 200:

            return response.text

        return None

    except RequestException:

        return None

def parse_one_page(text):

    soup = BeautifulSoup(text, 'lxml') #使用lxml XML 解析库

    #CSS选择器

    #div p 选择div节点内部的所有p节点

    #div>p 选择父节点为div节点的所有p节点

    #调用select()方法，传入相应的CSS选择器

    ranking = soup.select('dd .board-index') #后代选择器

    imgsrc = soup.select('#app > div > div > div.main > dl > dd > a > img.board-img') #子代选择器

    title = soup.select('#app > div > div > div.main > dl > dd > a')

    #star = soup.select('#app > div > div > div.main > dl > dd > div > div > div.movie-item-info > p.star')

    #find_all()查询所有符合条件的元素

    star = soup.find_all(name='p', class_='star') #class是关键字，所以加下划线

    releasetime = soup.find_all(name='p', class_='releasetime')

    interger = soup.find_all(name='i', class_='integer')

    fraction = soup.find_all(name='i', class_='fraction')

    for i in range(10):

        yield {

                'index': ranking[i].string, #亦可用get_text()

                'image': imgsrc[i].attrs['data-src'],

                'title': title[i]['title'], #这两种都可以获取属性值

                'actor': star[i].string.strip()[3:],

                'time': releasetime[i].string.strip()[5:],

                'score': interger[i].string + fraction[i].string

            }

def write_to_file(content):

    with open('maoyan.txt', 'a', encoding='utf-8') as f:

        f.write(json.dumps(content, ensure_ascii=False)+'\n')

def main(offset):

    url = 'https://maoyan.com/board/4?offset=' + str(offset)

    text = get_one_page(url)

    for item in parse_one_page(text):

        print(item)

        #write_to_file(item)

if __name__ == '__main__':

    for i in range(10):

        main(offset=i*10)

        time.sleep(1)

使用Beautiful Soup爬取猫眼TOP100的电影信息的更多相关文章

python爬虫：爬取猫眼TOP100榜的100部高分经典电影
1.问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2.思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) ...
一起学爬虫——使用Beautiful Soup爬取网页
要想学好爬虫,必须把基础打扎实,之前发布了两篇文章,分别是使用XPATH和requests爬取网页,今天的文章是学习Beautiful Soup并通过一个例子来实现如何使用Beautiful Soup ...
Python 爬取猫眼 top100 电影例子
一个Python 爬取猫眼top100的小栗子 import json import requests import re from multiprocessing import Pool #//进程 ...
使用selenium 多线程爬取爱奇艺电影信息
使用selenium 多线程爬取爱奇艺电影信息转载请注明出处. 爬取目标:每个电影的评分.名称.时长.主演.和类型爬取思路: 源文件:(有注释) from selenium import webd ...
7.5爬取猫眼Top100电影名单
2018-7-5 20:22:57 还有有一丢丢成就感!以后可以爬取简单网站了!比如妹子图片,只是现在不知道咋下载! 正则还是刚看,要多去用正则!正则很强大的东西! #!/usr/bin/env py ...
爬取猫眼TOP100
学完正则的一个小例子就是爬取猫眼排行榜TOP100的所有电影信息看一下网页结构: 可以看出要爬取的信息在<dd>标签和</dd>标签中间正则表达式如下: pattern ...
整理requests和正则表达式爬取猫眼Top100中遇到的问题及解决方案
最近看崔庆才老师的爬虫课程,第一个实战课程是requests和正则表达式爬取猫眼电影Top100榜单.虽然理解崔老师每一步代码的实现过程,但自己敲代码的时候还是遇到了不少问题: 问题1:获取respo ...
【爬虫】-爬取猫眼TOP100
原文崔庆才<python3网络爬虫实战> 本文为自学记录,如有侵权,请联系删除目标: 熟悉正则表达式,以及爬虫流程获取猫眼TOP100榜单 1.网站分析目标站点为http://www ...
Python爬取猫眼top100排行榜数据【含多线程】
# -*- coding: utf-8 -*- import requests from multiprocessing import Pool from requests.exceptions im ...

随机推荐

vi/vim编辑器操作梳理
1. vi/vim编辑器详细使用讲解 1.1 vi/vim编辑器的3种模式 1.2 vi/vim编辑器操作说明参数/命令/模式说明 ###普通模式 :set nu 显示行号 :set non ...
webpack--介绍、安装及入门
最早的时候,所有Javascript代码都写在一个文件里面,只要加载这一个文件就够了.后来,代码越来越多,一个文件不够了,必须分成多个文件,依次加载.下面的网页代码,相信很多人都见过. <scr ...
Windwos应急响应和系统加固(1)——Windwos操作系统版本介绍
Windwos操作系统版本介绍 1. Micorsoft Windows XP ·Microsoft官方发布时间以及终止提供服务时间:2001.10.25-2014.4.8 产生漏洞:MS08 ...
PHP0024：PHP 博客项目开发
Git操作：一次性强制push所有分支
现在手上有两个分支,master和rotation,想一次性推送所有分支,可以用--all参数来实现: git push --all origin 如果远程仓库有更改,但你需要直接推送,那就可以使用强 ...
Html介绍,认识html标签
什么是网页?网页就是我们我们提前写好的代码样式经过浏览器的渲染展示出来的样式效果.其实我们常说的上网就是浏览各式各样的网页,这些网页都是由html标签组成,下面就是一个简单的网页,效果图如下: 简单看 ...
删除Win10菜单中的幽灵菜单（ms-resource:AppName/Text ）
新建一个 .bat文件,输入以下内容 @echo off taskkill /f /im explorer.exe taskkill /f /im shellexperiencehost.exe ti ...
SpringBoot 教程之发送邮件
目录 1. 简介 2. API 3. 配置 4. 实战 5. 示例源码 6. 参考资料 1. 简介 Spring Boot 收发邮件最简便方式是通过 spring-boot-starte ...
【python基础语法】运算符&if条件语句&while循环&for循环（第5天课堂笔记）
""" if语法规则: if 条件比较语句1: # 条件成立的时候会执行的代码 elif 条件比较语句2: # 条件2成立的时候会执行的代码 else: # 条件不成 ...
深入理解 C/C++ sizeof() 运算符
过去有一段时间一直以为带个括号的 \(sizeof()\) 是 \(C/C++\) 的原生函数QAQ. 其实不然,\(sizeof\) 同位运算符(^|&~!)一样是一种单目运算符,作用于变量 ...

使用Beautiful Soup爬取猫眼TOP100的电影信息

使用Beautiful Soup爬取猫眼TOP100的电影信息的更多相关文章

随机推荐

热门专题