python+requests+re匹配抓取猫眼上映电影信息

python+requests抓取猫眼中上映电影，re正则匹配获取对应电影的排名，图片地址，片名，主演及上映时间和评分

import requests

import re, json

def get_html(url):

    """

    获取网页html源码

    :return:

    """

    user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) " \

                 "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"

    # 浏览器信息

    headers = {

        "User-Agent": user_agent

    }

    r = requests.get(url, headers=headers)

    html = r.text

    # print(html)

    return html

def parse_one_page(html):

    """

    正则匹配需要内容

    :param html:

    :return:

    """

    # 排名+图片地址+主演+上映时间+评分

    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'

                         + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'

                         + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)

    items = re.findall(pattern, html)

    for item in items:

        yield {

            "排名": item[0],

            "图片地址": item[1],

            "片名": item[2],

            "主演": item[3].strip()[3:],

            "上映时间": item[4].strip()[4:],

            "分数": item[5] + item[6]

        }

# 数据存储

def write_file(content):

    with open("result.txt", 'a+', encoding='utf-8') as f:

        f.write(json.dumps(content, ensure_ascii=False) + "\n")

def main():

    """

    主函数

    :return:

    """

    url = "http://maoyan.com/board/4"

    html = get_html(url)

    for item in parse_one_page(html):

        print(item)

        write_file(item)

if __name__ == '__main__':

    main()

python+requests+re匹配抓取猫眼上映电影信息的更多相关文章

Python爬虫【三】利用requests和正则抓取猫眼电影网上排名前100的电影
#利用requests和正则抓取猫眼电影网上排名前100的电影 import requests from requests.exceptions import RequestException imp ...
Python开发网络爬虫抓取某同城房价信息
前言: 苦逼的我从某某城市换到另一个稍微大点的某某城市,面临的第一个问题就是买房,奋斗10多年,又回到起点,废话就不多说了,看看如何设计程序把某同城上的房价数据抓取过来. 方案:方案思路很简单,先把网 ...
003.[python学习] 简单抓取豆瓣网电影信息程序
声明:本程序仅用于学习爬网页数据,不可用于其它用途. 本程序仍有很多不足之处,请读者不吝赐教. 依赖:本程序依赖BeautifulSoup4和lxml,如需正确运行,请先安装.下面是代码: #!/us ...
Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)
requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.< ...
使用Python抓取猫眼近10万条评论并分析
<一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演 ...
Python Spider 抓取猫眼电影TOP100
""" 抓取猫眼电影TOP100 """ import re import time import requests from bs4 im ...
用python抓取智联招聘信息并存入excel
用python抓取智联招聘信息并存入excel tags:python 智联招聘导出excel 引言:前一阵子是人们俗称的金三银四,跳槽的小朋友很多,我觉得每个人都应该给自己做一下规划,根据自己的进步 ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
抓取猫眼TOP100的数据
import requests import re import json from multiprocessing import Pool from multiprocessing import M ...

随机推荐

SQL Server通过定义函数返回字段数据列表模板-干货
CREATE FUNCTION [dbo].[GetReportDWCustomerOrder] ( @YearDate DATETIME, 参数条件..... @Categor ...
fastadmin中js是如何调用的
想要了解fastadmin中的js是怎么调用的,就应该先了解RequireJs. RequireJs是模块化工具,每一个我们自己的js文件或者库都可以看成是一个模块,按需引入.写法如下: <sc ...
mssql 系统函数字符串函数 space 功能简介
转自: http://www.maomao365.com/?p=4672 一.space 函数功能简介 space功能:返回指定数量的空格参数简介: 参数1: 指定数量,参数需为int类型注意事项 ...
Mysql—下载安装与使用
一.安装前准备检查是否已经安装过mysql,执行命令,显示结果为:bt-mysql57-5.7.26-1.el7.x86_64 [root@localhost ~]# rpm -qa | grep ...
Linux —— 时间（tzselect、timedatactl命令，查看和修改时区，修改时区为东八区）【转】
转自:https://blog.csdn.net/weixin_42167759/article/details/90648225 一.设置linux修改时区首先查看当前时区 #date -R显示结果 ...
python类属性静态方法
实例实例就是由对象创建出来的实实在在的存在创建出来的对象叫做类的实例创建对象的动作叫做实例化对象的属性叫做实例的属性对象调用的方法叫做实例方法类是一个特殊的对象类属性类属性 ...
《深度访谈：华为开源数据格式 CarbonData 项目，实现大数据即席查询秒级响应》
深度访谈:华为开源数据格式 CarbonData 项目,实现大数据即席查询秒级响应 Tina 阅读数:146012016 年 7 月 13 日 19:00 华为宣布开源了 CarbonData ...
vuex中module的命名空间概念
vuex中module的命名空间概念默认情况下,模块内部的 action.mutation 和 getter 是注册在全局命名空间的. 弊端1:不同模块中有相同命名的mutations.action ...
IDEA的@Override下面有红色波浪线怎么去掉
测试了 , 不会影响运行 ! 去掉红线 ! file - seting - java compiler - 把两个version都改成1.8 ! ( 因为我的jdk是1.8) file - pr ...
Mybatis相关试题
1.MyBatis有两种事务管理器类型,分别是() A:JDBC B:MANAGED C:POOLED D:JBDI 正确答案:AB 试题分析: 在 MyBatis 中有两种事务管理器类型(也就是 t ...

python+requests+re匹配抓取猫眼上映电影信息

python+requests+re匹配抓取猫眼上映电影信息的更多相关文章

随机推荐

热门专题