python3+正则表达式爬取猫眼电影

'''Request+正则表达式抓取猫眼电影TOP100内容'''

import requests

from requests.exceptions import RequestException

import re

import json

from  multiprocessing import Pool  #进程池

def get_one_page(url):

    try:

        reponse = requests.get(url)

        if reponse.status_code==200:

            return reponse.text

        return None

    except RequestException:

        return "error!"

def parse_one_page(html):

    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'

                         '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'

                         '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)

    items = re.findall(pattern,html)

    for item in items:

        yield {

            "排名":item[0],

            "海报连接": item[1],

            "电影名": item[2],

            "主演": item[3].strip()[3:],

            "上映时间": item[4].strip()[5:],

            "评分": item[5]+item[6]

        }

def write_to_file(content):

    with open("content.txt","a",encoding="utf-8")as f:

        # print(type(content)) #内容为字典形式

        f.write(json.dumps(content,ensure_ascii=False)+'\n') #用于将字典形式的数据转化为字符串

        f.close()

def main(offset):

    url = "https://maoyan.com/board/4?offset="+str(offset)

    get_html = get_one_page(url)

    # print(get_html)

    for item in parse_one_page(get_html):

        print(item)

        write_to_file(item)

if __name__=='__main__':

    # for i in range(10):

    #     main(i*10)

    pool = Pool()       # 进程池调用

    pool.map(main,[i*10 for i in range(10)])

python3+正则表达式爬取猫眼电影的更多相关文章

14-Requests+正则表达式爬取猫眼电影
'''Requests+正则表达式爬取猫眼电影TOP100''''''流程框架:抓去单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果.正则表达式分析:根据HTML代码分析 ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
Requests+正则表达式爬取猫眼电影
目标提取出猫眼电影TOP100的电影名称.时间.评分.图片等信息,提取站点的URL为http://maoyan.com/board/4,提取的结果以文本的形式保存下来. 准备工作请安装好reque ...
Requests+正则表达式爬取猫眼电影(TOP100榜)
猫眼电影网址:www.maoyan.com 前言:网上一些大神已经对猫眼电影进行过爬取,所用的方法也是各有其优,最终目的是把影片排名.图片.名称.主要演员.上映时间与评分提取出来并保存到文件或者数据库 ...
Python爬虫学习==>第十章：使用Requests+正则表达式爬取猫眼电影
学习目的: 通过一个一个简单的爬虫应用,初窥门径. 正式步骤 Step1:流程框架抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: 正则表达式分析:根据html ...
requests和正则表达式爬取猫眼电影Top100练习
1 import requests 2 import re 3 from multiprocessing import Pool 4 from requests.exceptions import R ...
python3爬虫爬取猫眼电影TOP100（含详细爬取思路）
待爬取的网页地址为https://maoyan.com/board/4,本次以requests.BeautifulSoup css selector为路线进行爬取,最终目的是把影片排名.图片.名称.演 ...
Requests+BeautifulSoup+正则表达式爬取猫眼电影Top100（名称，演员，评分，封面，上映时间，简介）
# encoding:utf-8 from requests.exceptions import RequestException import requests import re import j ...
Requests+正则表达式爬取猫眼电影
代码: import re import json from multiprocessing import Pool import requests from requests.exceptions ...

随机推荐

springmvc 项目完整示例09 maven项目创建
需求表均同springmvc案例此处只是使用maven 注意,以下所有需要建立在你的eclipse等已经集成配置好了maven了,说白了就是新建项目的时候已经可以找到maven了没有的话需要安装m ...
lucene实战--打分算法没有那么难！
作为一个开放源代码项目,Lucene从问世之后,引发了开放源代码社群的巨大反响,程序员们不仅使用它构建具体的全文检索应用,而且将之集成到各种系统软件中去,以及构建Web应用,甚至某些商业软件也采用了L ...
MySQL：测试题
一,表关系的练习测试请创建如下表关系,并建立相关约束一,创建表结构数据: 创建的话肯定先创建没有关联的表,老师,课程(关联老师),年级,班级(关联年级),学生(关联班级), 班级任职表 (关联老师 ...
[THUWC2017] 在美妙的数学王国畅游
Description 懒得概括了.. Solution 挺裸的LCT+挺裸的泰勒展开吧... 稍微了解过一点的人应该都能很快切掉...吧? 就是把每个点的函数泰勒展开一下然后LCT维护子树sum就行 ...
ZooKeeper系列(1)：安装搭建ZooKeeper环境
ZooKeeper系列文章:https://www.cnblogs.com/f-ck-need-u/p/7576137.html#zk ZooKeeper有三种安装模式:单机安装(standalone ...
基于 LWIP 建立 TCP Server 与主机通信实验
LWIP 版本:2.0.3 上一篇文章是写如何将 LWIP 移植到板子上,今天晚上记录基于 LWIP 实现与主机的网络通信. 先是打开了原子的实验例程,大概浏览了一遍,觉得 TCP 网络网络通信也就是 ...
Apollo 7 — ConfigService 消息扫描设计实现
目录设计代码实现总结 1.设计 Apollo 为了减少依赖,将本来 MQ 的职责转移到了 Mysql 中.具体表现为 Mysql 中的 ReleaseMessage 表. 具体官方文档可见:发送 ...
[转]在nodejs使用Redis缓存和查询数据及Session持久化(Express)
本文转自:https://blog.csdn.net/wellway/article/details/76176760 在之前的这篇文章在ExpressJS(NodeJS)中设置二级域名跨域共享Co ...
Oracle时间与系统不同步，TimeStampService
要用到TimeStampService, Oracle数据库中select sysdate from dual获取数据库时间,发现比本地电脑慢几十秒, 不知这个实际中有没有影响通过select db ...
48.Linux-普通U盘以及多分区U盘自动挂载
在上章学习33.Linux-实现U盘自动挂载(详解)后,只是讲解了普通U盘挂载,并没有涉及到多分区U盘,接下来本章来继续学习 1.多分区U盘和普通U盘区别 1)U盘插上只会创建一个/dev/sda文件 ...

python3+正则表达式爬取 猫眼电影

python3+正则表达式爬取 猫眼电影的更多相关文章

随机推荐

热门专题

python3+正则表达式爬取猫眼电影

python3+正则表达式爬取猫眼电影的更多相关文章