爬虫--requests爬取猫眼电影排行榜

'''
目标：使用requests分页爬取猫眼电影中榜单栏目中TOP100榜的所有电影信息，并将信息写入文件
URL地址：http://maoyan.com/board/4 其中参数offset表示其实条数
获取信息：{排名，图片，标题，主演，放映时间，评分}
'''
下面我们直接上代码

from requests.exceptions import RequestException

import requests

import re,time,json

def getPage(url):

    '''爬取指定url页面信息'''

    try:

        #定义请求头信息

        headers = {

            'User-Agent': 'User-Agent:Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/4.0.1'

        }

        #执行爬取

        res = requests.get(url,headers=headers)

        #判断响应状态，并响应爬取内容

        if res.status_code == 200:

            return res.text  #获取爬取到的网页信息

        else:

            return None

    except RequestException.URLError:

        return None

def parsePage(html):

    '''解析爬取网页中的内容，并返回字段结果'''

    #定义解析正则表达式

    pat = '<i class="board-index board-index-[0-9]+">([0-9]+)</i>.*?<img data-src="(.*?)" alt="(.*?)" class="board-img" />.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>.*?<i class="integer">([0-9\.]+)</i><i class="fraction">([0-9]+)</i>'

    #执行解析

    items = re.findall(pat,html,re.S) #使 . 匹配包括换行在内的所有字符

    #遍历封装数据并返回

    for item in items:

        yield {

            'index':item[0],

            'image':item[1],

            'title':item[2],

            'actor':item[3].strip()[3:],  #.strip()函数去除首尾空格，[3:] 字符串>3才会执行，否则返回空

            'time': item[4].strip()[5:],

            'score': item[5] + item[6],

        }

def writeFile(content):

    '''执行文件追加写操作'''

    '''执行文件追加写操作'''

    #print(content)

    with open("./result.txt",'a',encoding='utf-8') as f:

        f.write(json.dumps(content,ensure_ascii=False) + "\n")

        #json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False

def main(offset):

    '''主程序函数，负责调度执行爬虫处理'''

    url = 'http://maoyan.com/board/4?offset=' + str(offset)

    print(url)

    html = getPage(url)

    #判断是否爬取到数据，并调用解析函数

    if html:

        for item in parsePage(html):

            writeFile(item)

# 判断当前执行是否为主程序运行，并遍历调用主函数爬取数据

if __name__ == '__main__':

    for i in range(10):

        main(offset=i*10)

        time.sleep(1)

爬虫--requests爬取猫眼电影排行榜的更多相关文章

scrapy爬取猫眼电影排行榜
做爬虫的人,一定离不开的一个框架就是scrapy框架,写小项目的时候可以用requests模块就能得到结果,但是当爬取的数据量大的时候,就一定要用到框架. 下面先练练手,用scrapy写一个爬取猫眼电 ...
使用xpath爬取猫眼电影排行榜
最近在学习xpath,在网上找资料的时候,发现一个新手经常拿来练手的项目,爬取猫眼电影前一百名排行的信息,很多都是跟崔庆才的很雷同,基本照抄.这里就用xpath自己写了一个程序,同样也是爬取猫眼电影, ...
使用requests爬取猫眼电影TOP100榜单
Requests是一个很方便的python网络编程库,用官方的话是"非转基因,可以安全食用".里面封装了很多的方法,避免了urllib/urllib2的繁琐. 这一节使用reque ...
Python爬虫项目--爬取猫眼电影Top100榜
本次抓取猫眼电影Top100榜所用到的知识点: 1. python requests库 2. 正则表达式 3. csv模块 4. 多进程正文目标站点分析通过对目标站点的分析, 来确定网页结构, ...
利用正则+requests爬取猫眼电影信息
import json # from multiprocessing import Pool import requests from requests.exceptions import Reque ...
爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
50 行代码教你爬取猫眼电影 TOP100 榜所有信息
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天,恋习Python的手把手系列,手把手教你入门Python爬虫,爬取猫眼电影TOP100榜信息,将涉及到基础爬虫 ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
用requests库爬取猫眼电影Top100
这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 import requests from re ...

随机推荐

信息传递 NOIP2015 day1 T2
题文: 有n个同学(编号为1到n)正在玩一个信息传递的游戏.在游戏里每人都有一个固定的信息传递对象,其中,编号为i的同学的信息传递对象是编号为Ti同学. 游戏开始时,每人都只知道自己的生日.之后每一轮 ...
Java编程思想——第17章容器深入研究读书笔记（二）
五.List的功能方法排除Collection已包含的方法外还增加了 boolean addAll(int index, Collection<? extends E> c);从索引位置 ...
DNS记录类型
A 记录: A (Address) 记录是用来指定主机名(或域名)对应的IP地址记录.用户可以将该域名下的网站服务器指向到自己的web server上.同时也可以设置您域名的子域名.通俗来说A记录就是 ...
React+Antd+Antd-Img-Crop实现上传固定大小的裁剪头像或者图片（且可控制图片数量）
见章知著 1024,程序员们节日快乐!本文主要讲述react配合antd以及react-img-crop第三方库实现一个可控的图片上传功能. 运行项目需要具有node环境第三方库安装 1.antd ...
图像处理笔记（二十）：LAWS纹理滤波应用于缺陷检测
LAWS纹理滤波 texture_laws(Image, 原图像 ImageTexture, 输出值,滤波后图像 FilterType, 过滤器类型 Shift, 灰度值转换,滤波后的灰度值可能会比较 ...
【RabbitMQ 实战指南】一 RabbitMQ入门
1.消息中间件 1.1.什么是消息中间件消息中间件(Message Queue Middleware,简称 MQ)是指利用高效可靠的消息传递机制进行与平台无关的数据交流,并基于数据通道来进行分布式系 ...
{每日一题}:四种方法实现打印feibo斐波那契数列
刚开始学Python的时候,记得经常遇到打印斐波那契数列了,今天玩玩使用四种办法打印出斐波那契数列方法一:使用普通函数 def feibo(n): """ 打印斐波那契 ...
jmeter-操作mysql
1.下载mysql驱动并放至如下目录:E:\soft\apache-jmeter-5.1.1\lib\ext 2.添加JDBC Connection Configuration(线程组-配置元件-JD ...
Mybaits 源码解析（二）----- 根据配置文件创建SqlSessionFactory（Configuration的创建过程）
我们使用mybatis操作数据库都是通过SqlSession的API调用,而创建SqlSession是通过SqlSessionFactory.下面我们就看看SqlSessionFactory的创建过程 ...
Mongodb 常见的查询语句及与 mysql 对比
db.users.find()select * from users db.users.find({"age" : 27})select * from users where ag ...

爬虫--requests爬取猫眼电影排行榜

爬虫--requests爬取猫眼电影排行榜的更多相关文章

随机推荐

热门专题