7.5爬取猫眼Top100电影名单

2018-7-5 20:22:57

还有有一丢丢成就感!以后可以爬取简单网站了!比如妹子图片,只是现在不知道咋下载!

正则还是刚看,要多去用正则!正则很强大的东西!

#!/usr/bin/env python

#!--*--coding:utf-8 --*--

#!@Time    :2018/7/5 18:08

#!@Author   TrueNewBee

#coding=utf-8

#爬取猫眼电影

#2018-7-5 17:37:30

#http://maoyan.com/board/4?offset=0

'''

很完美!!!!2018-7-5 20:04:10 成功运行!啦啦啦

我觉得正则部分还可以优化有空再优化

'''

import requests

import re

import time

import json

def  get_one_page(url):

    """爬取猫眼网页"""

    headers = {

        'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64)AppleWebKit/537.36 (KHTML, like Gecko)Chrome/55.0.2883.87 Safari/537.36'

    }

    response = requests.get(url,headers=headers)

    if response.status_code ==200:

        return response.text

    return None

def parse_one_page(html):

    """提取数据"""

    #运用正则提取  电影名字,演员等

    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'

                         + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'

                         + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)

    items = re.findall(pattern,html)

    #遍历提取的结果生成字典

    for item in items:

        yield {

            '排名': item[0],

            '图片地址': item[1],

            '电影名字': item[2],

            '演员': item[3].strip()[3:],

            '上映时间': item[4].strip()[5:],

            '评分': item[5] + item[6]

        }

def write_to_fire(content):

    """"把提取的数据写入文件"""

    with open("猫眼Top100电影.txt","a",encoding="utf-8") as f:

        print(type(json.dumps(content)))

        f.write(json.dumps(content,ensure_ascii=False)+'\n') #使用json模块实现字典的序列化

def main(offset):

    """主方法"""

    url ='http://maoyan.com/board/4?offset='+str(offset)

    html = get_one_page(url)

    for item in parse_one_page(html):

        print(item)

        write_to_fire(item)

if __name__ == '__main__':

    for i in range(10):

        main(offset=i *10)

7.5爬取猫眼Top100电影名单的更多相关文章

Python 爬取猫眼 top100 电影例子
一个Python 爬取猫眼top100的小栗子 import json import requests import re from multiprocessing import Pool #//进程 ...
使用Requests+正则表达式爬取猫眼TOP100电影并保存到文件或MongoDB,并下载图片
需要着重学习的地方:(1)爬取分页数据时,url链接的构建(2)保存json格式数据到文件,中文显示问题(3)线程池的使用(4)正则表达式的写法(5)根据图片url链接下载图片并保存(6)MongoD ...
python爬虫：爬取猫眼TOP100榜的100部高分经典电影
1.问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2.思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) ...
使用Beautiful Soup爬取猫眼TOP100的电影信息
使用Beautiful Soup爬取猫眼TOP100的电影信息,将排名.图片.电影名称.演员.时间.评分等信息,提取的结果以文件形式保存下来. import time import json impo ...
爬取猫眼TOP100
学完正则的一个小例子就是爬取猫眼排行榜TOP100的所有电影信息看一下网页结构: 可以看出要爬取的信息在<dd>标签和</dd>标签中间正则表达式如下: pattern ...
整理requests和正则表达式爬取猫眼Top100中遇到的问题及解决方案
最近看崔庆才老师的爬虫课程,第一个实战课程是requests和正则表达式爬取猫眼电影Top100榜单.虽然理解崔老师每一步代码的实现过程,但自己敲代码的时候还是遇到了不少问题: 问题1:获取respo ...
【爬虫】-爬取猫眼TOP100
原文崔庆才<python3网络爬虫实战> 本文为自学记录,如有侵权,请联系删除目标: 熟悉正则表达式,以及爬虫流程获取猫眼TOP100榜单 1.网站分析目标站点为http://www ...
Python爬取猫眼top100排行榜数据【含多线程】
# -*- coding: utf-8 -*- import requests from multiprocessing import Pool from requests.exceptions im ...
爬取猫眼电影TOP100
本文所讲的爬虫项目实战属于基础.入门级别,使用的是Python3.5实现的. 本项目基本目标:在猫眼电影中把top100的电影名,排名,海报,主演,上映时间,评分等爬取下来爬虫原理和步骤爬虫,就是 ...

随机推荐

C#高级编程四十一天----用户定义的数据类型转换
用户定义的数据类型转换 C#同意定义自己的数据类型,这意味着须要某些工具支持在自己的数据类型间进行数据转换.方法是把数据类型转换定义为相关类的一个成员运算符,数据类型转换必须声明为隐式或者显式,以 ...
C++开源项目等收集
VLC 是一款自由.开源的跨平台多媒体播放器及框架,可播放大多数多媒体文件,以及 DVD.音频 CD.VCD 及各类流媒体协议. Downloading vlc-2.2.4.tar.xz Thanks ...
Spring AOP项目应用——方法入参校验 & 日志横切
转载:https://blog.csdn.net/Daybreak1209/article/details/80591566 应用一:方法入参校验由于系统多个方法入参均对外封装了统一的Dto,其中D ...
ionic tab显示到顶部去了
添加配置调整显示位置 .config(function($stateProvider, $urlRouterProvider,$ionicConfigProvider) { $ionicConfigP ...
Jmeter+Ant+Jenkins搭建持续集成的接口测试(推荐 Mark)
转自:http://my.oschina.net/hellotest/blog/516079 目录[-] 一.Jmeter+ant 二.Jmeter+ant+Jenkins 三.Tomcat配置虚拟目 ...
NeoFinder for Mac（增强型文件管理工具）破解版安装
1.软件简介 NeoFinder 是 macOS 系统上一款帮助用户管理磁盘的 Mac 工具,NeoFinder for mac 能迅速组织您的数据,无论是在外部或内部磁盘,或任何其他卷.它能记 ...
Effective Java 第三版——49. 检查参数有效性
Tips <Effective Java, Third Edition>一书英文版已经出版,这本书的第二版想必很多人都读过,号称Java四大名著之一,不过第二版2009年出版,到现在已经将 ...
jQuery Address全站 AJAX 完整案例详解
本文详细介绍如何利用 jQuery 框架以及 jQuery Address 插件实现最基本的全站 AJAX 动态加载页面内容的功能的方法. 案例目标以常见基本结构的网站为案例,实现全站链接 AJAX ...
IOS开发系列之阿堂教程:玩转IPhone客户端和Web服务端交互(客户端)实践
说到ios的应用开发,我们不能不提到web server服务端,如果没有服务端的支持,ios应用开发就没有多大意义了,因为从事过手机开发的朋友都知道(Android也一样),大量复杂业务的处理和数据库 ...
超级NB的防DDOS(小量级)攻击的脚本
# tree /usr/local/ddos/ /usr/local/ddos/ ├── ddos.conf ├── ddos.sh ├── ignore.ip.list └── LICENSE di ...

7.5爬取猫眼Top100电影名单

7.5爬取猫眼Top100电影名单的更多相关文章

随机推荐

热门专题