Python 爬取猫眼

import requests

import re

import pymongo

MONGO_URL='localhost'#建立连接

MONGO_DB='Maoyan'#创建数据库

client=pymongo.MongoClient(MONGO_URL)#连接数据库

db=client[MONGO_DB]#创建数据库

#获得一页的响应提信息

def get_one_page(url):

    headers={

        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'

    }

    response = requests.get(url,headers=headers)#发送请求，获得响应

    return response.text #获得响应体信息，并返回

#解析请求的信息，并通过正则表达式提取想要的信息：电影名称、排名等

def parse_page(html):

    #通过正则表达式进行匹配

    pattern=re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?data-src.*?"(.*?)".*?name.*?a.*?>(.*?)</a>.*?star.*?>(.*?)</p>.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.*?)</i>.*?fraction.*?>(.*?)</i>',re.S)

    results=re.findall(pattern,html)#获得单页响应头的信息，获得的是一个列表

    #对产生的列表list进行for循环

    for result in results:

        #通过字典(dict)，组建信息

        movies={

            'rate':result[0],

            'img_url':result[1],

            'name':result[2],

            'actor':result[3].strip()[3:],

            'time':result[4][5:],

            'score':result[5]+result[6]

        }

        #保存到数据库

        save_mongo(movies)

#保存到数据库的函数

def save_mongo(info):

    if db['Movies'].insert(info):#将信息插入到数据库

        print('保存成功：',info)

    else:

        print('保存失败：',info)

#实现主流程

def main():

    #有10页，通过来获取每一页的信息

    for i in range(10):

        url='http://maoyan.com/board/4?offset='+str(i*10)#构建每一页的请求url

        html=get_one_page(url)#进行请求

        parse_page(html)#进行响应体的解析，并保存到数据库

if __name__=='__main__':

    main()#调用主体函数

import requests

import re

import pymongo

MONGO_URL='localhost'#

MONGO_DB='Maoyan'

MONGO_TABLE='MoviesTop100'

client=pymongo.MongoClient(MONGO_URL)

db=client[MONGO_DB]

def save_to_mongo(info):

    if db[MONGO_TABLE].insert(info):

        print('保存成功',info)

    else:

        print('保存失败',info)

def get_one_page(url):

    headers={

        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'

    }

    html = requests.get(url=url,headers=headers).text

    return html

def get_movies_info(html):

    pattern=re.compile('<dd>.*?title="(.*?)".*?<p.*?star.*?>(.*?)</p>.*?<p.*?releasetime.*?>(.*?)</p>.*?<i.*?integer.*?>(.*?)</i>.*?fraction.*?>(.*?)</i>',re.S)

    results = re.findall(pattern,html)

    for result in results:

        movies = {}

        movies['name']=result[0]

        movies['actor']=result[1].strip()[3:]

        movies['time']=result[2].strip()[5:]

        movies['rate']=result[3]+result[4]

        save_to_mongo(movies)

#主体函数

def main():

    for i in range(10):

        url = 'http://maoyan.com/board/4?offset='+str(i*10)

        html=get_one_page(url)#完成请求，获取响应体的超文本

        get_movies_info(html)#完成信息提取

if __name__=='__main__':

    main()

Python 爬取猫眼的更多相关文章

Python 爬取猫眼 top100 电影例子
一个Python 爬取猫眼top100的小栗子 import json import requests import re from multiprocessing import Pool #//进程 ...
爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
python 爬取猫眼电影top100数据
最近有爬虫相关的需求,所以上B站找了个视频(链接在文末)看了一下,做了一个小程序出来,大体上没有修改,只是在最后的存储上,由txt换成了excel. 简要需求:爬虫爬取猫眼电影TOP100榜单数据 ...
票房和口碑称霸国庆档，用 Python 爬取猫眼评论区看看电影《我和我的家乡》到底有多牛
今年的国庆档电影市场的表现还是比较强势的,两名主力<我和我的家乡>和<姜子牙>起到了很好的带头作用. <姜子牙>首日破 2 亿,一举刷新由<哪吒之魔童降世&g ...
Python 爬取猫眼电影最受期待榜
主要爬取猫眼电影最受期待榜的电影排名.图片链接.名称.主演.上映时间. 思路:1.定义一个获取网页源代码的函数: 2.定义一个解析网页源代码的函数: 3.定义一个将解析的数据保存为本地文件的函数: ...
python爬取猫眼电影top100
最近想研究下python爬虫,于是就找了些练习项目试试手,熟悉一下,猫眼电影可能就是那种最简单的了. 1 看下猫眼电影的top100页面分了10页,url为:https://maoyan.com/b ...
Python爬取猫眼电影《飞驰人生》47858万条评论并对其进行数据分析
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Yura不说数据说 ,PYuraL PS:如有需要Python学习资 ...
Python爬取猫眼电影100榜并保存到excel表格
首先我们前期要导入的第三方类库有; 通过猫眼电影100榜的源码可以看到很有规律如: 亦或者是: 根据规律我们可以得到非贪婪的正则表达式 """<div class ...
Python爬取猫眼top100排行榜数据【含多线程】
# -*- coding: utf-8 -*- import requests from multiprocessing import Pool from requests.exceptions im ...
记录python爬取猫眼票房排行榜(带stonefont字体网页),保存到text文件,csv文件和MongoDB数据库中
猫眼票房排行榜页面显示如下: 注意右边的票房数据显示,爬下来的数据是这样显示的: 网页源代码中是这样显示的: 这是因为网页中使用了某种字体的缘故,分析源代码可知: 亲测可行: 代码中获取的是国内票房榜 ...

随机推荐

win32 TreeCtrl控件通知消息, LVN_SELCHANGED和LVN_ITEMCHANGED用法
今天出了个奇怪的问题,当我在主窗口上创建一个用模板对话框的子窗口时, 在子窗口上放的TreeCtrl控件不响应LVN_SELCHANGED消息,也是晕死了, 我以为是消息捕获的问题,我在主窗口上也捕获 ...
NOIP 模拟十一
T1 math 分析性质,对于 $$ ax+by=c$$ 有 $$ gcd(x,y)|c$$ 所以 $$ gcd(a_1,a_2 .....,a_n)|num$$ 换句话说就是最后得到的数一定是 GC ...
自然语言处理标注工具——Brat（安装、测试、使用）
一.Brat标注工具安装 1.安装条件: (1)运行于Linux系统(window系统下虚拟机内linux系统安装也可以) (2)目前brat最新版本(v1.3p1)仅支持python2版本运行使用( ...
Spring自动装配歧义性笔记
Spring自动装配歧义性笔记如果系统中存在两个都实现了同一接口的类,Spring在进行@Autowired自动装配的时候,会选择哪一个?如下: // 一下两个类均被标记为bean @Compone ...
Zookeeper 集群部署的那些事儿
简介额...., &*$% 淘气! ZooKeeper 是 Apache 的一个顶级项目,为分布式应用提供高效.高可用的分布式协调服务. ZooKeeper本质上是一个分布式的小文件存储系统 ...
Python实现九九乘法表
Linux基本命令和 Regex 正则表达式
Linux基本命令和 Regex 正则表达式 Regex 基本语法常用匹配规则 [aeiouAEIOU] # 从中随机选择一个 [0-9]{4} # 从中选择4个 .* # 匹配任意字符 \w # ...
FastAPI 学习之路（三十八）Static Files
如果使用前后台不分离的开发方式,那么模板文件中使用的静态文件,比如css/js等文件的目录需要在后台进行配置,以便模板渲染是能正确读到这些静态文件.那么我们应该如何处理呢. 首先安装依赖 pip in ...
[Beta]the Agiles Scrum Meeting 3
会议时间:2020.5.14 20:00 1.每个人的工作今天已完成的工作成员已完成的工作 yjy 实现前端界面美化 tq 实现查看.删除测试点功能的前端修复功能中的bug wjx 升级系统实现 ...
FastAPI 学习之路（五十六）将token存放在redis
在之前的文章中,FastAPI 学习之路(二十九)使用(哈希)密码和 JWT Bearer 令牌的 OAuth2,FastAPI 学习之路(二十八)使用密码和 Bearer 的简单 OAuth2,Fa ...

Python 爬取 猫眼

Python 爬取 猫眼的更多相关文章

随机推荐

热门专题

Python 爬取猫眼

Python 爬取猫眼的更多相关文章