利用正则+requests爬取猫眼电影信息

 import json

 # from multiprocessing import Pool

 import requests

 from requests.exceptions import RequestException

 import re

 def get_one_page(url):

     try:

         headers={"user-agent":'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}

         response = requests.get(url,headers=headers)

         if response.status_code == 200:

             return response.text

         return None

     except RequestException:

         return None

 def parse_one_page(html):

     pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'

                          +'.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'

                          +'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)

     items = re.findall(pattern, html)

     for item in items:

         yield {

             'index': item[0],

             'image': item[1],

             'title': item[2],

             'actor': item[3].strip()[3:],

             'time': item[4].strip()[5:],

             'score': item[5]+item[6]

         }

 def write_to_file(content):

     with open('result.txt', 'a', encoding='utf-8') as f:

         f.write(json.dumps(content, ensure_ascii=False) + '\n')

         f.close()

 def main(offset):

     url = 'http://maoyan.com/board/4?offset='+str(offset)

     # url='http://www.baidu.com'

     html = get_one_page(url)

     # print(html)

     for item in parse_one_page(html):

         print(item)

         write_to_file(item)

 if __name__ == '__main__':

      for i in range(10):

           main(i*10)

注：需要重置requests的headers,否则猫眼电影拒绝访问。

利用正则+requests爬取猫眼电影信息的更多相关文章

Python3爬取猫眼电影信息
Python3爬取猫眼电影信息 import json import requests from requests.exceptions import RequestException import ...
爬虫基本库request使用—爬取猫眼电影信息
使用request库和正则表达式爬取猫眼电影信息. 1.爬取目标猫眼电影TOP100的电影名称,时间,评分,等信息,将结果以文件存储. 2.准备工作安装request库. 3.代码实现 impor ...
爬虫--requests爬取猫眼电影排行榜
'''目标:使用requests分页爬取猫眼电影中榜单栏目中TOP100榜的所有电影信息,并将信息写入文件URL地址:http://maoyan.com/board/4 其中参数offset表示其实条 ...
使用requests爬取猫眼电影TOP100榜单
Requests是一个很方便的python网络编程库,用官方的话是"非转基因,可以安全食用".里面封装了很多的方法,避免了urllib/urllib2的繁琐. 这一节使用reque ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
用requests库爬取猫眼电影Top100
这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 import requests from re ...
python爬取猫眼电影top100
最近想研究下python爬虫,于是就找了些练习项目试试手,熟悉一下,猫眼电影可能就是那种最简单的了. 1 看下猫眼电影的top100页面分了10页,url为:https://maoyan.com/b ...
14-Requests+正则表达式爬取猫眼电影
'''Requests+正则表达式爬取猫眼电影TOP100''''''流程框架:抓去单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果.正则表达式分析:根据HTML代码分析 ...
50 行代码教你爬取猫眼电影 TOP100 榜所有信息
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天,恋习Python的手把手系列,手把手教你入门Python爬虫,爬取猫眼电影TOP100榜信息,将涉及到基础爬虫 ...

随机推荐

HBase 数据迁移方案介绍
一.前言 HBase数据迁移是很常见的操作,目前业界主要的迁移方式主要分为以下几类: 图1.HBase数据迁移方案从上面图中可看出,目前的方案主要有四类,Hadoop层有一类,HBase层有三类.下 ...
小强学渲染之Unity Shader噪声应用
之前玩Tencent的仙剑4手游时,杀死boss会看到boss有“消融”的效果,就是身体上有多个洞洞然后往四周扩散直至尸体完全消失,但效果是没有关闭背面剔除的“穿帮”效果,可能也是考虑性能因素. em ...
Polar Code(1)关于Polar Code
Polar Codes于2008年由土耳其毕尔肯大学Erdal Arikan教授首次提出,Polar Codes提出后各通信巨头都进行了研究.2016年11月18日(美国时间2016年11月17日), ...
wpf 寻找TreeView的子元素，并对其进行操作
//itemsControl 开始为指定的TreeView控件 item为TreeView子元素 private void PareItems(ItemsControl itemsControl, ...
vue实例的生命周期
Vue实例的生命周期也就是这个实例从出生到死亡的过程,所以我在文档原图上把这个周期大致分为创建过程 | 运行过程 | 销毁过程三个阶段,不同结果或又分为一些小的阶段在第一个阶段,创建阶段,会完成Vu ...
srs之深入浅出看流媒体
本文转载:https://blog.csdn.net/zjqlovell/article/details/50786040 CDN这几年爆炸式增长,带宽提速是根源,而HTTP始终还是那个屌样,因此目前 ...
web安全之机器学习入门——2.机器学习概述
目录 0 前置知识什么是机器学习机器学习的算法机器学习首先要解决的两个问题一些基本概念数据集介绍 1 正文数据提取数字型文本型数据读取 0 前置知识什么是机器学习通过简单示例来理 ...
AX_SysTableBrowser
sysTableBrowser sysTableBrowser = new sysTableBrowser(); ; sysTableBrowser.setAllowEdit(true); sy ...
java34
局部内部类:定义在方法中的类 -1局部类中可引用局部变量(定义在方法中的变量),但是局部变量必须已经初始化, 因为局部变量前默认带着final. 2.局部内部类的东西只能在定义的方法中使用(在方法中创 ...
[SqlServer]SQL Server创建约束图解
SQLServer 中有五种约束, Primary Key 约束. Foreign Key 约束. Unique 约束. Default 约束和 Check 约束,今天使用SQL Server2008 ...

利用正则+requests爬取猫眼电影信息

利用正则+requests爬取猫眼电影信息的更多相关文章

随机推荐

热门专题