1 import json
import requests
from requests.exceptions import RequestException
import re
import time def get_one_page(url):
try:
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
return None
except RequestException:
return None def parse_one_page(html):
pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
+ '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
+ '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
items = re.findall(pattern, html)
for item in items:
yield {
'index': item[0],
'image': item[1],
'title': item[2],
'actor': item[3].strip()[3:],
'time': item[4].strip()[5:],
'score': item[5] + item[6]
} def write_to_file(content):
with open('result.txt', 'a', encoding='utf-8') as f:
f.write(json.dumps(content, ensure_ascii=False) + '\n') def main(offset):
url = 'http://maoyan.com/board/4?offset=' + str(offset)
html = get_one_page(url)
for item in parse_one_page(html):
print(item)
write_to_file(item) if __name__ == '__main__':
for i in range(10):
main(offset=i * 10)
time.sleep(1)

看下结果

{"paiming": "{{= title}}", "title": "<span>{{= sub_title}}"}
{"paiming": "1", "title": "肖申克的救赎"}
{"paiming": "2", "title": "霸王别姬"}
{"paiming": "3", "title": "这个杀手不太冷"}
{"paiming": "4", "title": "阿甘正传"}
{"paiming": "5", "title": "美丽人生"}
{"paiming": "6", "title": "泰坦尼克号"}
{"paiming": "7", "title": "千与千寻"}
{"paiming": "8", "title": "辛德勒的名单"}
{"paiming": "9", "title": "盗梦空间"}
{"paiming": "10", "title": "机器人总动员"}
{"paiming": "11", "title": "忠犬八公的故事"}
{"paiming": "12", "title": "三傻大闹宝莱坞"}
{"paiming": "13", "title": "海上钢琴师"}
{"paiming": "14", "title": "放牛班的春天"}
{"paiming": "15", "title": "大话西游之大圣娶亲"}
{"paiming": "16", "title": "楚门的世界"}
{"paiming": "17", "title": "教父"}
{"paiming": "18", "title": "龙猫"}
{"paiming": "19", "title": "星际穿越"}
{"paiming": "20", "title": "熔炉"}
{"paiming": "21", "title": "无间道"}
{"paiming": "22", "title": "触不可及"}
{"paiming": "23", "title": "当幸福来敲门"}
{"paiming": "24", "title": "乱世佳人"}
{"paiming": "25", "title": "怦然心动"}
{"paiming": "{{= title}}", "title": "<span>{{= sub_title}}"}
{"paiming": "26", "title": "疯狂动物城"}
{"paiming": "27", "title": "天堂电影院"}
{"paiming": "28", "title": "蝙蝠侠:黑暗骑士"}
{"paiming": "29", "title": "十二怒汉"}
{"paiming": "30", "title": "鬼子来了"}
{"paiming": "31", "title": "活着"}
{"paiming": "32", "title": "少年派的奇幻漂流"}
{"paiming": "33", "title": "指环王3:王者无敌"}
{"paiming": "34", "title": "搏击俱乐部"}
{"paiming": "35", "title": "天空之城"}
{"paiming": "36", "title": "控方证人"}
{"paiming": "37", "title": "飞屋环游记"}
{"paiming": "38", "title": "大话西游之月光宝盒"}
{"paiming": "39", "title": "罗马假日"}
{"paiming": "40", "title": "窃听风暴"}
{"paiming": "41", "title": "两杆大烟枪"}
{"paiming": "42", "title": "飞越疯人院"}
{"paiming": "43", "title": "闻香识女人"}
{"paiming": "44", "title": "哈尔的移动城堡"}
{"paiming": "45", "title": "摔跤吧!爸爸"}
{"paiming": "46", "title": "辩护人"}
{"paiming": "47", "title": "死亡诗社"}
{"paiming": "48", "title": "V字仇杀队"}
{"paiming": "49", "title": "海豚湾"}
{"paiming": "50", "title": "教父2"}
{"paiming": "{{= title}}", "title": "<span>{{= sub_title}}"}
{"paiming": "51", "title": "指环王2:双塔奇兵"}
{"paiming": "52", "title": "美丽心灵"}
{"paiming": "53", "title": "指环王1:魔戒再现"}
{"paiming": "54", "title": "饮食男女"}
{"paiming": "55", "title": "情书"}
{"paiming": "56", "title": "素媛"}
{"paiming": "57", "title": "狮子王"}
{"paiming": "58", "title": "美国往事"}
{"paiming": "59", "title": "钢琴家"}
{"paiming": "60", "title": "小鞋子"}
{"paiming": "61", "title": "七宗罪"}
{"paiming": "62", "title": "被嫌弃的松子的一生"}
{"paiming": "63", "title": "致命魔术"}
{"paiming": "64", "title": "天使爱美丽"}
{"paiming": "65", "title": "本杰明·巴顿奇事"}
{"paiming": "66", "title": "西西里的美丽传说"}
{"paiming": "67", "title": "音乐之声"}
{"paiming": "68", "title": "黑客帝国"}
{"paiming": "69", "title": "让子弹飞"}
{"paiming": "70", "title": "拯救大兵瑞恩"}
{"paiming": "71", "title": "看不见的客人"}
{"paiming": "72", "title": "低俗小说"}
{"paiming": "73", "title": "勇敢的心"}
{"paiming": "74", "title": "剪刀手爱德华"}
{"paiming": "75", "title": "沉默的羔羊"}
{"paiming": "{{= title}}", "title": "<span>{{= sub_title}}"}
{"paiming": "76", "title": "末代皇帝"}
{"paiming": "77", "title": "大闹天宫"}
{"paiming": "78", "title": "蝴蝶效应"}
{"paiming": "79", "title": "入殓师"}
{"paiming": "80", "title": "春光乍泄"}
{"paiming": "81", "title": "心灵捕手"}
{"paiming": "82", "title": "玛丽和马克思"}
{"paiming": "83", "title": "哈利·波特与魔法石"}
{"paiming": "84", "title": "阳光灿烂的日子"}
{"paiming": "85", "title": "布达佩斯大饭店"}
{"paiming": "86", "title": "禁闭岛"}
{"paiming": "87", "title": "幽灵公主"}
{"paiming": "88", "title": "第六感"}
{"paiming": "89", "title": "猫鼠游戏"}
{"paiming": "90", "title": "重庆森林"}
{"paiming": "91", "title": "狩猎"}
{"paiming": "92", "title": "致命ID"}
{"paiming": "93", "title": "断背山"}
{"paiming": "94", "title": "大鱼"}
{"paiming": "95", "title": "穿条纹睡衣的男孩"}
{"paiming": "96", "title": "加勒比海盗"}
{"paiming": "97", "title": "告白"}
{"paiming": "98", "title": "甜蜜蜜"}
{"paiming": "99", "title": "一一"}
{"paiming": "100", "title": "射雕英雄传之东成西就"}
{"paiming": "{{= title}}", "title": "<span>{{= sub_title}}"}
{"paiming": "101", "title": "阿凡达"}
{"paiming": "102", "title": "摩登时代"}
{"paiming": "103", "title": "阳光姐妹淘"}
{"paiming": "104", "title": "上帝之城"}
{"paiming": "105", "title": "爱在黎明破晓前"}
{"paiming": "106", "title": "消失的爱人"}
{"paiming": "107", "title": "侧耳倾听"}
{"paiming": "108", "title": "风之谷"}
{"paiming": "109", "title": "爱在日落黄昏时"}
{"paiming": "110", "title": "超脱"}
{"paiming": "111", "title": "倩女幽魂"}
{"paiming": "112", "title": "恐怖直播"}
{"paiming": "113", "title": "红辣椒"}
{"paiming": "114", "title": "小森林 夏秋篇"}
{"paiming": "115", "title": "喜剧之王"}
{"paiming": "116", "title": "菊次郎的夏天"}
{"paiming": "117", "title": "驯龙高手"}
{"paiming": "118", "title": "幸福终点站"}
{"paiming": "119", "title": "借东西的小人阿莉埃蒂"}
{"paiming": "120", "title": "神偷奶爸"}
{"paiming": "121", "title": "萤火虫之墓"}
{"paiming": "122", "title": "七武士"}
{"paiming": "123", "title": "岁月神偷"}
{"paiming": "124", "title": "杀人回忆"}
{"paiming": "125", "title": "怪兽电力公司"}
{"paiming": "{{= title}}", "title": "<span>{{= sub_title}}"}
{"paiming": "126", "title": "谍影重重3"}
{"paiming": "127", "title": "喜宴"}
{"paiming": "128", "title": "贫民窟的百万富翁"}
{"paiming": "129", "title": "电锯惊魂"}
{"paiming": "130", "title": "东邪西毒"}
{"paiming": "131", "title": "真爱至上"}
{"paiming": "132", "title": "记忆碎片"}
{"paiming": "133", "title": "黑天鹅"}
{"paiming": "134", "title": "疯狂原始人"}
{"paiming": "135", "title": "小森林 冬春篇"}
{"paiming": "136", "title": "雨人"}
{"paiming": "137", "title": "海洋"}
{"paiming": "138", "title": "哈利·波特与死亡圣器(下)"}
{"paiming": "139", "title": "请以你的名字呼唤我"}
{"paiming": "140", "title": "卢旺达饭店"}
{"paiming": "141", "title": "萤火之森"}
{"paiming": "142", "title": "英雄本色"}
{"paiming": "143", "title": "7号房的礼物"}
{"paiming": "144", "title": "心迷宫"}
{"paiming": "145", "title": "虎口脱险"}
{"paiming": "146", "title": "燃情岁月"}
{"paiming": "147", "title": "荒蛮故事"}
{"paiming": "148", "title": "傲慢与偏见"}
{"paiming": "149", "title": "超能陆战队"}
{"paiming": "150", "title": "蝙蝠侠:黑暗骑士崛起"}
{"paiming": "{{= title}}", "title": "<span>{{= sub_title}}"}
{"paiming": "151", "title": "海边的曼彻斯特"}
{"paiming": "152", "title": "唐伯虎点秋香"}
{"paiming": "153", "title": "教父3"}
{"paiming": "154", "title": "纵横四海"}
{"paiming": "155", "title": "恋恋笔记本"}
{"paiming": "156", "title": "时空恋旅人"}
{"paiming": "157", "title": "玩具总动员3"}
{"paiming": "158", "title": "完美的世界"}
{"paiming": "159", "title": "花样年华"}
{"paiming": "160", "title": "达拉斯买家俱乐部"}
{"paiming": "161", "title": "二十二"}
{"paiming": "162", "title": "猜火车"}
{"paiming": "163", "title": "魂断蓝桥"}
{"paiming": "164", "title": "雨中曲"}
{"paiming": "165", "title": "无人知晓"}
{"paiming": "166", "title": "穿越时空的少女"}
{"paiming": "167", "title": "我是山姆"}
{"paiming": "168", "title": "冰川时代"}
{"paiming": "169", "title": "人工智能"}
{"paiming": "170", "title": "血战钢锯岭"}
{"paiming": "171", "title": "爆裂鼓手"}
{"paiming": "172", "title": "浪潮"}
{"paiming": "173", "title": "朗读者"}
{"paiming": "174", "title": "罗生门"}
{"paiming": "175", "title": "香水"}
{"paiming": "{{= title}}", "title": "<span>{{= sub_title}}"}
{"paiming": "176", "title": "未麻的部屋"}
{"paiming": "177", "title": "被解救的姜戈"}
{"paiming": "178", "title": "阿飞正传"}
{"paiming": "179", "title": "头脑特工队"}
{"paiming": "180", "title": "可可西里"}
{"paiming": "181", "title": "恐怖游轮"}
{"paiming": "182", "title": "一次别离"}
{"paiming": "183", "title": "追随"}
{"paiming": "184", "title": "房间"}
{"paiming": "185", "title": "撞车"}
{"paiming": "186", "title": "战争之王"}
{"paiming": "187", "title": "你的名字。"}
{"paiming": "188", "title": "地球上的星星"}
{"paiming": "189", "title": "模仿游戏"}
{"paiming": "190", "title": "魔女宅急便"}
{"paiming": "191", "title": "一个叫欧维的男人决定去死"}
{"paiming": "192", "title": "忠犬八公物语"}
{"paiming": "193", "title": "牯岭街少年杀人事件"}
{"paiming": "194", "title": "谍影重重"}
{"paiming": "195", "title": "梦之安魂曲"}
{"paiming": "196", "title": "谍影重重2"}
{"paiming": "197", "title": "完美陌生人"}
{"paiming": "198", "title": "青蛇"}
{"paiming": "199", "title": "惊魂记"}
{"paiming": "200", "title": "哪吒闹海"}
{"paiming": "{{= title}}", "title": "<span>{{= sub_title}}"}
{"paiming": "201", "title": "再次出发之纽约遇见你"}
{"paiming": "202", "title": "小萝莉的猴神大叔"}
{"paiming": "203", "title": "黑客帝国3:矩阵革命"}
{"paiming": "204", "title": "东京物语"}
{"paiming": "205", "title": "新龙门客栈"}
{"paiming": "206", "title": "源代码"}
{"paiming": "207", "title": "终结者2:审判日"}
{"paiming": "208", "title": "末路狂花"}
{"paiming": "209", "title": "步履不停"}
{"paiming": "210", "title": "绿里奇迹"}
{"paiming": "211", "title": "秒速5厘米"}
{"paiming": "212", "title": "海街日记"}
{"paiming": "213", "title": "碧海蓝天"}
{"paiming": "214", "title": "城市之光"}
{"paiming": "215", "title": "初恋这件小事"}
{"paiming": "216", "title": "无敌破坏王"}
{"paiming": "217", "title": "这个男人来自地球"}
{"paiming": "218", "title": "勇闯夺命岛"}
{"paiming": "219", "title": "无耻混蛋"}
{"paiming": "220", "title": "爱在午夜降临前"}
{"paiming": "221", "title": "海盗电台"}
{"paiming": "222", "title": "疯狂的石头"}
{"paiming": "223", "title": "卡萨布兰卡"}
{"paiming": "224", "title": "变脸"}
{"paiming": "225", "title": "E.T. 外星人"}
{"paiming": "{{= title}}", "title": "<span>{{= sub_title}}"}
{"paiming": "226", "title": "发条橙"}
{"paiming": "227", "title": "黄金三镖客"}
{"paiming": "228", "title": "美国丽人"}
{"paiming": "229", "title": "彗星来的那一夜"}
{"paiming": "230", "title": "荒野生存"}
{"paiming": "231", "title": "英国病人"}
{"paiming": "232", "title": "聚焦"}
{"paiming": "233", "title": "血钻"}
{"paiming": "234", "title": "国王的演讲"}
{"paiming": "235", "title": "迁徙的鸟"}
{"paiming": "236", "title": "非常嫌疑犯"}
{"paiming": "237", "title": "勇士"}
{"paiming": "238", "title": "燕尾蝶"}
{"paiming": "239", "title": "黑鹰坠落"}
{"paiming": "240", "title": "遗愿清单"}
{"paiming": "241", "title": "穆赫兰道"}
{"paiming": "242", "title": "叫我第一名"}
{"paiming": "243", "title": "我爱你"}
{"paiming": "244", "title": "枪火"}
{"paiming": "245", "title": "荒岛余生"}
{"paiming": "246", "title": "2001太空漫游"}
{"paiming": "247", "title": "上帝也疯狂"}
{"paiming": "248", "title": "千钧一发"}
{"paiming": "249", "title": "大卫·戈尔的一生"}
{"paiming": "250", "title": "蓝色大门"}

爬取豆瓣电影Top250的更多相关文章

  1. urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250

    对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...

  2. python2.7爬取豆瓣电影top250并写入到TXT,Excel,MySQL数据库

    python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务 爬取豆瓣电影top250 以txt文件保存 以Excel文档保存 将数据录入数据库 2.分析 电影 ...

  3. scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250

    scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言 经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...

  4. scrapy爬取豆瓣电影top250

    # -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class ...

  5. 一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用

    学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作 在pycharm中安装request库 ...

  6. python 爬虫&爬取豆瓣电影top250

    爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml impor ...

  7. 【转】爬取豆瓣电影top250提取电影分类进行数据分析

    一.爬取网页,获取需要内容 我们今天要爬取的是豆瓣电影top250页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入主题吧! 知道我们需要的内容在哪里了, ...

  8. Scrapy中用xpath/css爬取豆瓣电影Top250:解决403HTTP status code is not handled or not allowed

    好吧,我又开始折腾豆瓣电影top250了,只是想试试各种方法,看看哪一种的方法效率是最好的,一直进行到这一步才知道 scrapy的强大,尤其是和selector结合之后,速度飞起.... 下面我就采用 ...

  9. Python爬虫入门:爬取豆瓣电影TOP250

    一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...

  10. Scrapy爬虫(4)爬取豆瓣电影Top250图片

      在用Python的urllib和BeautifulSoup写过了很多爬虫之后,本人决定尝试著名的Python爬虫框架--Scrapy.   本次分享将详细讲述如何利用Scrapy来下载豆瓣电影To ...

随机推荐

  1. SQLite入门(二)读写二进制数据

    //读二进制数据的函数 BOOL OpenBinDataFile(BYTE **pBUf,UINT &len) {     if (pBUf == NULL)     {         re ...

  2. 浅谈 @RequestParam 和@PathVariable

    版权声明:本文为博主原创文章,如果对你有用,敬请带走! https://blog.csdn.net/chuck_kui/article/details/55506723 首先 上两个地址: 地址①ht ...

  3. Ssh 证书验证登录

    一般使用 PuTTY 等 SSH 客户端来远程管理 Linux 服务器.但是,一般的密码方式登录,容易有密码被暴力破解的问题.所以,一般我们会将 SSH 的端口设置为默认的 22 以外的端口,或者禁用 ...

  4. .Net ->> iTextSharp工具读取PDF文本内容

    分享一个开源的C#DLL,可以读取PDF文本内容. 地址:http://sourceforge.net/projects/itextsharp/ 这里还有相关的链接:http://www.codepr ...

  5. ubuntu16.04下无法连接网络的bug

    首先介绍下Bug的情况,这个bug纠缠我整整一天,在命令行下ifconfig能够看到ip地址,不过我的不是eth0,而是enps03,然后Ping 本机和ping 网关都能够 ping 通,但是sud ...

  6. Access 64-bit HKLM\Software Registry by 32-bit C#.NET Application

    http://www.codeproject.com/Articles/1003177/Access-bit-HKLM-Software-Registry-by-bit-Csharp-NE While ...

  7. 当你的Spring IOC 容器(即applicationContext.xml文件)忘记配到web.xml 文件中时

    当你的Spring IOC 容器忘记配到web.xml 文件中时,启动服务器就会报错. 部分错误如下: Caused by: org.springframework.beans.factory.NoS ...

  8. JQuery获取和设置Select选项的常用方法总结

    1.获取select 选中的 text:  $("#cusChildTypeId").find("option:selected").text();  $(&q ...

  9. ADF中遍历VO中的行数据(Iterator)

    在ADF中VO实质上就是一个迭代器, 1.在Application Module的实现类中,直接借助VO实现类和Row的实现类 TestVOImpl organizationUser = (TestV ...

  10. Centos6 Ngnix和fastcgi搭建

    一.下载Nginx 依赖pcre,zlib,openssl 下载解压包,解压后进入 ./configue make make install 默认安装到/usr/local/ngnix 可执行文件在/ ...