Python3 抓取豆瓣电影Top250
利用 requests 抓取豆瓣电影 Top 250:
import re
import requests def main(url):
global num
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"}
req = requests.get(url, headers=headers)
pattern = re.compile(r"<span class=\"title\">(.*?)</span>", re.S)
for name in re.findall(pattern, req.text):
if name.startswith("&"):
continue
else:
print("%s: %s" % (num, name))
num += 1 if __name__ == '__main__':
num = 1
for i in range(0, 256, 25):
url = "https://movie.douban.com/top250?start=%s&filter=" % i
main(url)
执行结果:
: 肖申克的救赎
: 霸王别姬
: 这个杀手不太冷
: 阿甘正传
: 美丽人生
: 泰坦尼克号
: 千与千寻
: 辛德勒的名单
: 盗梦空间
: 忠犬八公的故事
: 机器人总动员
: 三傻大闹宝莱坞
: 海上钢琴师
: 放牛班的春天
: 楚门的世界
: 大话西游之大圣娶亲
: 星际穿越
: 龙猫
: 教父
: 熔炉
: 无间道
: 疯狂动物城
: 当幸福来敲门
: 怦然心动
: 触不可及
: 乱世佳人
: 蝙蝠侠:黑暗骑士
: 活着
: 少年派的奇幻漂流
: 天堂电影院
: 控方证人
: 鬼子来了
: 十二怒汉
: 指环王3:王者无敌
: 天空之城
: 飞屋环游记
: 摔跤吧!爸爸
: 大话西游之月光宝盒
: 搏击俱乐部
: 罗马假日
: 哈尔的移动城堡
: 闻香识女人
: 窃听风暴
: 辩护人
: 两杆大烟枪
: 飞越疯人院
: 死亡诗社
: 末代皇帝
: 指环王2:双塔奇兵
: V字仇杀队
: 教父2
: 素媛
: 指环王1:魔戒再现
: 海豚湾
: 饮食男女
: 美丽心灵
: 狮子王
: 情书
: 寻梦环游记
: 钢琴家
: 美国往事
: 本杰明·巴顿奇事
: 小鞋子
: 黑客帝国
: 西西里的美丽传说
: 看不见的客人
: 让子弹飞
: 拯救大兵瑞恩
: 致命魔术
: 大闹天宫
: 七宗罪
: 哈利·波特与魔法石
: 被嫌弃的松子的一生
: 音乐之声
: 低俗小说
: 天使爱美丽
: 沉默的羔羊
: 勇敢的心
: 剪刀手爱德华
: 蝴蝶效应
: 猫鼠游戏
: 春光乍泄
: 心灵捕手
: 布达佩斯大饭店
: 禁闭岛
: 入殓师
: 穿条纹睡衣的男孩
: 幽灵公主
: 阿凡达
: 阳光灿烂的日子
: 第六感
: 玛丽和马克思
: 致命ID
: 狩猎
: 重庆森林
: 断背山
: 加勒比海盗
: 摩登时代
: 告白
: 大鱼
: 喜剧之王
: 一一
: 消失的爱人
: 射雕英雄传之东成西就
: 阳光姐妹淘
: 甜蜜蜜
: 爱在黎明破晓前
: 小森林 夏秋篇
: 侧耳倾听
: 红辣椒
: 倩女幽魂
: 驯龙高手
: 恐怖直播
: 风之谷
: 上帝之城
: 请以你的名字呼唤我
: 超脱
: 爱在日落黄昏时
: 菊次郎的夏天
: 幸福终点站
: 哈利·波特与死亡圣器(下)
: 小森林 冬春篇
: 杀人回忆
: 神偷奶爸
: 借东西的小人阿莉埃蒂
: 7号房的礼物
: 怪兽电力公司
: 萤火之森
: 唐伯虎点秋香
: 岁月神偷
: 超能陆战队
: 蝙蝠侠:黑暗骑士崛起
: 七武士
: 电锯惊魂
: 真爱至上
: 谍影重重3
: 疯狂原始人
: 萤火虫之墓
: 喜宴
: 东邪西毒
: 贫民窟的百万富翁
: 英雄本色
: 黑天鹅
: 无人知晓
: 记忆碎片
: 心迷宫
: 血战钢锯岭
: 傲慢与偏见
: 雨人
: 时空恋旅人
: 荒蛮故事
: 纵横四海
: 教父3
: 卢旺达饭店
: 玩具总动员3
: 达拉斯买家俱乐部
: 花样年华
: 完美的世界
: 海边的曼彻斯特
: 海洋
: 虎口脱险
: 恋恋笔记本
: 你看起来好像很好吃
: 被解救的姜戈
: 燃情岁月
: 二十二
: 头脑特工队
: 冰川时代
: 无敌破坏王
: 雨中曲
: 我是山姆
: 你的名字。
: 人工智能
: 爆裂鼓手
: 穿越时空的少女
: 魂断蓝桥
: 未麻的部屋
: 猜火车
: 三块广告牌
: 模仿游戏
: 一个叫欧维的男人决定去死
: 房间
: 罗生门
: 忠犬八公物语
: 完美陌生人
: 恐怖游轮
: 阿飞正传
: 魔女宅急便
: 香水
: 朗读者
: 浪潮
: 哪吒闹海
: 可可西里
: 黑客帝国3:矩阵革命
: 海街日记
: 谍影重重
: 战争之王
: 谍影重重2
: 牯岭街少年杀人事件
: 地球上的星星
: 一次别离
: 追随
: 青蛇
: 惊魂记
: 终结者2:审判日
: 疯狂的石头
: 撞车
: 源代码
: 再次出发之纽约遇见你
: 小萝莉的猴神大叔
: 步履不停
: 新龙门客栈
: 初恋这件小事
: 梦之安魂曲
: 爱在午夜降临前
: 东京物语
: 无耻混蛋
: 城市之光
: 天书奇谭
: 绿里奇迹
: 彗星来的那一夜
: 这个男人来自地球
: 海蒂和爷爷
: E.T. 外星人
: 末路狂花
: 血钻
: 勇闯夺命岛
: 聚焦
: 变脸
: 2001太空漫游
: 发条橙
: 秒速5厘米
: 黄金三镖客
: 卡萨布兰卡
: 黑鹰坠落
: 非常嫌疑犯
: 国王的演讲
: 我爱你
: 美国丽人
: 千钧一发
: 碧海蓝天
: 遗愿清单
: 疯狂的麦克斯4:狂暴之路
: 功夫
: 荒岛余生
: 英国病人
: 荒野生存
: 海盗电台
: 枪火
: 勇士
Python3 抓取豆瓣电影Top250的更多相关文章
- python2.7抓取豆瓣电影top250
利用python2.7抓取豆瓣电影top250 1.任务说明 抓取top100电影名称 依次打印输出 2.网页解析 要进行网络爬虫,利用工具(如浏览器)查看网页HTML文件的相关内容是很有必要,我使用 ...
- Python:python抓取豆瓣电影top250
一直对爬虫感兴趣,学了python后正好看到某篇关于爬取的文章,就心血来潮实战一把吧. 实现目标:抓取豆瓣电影top250,并输出到文件中 1.找到对应的url:https://movie.douba ...
- Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
- Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
- Python抓取豆瓣电影top250!
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:404notfound 一直对爬虫感兴趣,学了python后正好看到 ...
- 一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作 在pycharm中安装request库 ...
- urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...
- python2.7爬取豆瓣电影top250并写入到TXT,Excel,MySQL数据库
python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务 爬取豆瓣电影top250 以txt文件保存 以Excel文档保存 将数据录入数据库 2.分析 电影 ...
- scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言 经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
随机推荐
- 【Java】Collection与Map接口总结
Collection -----List -----LinkedList 非同步 ----ArrayList 非同 ...
- js photoswipe 相册使用 移动pc端均可
http://photoswipe.com/ 官网 这里使用的是最新 4.1.1版本 http://photoswipe.com/documentation/getting-started.html ...
- C语言 · 新建Microsoft Word文档
算法提高 新建Microsoft Word文档 时间限制:1.0s 内存限制:256.0MB 问题描述 L正在出题,新建了一个word文档,想不好取什么名字,身旁一人惊问:“你出的题 ...
- Quill + Framework 7 移动端无法获取焦点
Quill 是一个轻量级的富文本编辑器.最近公司项目中需要用到这个东东.使用方法可以直接查看它的官网地址或者Github地址: Github地址:quilljs 官网地址:quill官网 主要说一下用 ...
- js学习笔记31----工厂方式
工厂方式构造对象: 1.原料---构造函数,创建一个对象 “构造函数”,就是专门用来生成“对象”的函数.它提供模板,作为对象的基本结构.一个构造函数,可以生成多个对象,这些对象都有相同的结构. 2 ...
- 自己写的jQuery 左右选择框,大家多多指教!
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"> <HTML> <HEAD ...
- numpy得到数组的index
itemindex = numpy.where(array==item)
- 【转】浅谈.net remoting 与webservice
1. .NET Remoting .NET Remoting是微软随.NET推出的一种分布式应用解决方案,被誉为管理应用程序域之间的 RPC 的首选技,它允许不同应用程序域之间进行通信(这里的通信可以 ...
- MySQL无法重启问题解决Warning: World-writable config file ‘/etc/mysql/my.cnf’ is ignored
今天在修改mysql数据库的配置文件,由于方便操作,就将“/etc/mysql/my.cnf” 的权限设置成 “777” 了,然后进行修改,当修改完进行重启mysql的时候,却报错,提示Warning ...
- 2014Esri全球用户大会之影像和栅格
1.现在Esri已将影像作为GIS解决方案的一部分,其详细战略部署是如何的? 在过去的十年.Esri有规划的在ArcGIS平台(主要为Desktop和Server)中管理和开发影像和栅格功能.这包含影 ...