Python3 抓取豆瓣电影Top250
利用 requests 抓取豆瓣电影 Top 250:
import re
import requests def main(url):
global num
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"}
req = requests.get(url, headers=headers)
pattern = re.compile(r"<span class=\"title\">(.*?)</span>", re.S)
for name in re.findall(pattern, req.text):
if name.startswith("&"):
continue
else:
print("%s: %s" % (num, name))
num += 1 if __name__ == '__main__':
num = 1
for i in range(0, 256, 25):
url = "https://movie.douban.com/top250?start=%s&filter=" % i
main(url)
执行结果:
: 肖申克的救赎
: 霸王别姬
: 这个杀手不太冷
: 阿甘正传
: 美丽人生
: 泰坦尼克号
: 千与千寻
: 辛德勒的名单
: 盗梦空间
: 忠犬八公的故事
: 机器人总动员
: 三傻大闹宝莱坞
: 海上钢琴师
: 放牛班的春天
: 楚门的世界
: 大话西游之大圣娶亲
: 星际穿越
: 龙猫
: 教父
: 熔炉
: 无间道
: 疯狂动物城
: 当幸福来敲门
: 怦然心动
: 触不可及
: 乱世佳人
: 蝙蝠侠:黑暗骑士
: 活着
: 少年派的奇幻漂流
: 天堂电影院
: 控方证人
: 鬼子来了
: 十二怒汉
: 指环王3:王者无敌
: 天空之城
: 飞屋环游记
: 摔跤吧!爸爸
: 大话西游之月光宝盒
: 搏击俱乐部
: 罗马假日
: 哈尔的移动城堡
: 闻香识女人
: 窃听风暴
: 辩护人
: 两杆大烟枪
: 飞越疯人院
: 死亡诗社
: 末代皇帝
: 指环王2:双塔奇兵
: V字仇杀队
: 教父2
: 素媛
: 指环王1:魔戒再现
: 海豚湾
: 饮食男女
: 美丽心灵
: 狮子王
: 情书
: 寻梦环游记
: 钢琴家
: 美国往事
: 本杰明·巴顿奇事
: 小鞋子
: 黑客帝国
: 西西里的美丽传说
: 看不见的客人
: 让子弹飞
: 拯救大兵瑞恩
: 致命魔术
: 大闹天宫
: 七宗罪
: 哈利·波特与魔法石
: 被嫌弃的松子的一生
: 音乐之声
: 低俗小说
: 天使爱美丽
: 沉默的羔羊
: 勇敢的心
: 剪刀手爱德华
: 蝴蝶效应
: 猫鼠游戏
: 春光乍泄
: 心灵捕手
: 布达佩斯大饭店
: 禁闭岛
: 入殓师
: 穿条纹睡衣的男孩
: 幽灵公主
: 阿凡达
: 阳光灿烂的日子
: 第六感
: 玛丽和马克思
: 致命ID
: 狩猎
: 重庆森林
: 断背山
: 加勒比海盗
: 摩登时代
: 告白
: 大鱼
: 喜剧之王
: 一一
: 消失的爱人
: 射雕英雄传之东成西就
: 阳光姐妹淘
: 甜蜜蜜
: 爱在黎明破晓前
: 小森林 夏秋篇
: 侧耳倾听
: 红辣椒
: 倩女幽魂
: 驯龙高手
: 恐怖直播
: 风之谷
: 上帝之城
: 请以你的名字呼唤我
: 超脱
: 爱在日落黄昏时
: 菊次郎的夏天
: 幸福终点站
: 哈利·波特与死亡圣器(下)
: 小森林 冬春篇
: 杀人回忆
: 神偷奶爸
: 借东西的小人阿莉埃蒂
: 7号房的礼物
: 怪兽电力公司
: 萤火之森
: 唐伯虎点秋香
: 岁月神偷
: 超能陆战队
: 蝙蝠侠:黑暗骑士崛起
: 七武士
: 电锯惊魂
: 真爱至上
: 谍影重重3
: 疯狂原始人
: 萤火虫之墓
: 喜宴
: 东邪西毒
: 贫民窟的百万富翁
: 英雄本色
: 黑天鹅
: 无人知晓
: 记忆碎片
: 心迷宫
: 血战钢锯岭
: 傲慢与偏见
: 雨人
: 时空恋旅人
: 荒蛮故事
: 纵横四海
: 教父3
: 卢旺达饭店
: 玩具总动员3
: 达拉斯买家俱乐部
: 花样年华
: 完美的世界
: 海边的曼彻斯特
: 海洋
: 虎口脱险
: 恋恋笔记本
: 你看起来好像很好吃
: 被解救的姜戈
: 燃情岁月
: 二十二
: 头脑特工队
: 冰川时代
: 无敌破坏王
: 雨中曲
: 我是山姆
: 你的名字。
: 人工智能
: 爆裂鼓手
: 穿越时空的少女
: 魂断蓝桥
: 未麻的部屋
: 猜火车
: 三块广告牌
: 模仿游戏
: 一个叫欧维的男人决定去死
: 房间
: 罗生门
: 忠犬八公物语
: 完美陌生人
: 恐怖游轮
: 阿飞正传
: 魔女宅急便
: 香水
: 朗读者
: 浪潮
: 哪吒闹海
: 可可西里
: 黑客帝国3:矩阵革命
: 海街日记
: 谍影重重
: 战争之王
: 谍影重重2
: 牯岭街少年杀人事件
: 地球上的星星
: 一次别离
: 追随
: 青蛇
: 惊魂记
: 终结者2:审判日
: 疯狂的石头
: 撞车
: 源代码
: 再次出发之纽约遇见你
: 小萝莉的猴神大叔
: 步履不停
: 新龙门客栈
: 初恋这件小事
: 梦之安魂曲
: 爱在午夜降临前
: 东京物语
: 无耻混蛋
: 城市之光
: 天书奇谭
: 绿里奇迹
: 彗星来的那一夜
: 这个男人来自地球
: 海蒂和爷爷
: E.T. 外星人
: 末路狂花
: 血钻
: 勇闯夺命岛
: 聚焦
: 变脸
: 2001太空漫游
: 发条橙
: 秒速5厘米
: 黄金三镖客
: 卡萨布兰卡
: 黑鹰坠落
: 非常嫌疑犯
: 国王的演讲
: 我爱你
: 美国丽人
: 千钧一发
: 碧海蓝天
: 遗愿清单
: 疯狂的麦克斯4:狂暴之路
: 功夫
: 荒岛余生
: 英国病人
: 荒野生存
: 海盗电台
: 枪火
: 勇士
Python3 抓取豆瓣电影Top250的更多相关文章
- python2.7抓取豆瓣电影top250
利用python2.7抓取豆瓣电影top250 1.任务说明 抓取top100电影名称 依次打印输出 2.网页解析 要进行网络爬虫,利用工具(如浏览器)查看网页HTML文件的相关内容是很有必要,我使用 ...
- Python:python抓取豆瓣电影top250
一直对爬虫感兴趣,学了python后正好看到某篇关于爬取的文章,就心血来潮实战一把吧. 实现目标:抓取豆瓣电影top250,并输出到文件中 1.找到对应的url:https://movie.douba ...
- Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
- Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
- Python抓取豆瓣电影top250!
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:404notfound 一直对爬虫感兴趣,学了python后正好看到 ...
- 一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作 在pycharm中安装request库 ...
- urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...
- python2.7爬取豆瓣电影top250并写入到TXT,Excel,MySQL数据库
python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务 爬取豆瓣电影top250 以txt文件保存 以Excel文档保存 将数据录入数据库 2.分析 电影 ...
- scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言 经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
随机推荐
- CSS初始化设置
在网页开发时,由于浏览器默认加载的css样式使得页面显示的样式出现一些意想不到的意外样式,所以首先要进行css的初始化设置. 此外一些常用的样式,比如浮动等也可以放到初始化中备用.
- OAuth2.0流程图
OAuth2.0是用户验证和授权标准
- ngApp指令,也就是ng-app属性
翻译:https://docs.angularjs.org/api/ng/directive/ngApp 使用这个指令去 自动引导 一个AngularJS 应用程序. ngApp 指令规定了html ...
- 观察者模式(Head First设计模式学习2)
1.1观察者模式定义 在给出观察者模式的定义之前,我们先来看个报纸和杂志的订阅是怎么回事: 1.报社的业务就是出版报纸 2.向某家报社订阅报纸,只有新报纸出版,报社才会送给你,只要你是用户,他就会一直 ...
- MAC上类apt-get工具brew的安装与使用
对于习惯了linux系统的人来说,使用yum或者apt-get来在线安装软件是一件非常愉快的事情.这些工具能够解决依赖问题.使得安装过程变得简单快捷. 在使用MAC的时候,也会想:MAC OS上有没有 ...
- 【Unity】使用SceneManager加载/切换场景
一.直接切换 老版的(已弃用!): Application.LoadLevel(int index); // 参数是场景编号 Application.LoadLevel(string name); / ...
- 【Visual Studio】设置Solution Explorer同步当前文档
从Solution Explorer打开查看多个文档,在编辑文档时经常会搞不清楚当前文档在项目中的位置,希望Solution Explorer能够同步跳转到选中当前的文档的位置. 从Debug或Too ...
- PDNN: 深度学习的一个Python工具箱
PDNN: 深度学习的一个Python工具箱 PDNN是一个在Theano环境下开发出来的一个Python深度学习工具箱.它由苗亚杰(Yajie Miao)原创.现在仍然在不断努力去丰富它的功能和扩展 ...
- Remote Desktop Connection Manager远程管理工具
下载地址:http://www.microsoft.com/en-us/download/details.aspx?id=44989
- Just Cause系列游戏品鉴
没错, 这又是一个游戏点评, 因为实在没地写了, 想起来我还欠JC系列许多售后评价, 就专门写了这篇blog来总结下JC系列的特色, 以及它最新的游戏引擎apex, JC4月初的时候发布的, 虽然和3 ...