爬虫系列4:Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据
【抓取】:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html
【分页】:参考前文 爬虫系列2:https://www.cnblogs.com/yizhiamumu/p/10267721.html
【保存】:参考前文 爬虫系列3:https://www.cnblogs.com/yizhiamumu/p/10270926.html
【动态】:参考前文 爬虫系列4:https://www.cnblogs.com/yizhiamumu/p/10272977.html
# 动态爬取数据,如页面不分页,而是点击查看更多
# https://movie.douban.com/tag/#/?sort=T&range=0,10&tags=%E5%8A%B1%E5%BF%97
# 安装jsonview 插件
## F12 - network- XHR
# 发现规律
# https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=%E5%8A%B1%E5%BF%97&start=20
# https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=%E5%8A%B1%E5%BF%97&start=40
# 循环爬取
# for a in range(3):
# url='https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start={}'.format(a*20)
import requests
import json
import time for a in range(3):
url_visit = 'https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start={}'.format(a*20)
file = requests.get(url_visit).json() #这里跟之前的不一样,因为返回的是 json 文件
time.sleep(6) for i in range(20):
dict=file['data'][i] #取出字典中 'data' 下第 [i] 部电影的信息
urlname=dict['url']
title=dict['title']
rate=dict['rate']
cast=dict['casts'] print('{} {} {} {}\n'.format(title,rate,' '.join(cast),urlname))
打印结果:
我不是药神 9.0 徐峥 王传君 周一围 谭卓 章宇 https://movie.douban.com/subject/26752088/ 这个杀手不太冷 9.4 让·雷诺 娜塔莉·波特曼 加里·奥德曼 丹尼·爱罗 彼得·阿佩尔 https://movie.douban.com/subject/1295644/ 肖申克的救赎 9.6 蒂姆·罗宾斯 摩根·弗里曼 鲍勃·冈顿 威廉姆·赛德勒 克兰西·布朗 https://movie.douban.com/subject/1292052/ 盗梦空间 9.3 莱昂纳多·迪卡普里奥 约瑟夫·高登-莱维特 艾伦·佩吉 汤姆·哈迪 渡边谦 https://movie.douban.com/subject/3541415/ 复仇者联盟3:无限战争 8.1 小罗伯特·唐尼 克里斯·海姆斯沃斯 克里斯·埃文斯 马克·鲁弗洛 乔什·布洛林 https://movie.douban.com/subject/24773958/ 阿甘正传 9.4 汤姆·汉克斯 罗宾·怀特 加里·西尼斯 麦凯尔泰·威廉逊 莎莉·菲尔德 https://movie.douban.com/subject/1292720/ 西虹市首富 6.6 沈腾 宋芸桦 张一鸣 张晨光 常远 https://movie.douban.com/subject/27605698/ 泰坦尼克号 9.3 莱昂纳多·迪卡普里奥 凯特·温丝莱特 比利·赞恩 凯西·贝茨 弗兰西丝·费舍 https://movie.douban.com/subject/1292722/ 霸王别姬 9.6 张国荣 张丰毅 巩俐 葛优 英达 https://movie.douban.com/subject/1291546/ 三傻大闹宝莱坞 9.2 阿米尔·汗 卡琳娜·卡普尔 马达范 沙尔曼·乔希 奥米·瓦依达 https://movie.douban.com/subject/3793023/ 千与千寻 9.3 柊瑠美 入野自由 夏木真理 菅原文太 中村彰男 https://movie.douban.com/subject/1291561/ 让子弹飞 8.7 姜文 葛优 周润发 刘嘉玲 陈坤 https://movie.douban.com/subject/3742360/ 怦然心动 9.0 玛德琳·卡罗尔 卡兰·麦克奥利菲 瑞贝卡·德·莫妮 安东尼·爱德华兹 约翰·马奥尼 https://movie.douban.com/subject/3319755/ 海上钢琴师 9.2 蒂姆·罗斯 普路特·泰勒·文斯 比尔·努恩 梅兰尼·蒂埃里 阿尔贝托·巴斯克斯 https://movie.douban.com/subject/1292001/ 忠犬八公的故事 9.3 理查·基尔 萨拉·罗默尔 琼·艾伦 罗比·萨布莱特 艾瑞克·阿瓦利 https://movie.douban.com/subject/3011091/ 当幸福来敲门 9.0 威尔·史密斯 贾登·史密斯 坦迪·牛顿 布莱恩·豪威 詹姆斯·凯伦 https://movie.douban.com/subject/1849031/ 毒液:致命守护者 7.2 汤姆·哈迪 米歇尔·威廉姆斯 里兹·阿迈德 斯科特·黑兹 瑞德·斯科特 https://movie.douban.com/subject/3168101/ 少年派的奇幻漂流 9.0 苏拉·沙玛 伊尔凡·可汗 拉菲·斯波 阿迪勒·侯赛因 塔布 https://movie.douban.com/subject/1929463/ 一出好戏 7.1 黄渤 舒淇 王宝强 张艺兴 于和伟 https://movie.douban.com/subject/26985127/ 摔跤吧!爸爸 9.1 阿米尔·汗 法缇玛·萨那·纱卡 桑亚·玛荷塔 阿帕尔夏克提·库拉那 沙克希·坦沃 https://movie.douban.com/subject/26387939/ 阿凡达 8.6 萨姆·沃辛顿 佐伊·索尔达娜 西格妮·韦弗 史蒂芬·朗 米歇尔·罗德里格兹 https://movie.douban.com/subject/1652587/ 那些年,我们一起追的女孩 8.1 柯震东 陈妍希 敖犬 郝劭文 蔡昌宪 https://movie.douban.com/subject/4920528/ 大话西游之大圣娶亲 9.2 周星驰 吴孟达 朱茵 蔡少芬 蓝洁瑛 https://movie.douban.com/subject/1292213/ 疯狂动物城 9.2 金妮弗·古德温 杰森·贝特曼 伊德里斯·艾尔巴 珍妮·斯蕾特 内特·托伦斯 https://movie.douban.com/subject/25662329/ 星际穿越 9.2 马修·麦康纳 安妮·海瑟薇 杰西卡·查斯坦 卡西·阿弗莱克 迈克尔·凯恩 https://movie.douban.com/subject/1889243/ 楚门的世界 9.2 金·凯瑞 劳拉·琳妮 艾德·哈里斯 诺亚·艾默里奇 娜塔莎·麦克艾霍恩 https://movie.douban.com/subject/1292064/ 放牛班的春天 9.2 热拉尔·朱尼奥 让-巴蒂斯特·莫尼耶 弗朗索瓦·贝莱昂 凯德·麦拉德 玛丽·布奈尔 https://movie.douban.com/subject/1291549/ 机器人总动员 9.3 本·贝尔特 艾丽莎·奈特 杰夫·格尔林 佛莱德·威拉特 西格妮·韦弗 https://movie.douban.com/subject/2131459/ 飞屋环游记 8.9 爱德华·阿斯纳 克里斯托弗·普卢默 乔丹·长井 鲍勃·彼德森 戴尔里·林多 https://movie.douban.com/subject/2129039/ 初恋这件小事 8.3 平采娜·乐维瑟派布恩 马里奥·毛瑞尔 苏达拉·布查蓬 雅尼卡·桑普蕾舞 诺特·阿查拉那·阿瑞亚卫考 https://movie.douban.com/subject/4739952/ 天使爱美丽 8.7 奥黛丽·塔图 马修·卡索维茨 吕菲斯 洛莱拉·克拉沃塔 塞尔日·梅兰 https://movie.douban.com/subject/1292215/ 你的名字。 8.4 神木隆之介 上白石萌音 长泽雅美 市原悦子 成田凌 https://movie.douban.com/subject/26683290/ 碟中谍6:全面瓦解 8.1 汤姆·克鲁斯 亨利·卡维尔 文·瑞姆斯 西蒙·佩吉 丽贝卡·弗格森 https://movie.douban.com/subject/26336252/ 龙猫 9.1 日高法子 坂本千夏 糸井重里 岛本须美 北林谷荣 https://movie.douban.com/subject/1291560/ 剪刀手爱德华 8.7 约翰尼·德普 薇诺娜·瑞德 黛安·韦斯特 安东尼·迈克尔·豪尔 凯西·贝克 https://movie.douban.com/subject/1292370/ 头号玩家 8.7 泰伊·谢里丹 奥利维亚·库克 本·门德尔森 马克·里朗斯 丽娜·维特 https://movie.douban.com/subject/4920389/ 无间道 9.1 刘德华 梁朝伟 黄秋生 曾志伟 郑秀文 https://movie.douban.com/subject/1307914/ 无双 8.1 周润发 郭富城 张静初 冯文娟 廖启智 https://movie.douban.com/subject/26425063/ 大话西游之月光宝盒 8.9 周星驰 吴孟达 罗家英 蓝洁瑛 莫文蔚 https://movie.douban.com/subject/1299398/ 红海行动 8.3 张译 黄景瑜 海清 杜江 蒋璐霞 https://movie.douban.com/subject/26861685/ 战狼2 7.1 吴京 弗兰克·格里罗 吴刚 张翰 卢靖姗 https://movie.douban.com/subject/26363254/ 寻梦环游记 9.0 安东尼·冈萨雷斯 盖尔·加西亚·贝纳尔 本杰明·布拉特 阿兰纳·乌巴奇 芮妮·维克托 https://movie.douban.com/subject/20495023/ 罗马假日 9.0 奥黛丽·赫本 格利高里·派克 埃迪·艾伯特 哈特利·鲍尔 哈考特·威廉姆斯 https://movie.douban.com/subject/1293839/ V字仇杀队 8.8 娜塔莉·波特曼 雨果·维文 斯蒂芬·瑞 斯蒂芬·弗雷 约翰·赫特 https://movie.douban.com/subject/1309046/ 美丽人生 9.5 罗伯托·贝尼尼 尼可莱塔·布拉斯基 乔治·坎塔里尼 朱斯蒂诺·杜拉诺 赛尔乔·比尼·布斯特里克 https://movie.douban.com/subject/1292063/ 七宗罪 8.8 摩根·弗里曼 布拉德·皮特 凯文·史派西 格温妮斯·帕特洛 安德鲁·凯文·沃克 https://movie.douban.com/subject/1292223/ 动物世界 7.2 李易峰 迈克尔·道格拉斯 周冬雨 曹炳琨 王戈 https://movie.douban.com/subject/26925317/ 老炮儿 7.8 冯小刚 许晴 张涵予 刘桦 李易峰 https://movie.douban.com/subject/24751756/ 失恋33天 7.3 白百何 文章 张嘉译 王耀庆 张子萱 https://movie.douban.com/subject/4873490/ 蝴蝶效应 8.7 阿什顿·库彻 梅罗拉·沃特斯 艾米·斯马特 埃尔登·汉森 威廉姆·李·斯科特 https://movie.douban.com/subject/1292343/ 人再囧途之泰囧 7.4 徐峥 王宝强 黄渤 陶虹 谢楠 https://movie.douban.com/subject/10574622/ 辛德勒的名单 9.5 连姆·尼森 本·金斯利 拉尔夫·费因斯 卡罗琳·古多尔 乔纳森·萨加尔 https://movie.douban.com/subject/1295124/ 唐伯虎点秋香 8.5 周星驰 巩俐 陈百祥 郑佩佩 朱咪咪 https://movie.douban.com/subject/1306249/ 海王 7.8 杰森·莫玛 艾梅柏·希尔德 威廉·达福 帕特里克·威尔森 妮可·基德曼 https://movie.douban.com/subject/3878007/ 夏洛特烦恼 7.5 沈腾 马丽 尹正 艾伦 王智 https://movie.douban.com/subject/25964071/ 复仇者联盟 8.1 小罗伯特·唐尼 克里斯·埃文斯 斯嘉丽·约翰逊 克里斯·海姆斯沃斯 杰瑞米·雷纳 https://movie.douban.com/subject/1866479/ 芳华 7.6 黄轩 苗苗 钟楚曦 杨采钰 李晓峰 https://movie.douban.com/subject/26862829/ 黑天鹅 8.5 娜塔莉·波特曼 米拉·库尼斯 文森特·卡索 芭芭拉·赫希 薇诺娜·瑞德 https://movie.douban.com/subject/1978709/ 本杰明·巴顿奇事 8.8 凯特·布兰切特 布拉德·皮特 朱莉娅·奥蒙德 芳妮·A·钱勃丝 伊莱亚斯·科泰斯 https://movie.douban.com/subject/1485260/ 北京遇上西雅图 7.4 汤唯 吴秀波 海清 宋美曼 宋美慧 https://movie.douban.com/subject/10574468/
by:【一只阿木木】
爬虫系列4:Requests+Xpath 爬取动态数据的更多相关文章
- 爬虫系列1:Requests+Xpath 爬取豆瓣电影TOP
爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...
- 爬虫系列2:Requests+Xpath 爬取租房网站信息
Requests+Xpath 爬取租房网站信息 [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...
- 爬虫系列(十三) 用selenium爬取京东商品
这篇文章,我们将通过 selenium 模拟用户使用浏览器的行为,爬取京东商品信息,还是先放上最终的效果图: 1.网页分析 (1)初步分析 原本博主打算写一个能够爬取所有商品信息的爬虫,可是在分析过程 ...
- Python 爬虫实例(8)—— 爬取 动态页面
今天使用python 和selenium爬取动态数据,主要是通过不停的更新页面,实现数据的爬取,要爬取的数据如下图 源代码: #-*-coding:utf-8-*- import time from ...
- Golang+chromedp+goquery 简单爬取动态数据
目录 Golang+chromedp+goquery 简单爬取动态数据 Golang的安装 下载golang软件 解压golang 配置golang 重新导入配置 chromedp框架的使用 实际的代 ...
- 爬虫系列3:Requests+Xpath 爬取租房网站信息并保存本地
数据保存本地 [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 爬虫系列2:https://www ...
- Python爬虫学习三------requests+BeautifulSoup爬取简单网页
第一次第一次用MarkDown来写博客,先试试效果吧! 昨天2018俄罗斯世界杯拉开了大幕,作为一个伪球迷,当然也得为世界杯做出一点贡献啦. 于是今天就编写了一个爬虫程序将腾讯新闻下世界杯专题的相关新 ...
- 爬虫(十):AJAX、爬取AJAX数据
1. AJAX 1.1 什么是AJAX AJAX即“Asynchronous JavaScript And XML”(异步JavaScript和XML)可以使网页实现异步更新,就是不重新加载整个网页的 ...
- Python3爬虫系列:理论+实验+爬取妹子图实战
Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star 爬虫系列: (1) 理论 Python3爬虫系列01 ...
随机推荐
- [date] 时间问题: 更新时间距离现在3个月
public static void main(String[] args) { Date d1 = null; try { d1 = DateFormatUtil.StringToDate(&quo ...
- jq常用
1.文本框.密码框.隐藏域.文本域(id换成对应的,value属性存在,才能利用attr(‘value’) 获取值,否则返回undefined): 1.1 获取—>$(“#text”).val( ...
- Good Time 冲刺 二
第二天 日期:2018.6.15 一.今日完成任务情况及遇到的问题 王怡镔: 今天学习了小程序框架和组件方面的知识,在微信开发工具中尝试进行小程序开发,学习视图层与逻辑层的框架与联系. 于鑫宇: 学习 ...
- SQL注入之Sqli-labs系列第四十一关(基于堆叠注入的盲注)和四十二关四十三关四十四关四十五关
0x1普通测试方式 (1)输入and1=1和and1=2测试,返回错误,证明存在注入 (2)union select联合查询 (3)查询表名 (4)其他 payload: ,( ,( 0x2 堆叠注入 ...
- java2周来的一些心得和体会
1.首先,在开发的一开始,可以将绝大多数rest可能提交过来字段先抽离出来,做成一个基础类. 然后再继承这个类,这样做的好处是业务就被分开了,谁也不会影响到谁. 2.在maven当中,需要修改自己的类 ...
- Ubuntu文件系统
(). 关于Linux中的文件: (). 在Linux系统中, 一切都是文件 : 所有数据都是文件,包括设备. (). 最小的数据存储单元也是文件. (). 文件系统: 文件系统就是文件的组织和管理方 ...
- KeyguardSliceView.java
/* * Copyright (C) 2017 The Android Open Source Project * * Licensed under the Apache License, Versi ...
- 工具提高效率 - iterm2
快捷键 command + d, command + shift +d 显示所有记录 ITERM默认设置了终端能保留的历史输出行数,在进行调试时特别不方便,一旦输出过多就无法看到完整的历史记录. 在P ...
- ArcMap复制粘贴问题
ArcMap 10.2能进行复制,但是不能进行粘贴的问题: 前几天用朋友的ArcMap10.2时,偶然发现在编辑数据的时候,需要在不同的shp层之间操作,往往有时候可以复制,但是粘贴那一项是灰色的,经 ...
- 我的代码-unsupervised learning
# coding: utf-8 # In[1]: import pandas as pdimport numpy as npfrom sklearn import treefrom sklearn.s ...