获取豆瓣电影数据（R与API获取网页数据）

一般成熟的网站都会有反爬虫策略，例如限制访问次数，限制访问 IP，动态显示数据等。爬虫和反爬虫就是一直相爱相杀地互相钳制。如果要通过爬虫来获取某些大型网站的数据，那是一件很费时费力的活。小白总遭遇过在趟过各种坑之前就被封 IP 或封账号的打击（呜呜~说的就是我）。

不过有一些公司心怀开放互联的态度，友好地给大家提供了 api 接口。这一篇博客将以豆瓣电影为例记录如何站在巨人（api）的肩膀上获取数据。不过豆瓣 api 现在貌似也逐渐收起来了，api key 也停止申请了，且用且珍惜了。

>> Required Packages

```r
library(httr)
library(jsonlite)
```

#### >> Get JSON

豆瓣电影的 url 还是很规律，比如说 id 为 27074316 的电影的 url 就是 https://movie.douban.com/subject/27074316 ，但是 id 的排序并不是规律的。例如一部 2000 年上映的电影的 id 可能会大于 2010 年上映的电影的 id。

豆瓣电影的 id 范围大约为 1300000 到 27200000，但其中可能会有一部分无效的 id。如果需要获取所有豆瓣电影的数据，那么就要遍历所有 id。如果只是需要一部分的数据，就要用到 search key。

比如 id 为 27074316 的电影的 api resource url 是

https://api.douban.com/v2/movie/subject/27074316?apikey={your_api_key}

比如搜索 2018年电影的 api resource url 是

https://api.douban.com//v2/movie/search?q=2018?apikey={your_api_key}

在浏览器中输入上述 url (记得替换为你的 api key) 是可以看见返回的 json 的，而在 R 中要获取 json 就要用到 package httr 中的 GET 函数。如果返回 200 则表示请求成功。

url <- https://api.douban.com/v2/movie/subject/27074316

film_json <- GET(url, query = list(apikey="your_api_key"))

if(status_code(film_json) == 200)

	message("success\n")

#### >> Get Text

获取 json 后要读取里面需要的内容，例如获取电影名称，电影导演等：
```r
film_data % paste(collapse=",")
```
json 在浏览器中的文字都是挤成一团的很不好辨认 key-value pairs。在 R console 中执行下面的代码就可以清晰看到各组合了：
```r
toJSON(fromJSON(content(film_json, "text")), pretty=TRUE)
```

#### >> Loop over IDs

上面有提到说如果要获取全部数据那么我们就要尝试遍历所有 id。目前豆瓣对于 api 的访问频率是有限制的，我了解到的是每分钟不超过 40 次。所以在两次访问之间要设置合理的时间差。

而且并不是每个 id 都一定有对应的页面，因此在遍历的过程中还要剔除无效 id。这时候就可以用上 tryCatch 法器了。

basic_url <- "https://api.douban.com/v2/movie/subject/"

film <- data.frame()

for (ii in 1:100){ #just for example not real id

  Sys.sleep(runif(1,1,2)) # set time interval

  tryCatch(

    {

      url <- paste0(basic_url, ii)

      film_json <- GET(url, query = list(apikey="your_api_key"))

      if(status_code(film_json) != 200)

        next

      film <- rbind(film, getFilmInfo(film_json,ii)) #user-defined function

    },

    error = function(cond) {

      message("Here's the original error message:")

      message(cond)

      message("\n")

    }

  )

}

以上只是抛砖引玉，而除了豆瓣以外还有很多可用的 api （可以上 Github 查一查），多加利用哦，数据就是生产力！

获取豆瓣电影数据（R与API获取网页数据）的更多相关文章

如何获取豆瓣电影 API Key
如何获取豆瓣电影 API Key 豆瓣 API Key 不能使用了 ! solutions & !== ? https://frodo.douban.com/api/v2/subject_co ...
ajax的get方法获取豆瓣电影前10页的数据
# _*_ coding : utf-8 _*_ # @Time : 2021/11/2 11:45 # @Author : 秋泊酱 # 1页数据电影条数20 # https://movie.dou ...
【Python爬虫】：使用高性能异步多进程爬虫获取豆瓣电影Top250
在本篇博文当中,将会教会大家如何使用高性能爬虫,快速爬取并解析页面当中的信息.一般情况下,如果我们请求网页的次数太多,每次都要发出一次请求,进行串行执行的话,那么请求将会占用我们大量的时间,这样得不偿 ...
Python3获取大量电影信息：调用API
实验室这段时间要采集电影的信息,给出了一个很大的数据集,数据集包含了4000多个电影名,需要我写一个爬虫来爬取电影名对应的电影信息. 其实在实际运作中,根本就不需要爬虫,只需要一点简单的Python基 ...
python爬取豆瓣电影第一页数据and使用with open() as读写文件
# _*_ coding : utf-8 _*_ # @Time : 2021/11/2 9:58 # @Author : 秋泊酱 # @File : 获取豆瓣电影第一页 # @Project : 爬 ...
PHP通过ZABBIX API获取主机信息 VS 直接从数据库获取主机信息
最近项目需要获取linux主机的一些信息,如CPU使用率,内存使用情况等.由于我们本身就装了zabbix系统,所以我只用知道如何获取信息即可,总结有两种方法可以获取. 一.通过ZABBIX API获取 ...
用python+selenium抓取豆瓣电影中的正在热映前12部电影并按评分排序
抓取豆瓣电影(http://movie.douban.com/nowplaying/chengdu/)中的正在热映前12部电影,并按照评分排序,保存至txt文件 #coding=utf-8 from ...
python pandas 豆瓣电影 top250 数据分析
豆瓣电影top250数据分析数据来源(豆瓣电影top250) 爬虫代码比较简单数据较为真实,可以进行初步的数据分析可以将前面的几篇文章中的介绍的数据预处理的方法进行实践最后用matplotli ...
用python爬取豆瓣电影Top 250
首先,打开豆瓣电影Top 250,然后进行网页分析.找到它的Host和User-agent,并保存下来. 然后,我们通过翻页,查看各页面的url,发现规律: 第一页:https://movie.dou ...

随机推荐

前端开发HTML5——表单标签
表单简介 Form表单主要用于用户与Web应用程序进行数据的交互,它允许用户将数据发给web应用程序,网页也可以拦截数据的发送以便自己使用.form通常由一到多个表单元素组成,这些表单元素是单行/多行 ...
命令 docker rm | docker rmi | docker prune 的差异
区别: docker rm : 删除一个或多个容器 docker rmi : 删除一个或多个镜像 docker prune : 用来删除不再使用的 docker 对象一.docker rm 命令 ...
hadoop 完全分布式集群搭建
1.在伪分布式基础上搭建,伪分布式搭建参见VM上Hadoop3.1伪分布式模式搭建 2.虚拟机准备,本次集群采用2.8.3版本与3.X版本差别不大,端口号所有差别 192.168.44.10 vmho ...
数据库系统（五）---MySQL基础
一.SQL基本概念: SQL 已经成为关系数据库的标准语言,是一种数据库查询和程序设计语言,用于存取数据以及查询.更新和管理关系数据库系统. 功能不仅仅是查询,还包括数据定义.数据操纵和数据控制等于 ...
简单使用：SpringBoot整合Redis
1.导入依赖: <dependency> <groupId>org.springframework.boot</groupId> <artifactId> ...
凯哥带你用python撸算法之雪花算法
import time class Snow(object): def __init__(self, idx=None): init_date = time.strptime('2010-01-01 ...
12、shell_awk
AWK awk 是一个优良的文本处理工具,其名字来源于三个开发人员的名字首字母缩写. awk 不但是一个优良的文件处理工作,它还可以自己编程,编写awk 程序 AWK基本格式: awk ...
Python3字典排序
创建一个字典 dict1={'a':2,'b':3,'c':8,'d':4} 1.分别取键.值取字典的所有键,所有的值,利用dict1.keys(),dict1.vaules(), 由于键,值有很多 ...
防止xss攻击的前端的方法
项目当中在进行安全测试的时候,遇到了xss的攻击,要求前端来做个防御,针对于遇到的xss攻击,做个总结 1.xss---存储型xss的攻击前端只要在接收到后台数据的时候做个特殊字符的过滤,即可抵制攻 ...
React 借助pubsub-js进行兄弟组件的传递值
1===> raect中两个兄弟组件互相通信使用的技术使用消息订阅(subscribe)和发布(publish)机制 s儿伯 s rai b pʌ b lɪ ʃ 有一个库可以处理 Pu ...

获取豆瓣电影数据（R与API获取网页数据）

>> Required Packages

获取豆瓣电影数据（R与API获取网页数据）的更多相关文章

随机推荐

热门专题