R语言爬虫：使用R语言爬取豆瓣电影数据

豆瓣排名前25电影及评价爬取

url <-'http://movie.douban.com/top250?format=text'

# 获取网页原代码，以行的形式存放在web 变量中

web <- readLines(url,encoding="UTF-8")

# 找到包含电影名称的行

name <- str_extract_all(string = web, pattern = '<span class="title">.+</span>')

movie.names_line <- unlist(name)

# 用正则表达式来提取电影名

movie.names <- str_extract(string = movie.names_line, pattern = ">[^&].+<") %>%

    str_replace_all(string = ., pattern = ">|<",replacement = "")

movie.names <- na.omit(movie.names)

# 获取评价人数

Rating <- str_extract_all(string = web,pattern = '<span>[:digit:]+人评价</span>')

Rating.num_line <- unlist(Rating)

Rating.num <- str_extract(string = Rating.num_line, pattern = "[:digit:]+") %>% as.numeric(.)

# 获取评价分数

Score_line <- str_extract_all(string = web,

                              pattern = '<span class="rating_num" property="v:average">[\\d\\.]+</span>')

Score_line <- unlist(Score_line)

Score <- str_extract(string = Score_line, pattern = '\\d\\.\\d') %>% as.numeric(.)

# 数据合并

MovieData <- data.frame(MovieName = movie.names,

                        RatingNum = Rating.num,Score = Score,

                        Rank = seq(1,25),stringsAsFactors = FALSE)

# 可视化

library(ggplot2)

ggplot(data = MovieData, aes(x = Rank,y = Score)) +

    geom_point(aes(size = RatingNum)) +

    geom_text(aes(label = MovieName),colour = "blue", size = 4, vjust = -0.6)

R语言爬虫：使用R语言爬取豆瓣电影数据的更多相关文章

python爬虫-爬取豆瓣电影数据
#!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:27# 文件 :spider_05.py# IDE :PyChar ...
Scrapy爬虫（4）爬取豆瓣电影Top250图片
在用Python的urllib和BeautifulSoup写过了很多爬虫之后,本人决定尝试著名的Python爬虫框架--Scrapy. 本次分享将详细讲述如何利用Scrapy来下载豆瓣电影To ...
go爬虫之爬取豆瓣电影
go爬取豆瓣电影好久没使用go语言做个项目了,上午闲来无事花了点时间使用golang来爬取豆瓣top电影,这里我没有用colly框架而是自己设计简单流程.mark一下思路定义两个channel, ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
Python开发爬虫之静态网页抓取篇：爬取“豆瓣电影 Top 250”电影数据
所谓静态页面是指纯粹的HTML格式的页面,这样的页面在浏览器中展示的内容都在HTML源码中. 目标:爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/t ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影
前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大家讲解一个完整爬虫的流程. 工具和环境语言:python 2 ...
一起学爬虫——使用xpath库爬取猫眼电影国内票房榜
之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中 ...

随机推荐

使用Spring操作Redis的key-value数据
前言最近工作一直忙的不可开交,小Alan已经很久没有和大家分享知识了,在深圳待了两年多,依然感觉自己还是个小菜鸟,工作中还是会遇到很多自己在短期内无法搞定的事情,每当这个时候总是会感觉到很沮丧,就会 ...
Object、T（以下代指泛型）、?的区别
因为最近看了很多项目底层都使用了T,?泛型,于是百度了一下有如下理解我们先来试着理解一下Object类,学习Java的应该都知道Object是所有类的父类,注意:那么这就意味着它的范围非常广!首先记 ...
statistical thinking in Python EDA
Histgram直方图适合于单个变量的value分布图形 seaborn在matplotlib基础上做了更高层的抽象,方便对基础的图表绘制.也可以继续使用matplotlib直接绘图,但是调用seab ...
ExpressRoute 线路和路由域
你必须订购一条 ExpressRoute 线路 ,以通过连接提供商将你的本地基础结构连接到 Azure.下图提供了你的 WAN 与 Azure 之间的连接的逻辑表示形式. ExpressRoute 线 ...
Oracle EBS 获取说明性弹性域全局数据元
SELECT b.flex_value_set_id, t.application_column_name, t.form_left_prompt FROM fnd_descriptive_flexs ...
MySQL Flashback 工具介绍
MySQL Flashback 工具介绍 DML Flashback 独立工具,通过伪装成slave拉取binlog来进行处理 MyFlash 「大众点点评」 binlog2sql 「大众点评(上海) ...
静态代码分析工具sonarqube+sonar-runner的安装配置及使用
配置成功后的代码分析页面: 可以看到对复杂度.语法使用.重复度等等都做了分析,具体到了每一个方法和每一句代码. 四种使用方式: sonarqube + sonar-runner sonarqube + ...
ZT 80-90年代港台300部电视剧你看过多少？
80-90年代港台300部电视剧你看过多少? [复制链接] 噗噗 738主题 18精华万家金领发消息发表于 2010-4-27 09:01:02 |显示全部楼层 1.(珍珠传奇) ...
Java编程练习题
曾经,有人说过,没有刷题的人生是不完整的.看了几天Java,我试着做了几道练习题,好让我的人生完整一点.(偷笑--)这里挑了一些题来跟大家分享,本文不定期更新. 题目集 1. 最后一个单词的长度 ...
【错误记录】uwsgi 启动 flask 出错
在测试环境使用uwsgi启动flask未成功正常报错信息: *** Starting uWSGI 2.0.13.1 (64bit) on [Fri Sep 23 09:27:47 2016] *** ...

R语言爬虫：使用R语言爬取豆瓣电影数据

豆瓣排名前25电影及评价爬取

R语言爬虫：使用R语言爬取豆瓣电影数据的更多相关文章

随机推荐

热门专题