R语言-Kindle特价书爬榜示例 & 输出HTML小技巧（转）

自从买了kindle以后，总是想要定期刷有没有便宜的书，amazon经常有些1元/2元的书打特价，但是每次都去刷那些榜单太麻烦了，而且榜单又不能按照价格排名，捞书有点累

所以自己用R语言的rvest包简单写了一个小程序，让它自动按照不同价格区间把特价书给分出来。

主要看的是kindle新品排行榜和最快畅销榜。

销售爬升最快榜： http://www.amazon.cn/gp/movers-and-shakers/digital-text/

新品榜： http://www.amazon.cn/gp/new-releases/digital-text/

需要预先安装data.table / dplyr / rvest包。

代码如下

install.packages("rvest")

install.packages("data.table")

install.packages("dplyr")

主要分享点是：

1、Rvest的简单应用实例
2、如何把数据框(data.frame or table) 输出为html文件，即添加html脚本的方法

library(rvest)

library(data.table)

library(dplyr)

#这里是导入网址。研究一下amazon的顺序，直接导入就好

id<-1:5

url_increase_fast<-paste0(

        "http://www.amazon.cn/gp/movers-and-shakers/digital-text/ref=zg_bsms_digital-text_pg_",

        id,

        "?ie=UTF8&pg=",

        id)

url_newest<-paste0(

        "http://www.amazon.cn/gp/new-releases/digital-text/ref=zg_bsnr_digital-text_pg_",

        id,

        "?ie=UTF8&pg=",

        id)

url<-c(url_increase_fast,url_newest)

#这里编写readdata函数，读取网页内容。里面有些不常用的字段，为了最后导出效果好看，我没全部都导。
#有额外需要的可以自己改编，譬如分类啊，好评率啊等等。对我来说，知道价格、书名就够了

readdata<-function(i){

        web<-html(url[i],encoding="UTF-8")

        title<-web %>% html_nodes("div.zg_title") %>% html_text()

        title_short<-substr(title,1,20)

        price<-as.numeric(gsub("￥ ","",web %>% html_nodes("div.zg_itemPriceBlock_normal strong.price") %>% html_text()))

        ranking_movement<-web %>% html_nodes("span.zg_salesMovement") %>% html_text()

        rank_number<-as.numeric(gsub("\\.","",web %>% html_nodes("span.zg_rankNumber") %>% html_text()))

        #新书榜里没有销售变动记录，所以记为NA

        if (length(ranking_movement)==0) {ranking_movement=rep(NA,20)

                                          rank_number=rep(NA,20)}

        link<-gsub("\\\n","",web %>% html_nodes("div.zg_title a") %>% html_attr("href"))

        ASIN<-sapply(strsplit(link,split = "/dp/"),function(e)e[2])

        img<-web %>% html_nodes("div.zg_itemImage_normal img")  %>% html_attr("src")

        #这里加上html代码

        img_link<-paste0("<img src='",img,"'>")

        title_link<-paste0("<a href='",link,"'>",title_short,"</a>")

        #合并数据

        combine<-data.table(img_link,title_link,price,ranking_movement)

        setnames(combine,c("图像","书名","价格","销售变动"))

        #以防被封IP，设为5秒跑一次数据。

        Sys.sleep(5)

        combine

}

#做一个循坏开始跑数

final<-data.table()

for (i in 1:10){

        final<-rbind(final,readdata(i))

        print(i)

}

#这里编写一个函数，把data.table转化为html_table#要点请查看w3school，table页，以<table>开始，表头是<th>，行与行之间是<tr>#主要就是sapply, apply，paste的应用啦……就是把数据框先加<td>，再加<tr>，最后外面套一层<table>

transfer_html_table<-function(rawdata){

        title<-paste0("<th>",names(rawdata),"</th>")

        content<-sapply(rawdata,function(e)paste0("<td>",e,"</td>"))

        content<-apply(content,1,function(e) paste0(e,collapse = ""))

        content<-paste0("<tr>",content,"</tr>")

        bbb<-c("<table border=1><tr>",title,"</tr>",content,"</table>")

        bbb

}

#这里应用transfer_html_table函数，把榜单输出为html表格

final_less1<-transfer_html_table(rawdata=final %>% filter(价格<=1))

write(final_less1,"~//Kindle-低于1元特价书.html")

final_1_2<-transfer_html_table(rawdata=final %>% filter(价格>1 & 价格<=2))

write(final_1_2,"~//Kindle_1-2元特价书.html")

final_2_5<-transfer_html_table(rawdata=final %>% filter(价格>2 & 价格<=5))

write(final_2_5,"~//Kindle_2-5元特价书.html")

最后在我的文档（"~//"表示定位到我的文档那里）会找到三个HTML文件，打开来，大概长下面这个样子，于是就可以很愉悦得选书了。Kindle时不时会把一些好书1元贱卖的~~所以有了kindle经常手贱，有这个小脚本之后我觉得我会更加手贱买书了。。。

如果大家有兴趣，还可以去搜一下R语言批处理、自动运行等文章来看，把这个代码设为定期跑一下，然后让结果能够累计保存。那么以后就知道kindle商城在什么时候调价最多了。 amazon还是比较容易爬虫的，它html页面内代码很规范整洁，除了在产品详情页里，产品描述(product description)总是被脚本保护起来，比较难爬。

End

转自：http://mp.weixin.qq.com/s?__biz=MzA3MTM3NTA5Ng==&mid=2651055375&idx=1&sn=5c9e12352eab84012bc26cb9851a96b2&chksm=84d9c498b3ae4d8e015575ae573d13c553a33ee08403e7a86853b426d6a7b06087fb02ab1bbc&scene=0#rd

R语言-Kindle特价书爬榜示例 & 输出HTML小技巧（转）的更多相关文章

R语言-Kindle特价书爬榜示例 & 输出HTML小技巧
博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html ---- 自从买了kindle以后,总是想要定期刷有没有便宜的书,amazon经常有些1元/2元 ...
【Scrapy(四)】scrapy 分页爬取以及xapth使用小技巧
scrapy 分页爬取以及xapth使用小技巧这里以爬取www.javaquan.com为例: 1.构建出下一页的url: 很显然通过dom树,可以发现下一页所在的a标签 2.使用scrapy的 ...
R语言进行文件夹操作示例（转）
rm(list=ls())path = 'J:/lab/EX29 --在R语言中进行文件(夹)操作'setwd(path)cat("file A\n", file="A& ...
【R语言系列】作图入门示例一
假设有如下数据,我们使用plot函数作图月龄体重月龄体重 1 4.4 9 7.3 3 5.3 3 6.0 5 7.2 9 10.4 2 5.2 12 10.2 11 8.5 3 6.1 R语 ...
R语言爬虫：爬取百度百科词条
抓取目标:抓取花儿与少年的百度百科中成员信息 url <- "http://baike.baidu.com/item/%E8%8A%B1%E5%84%BF%E4%B8%8E%E5%B0 ...
R语言爬虫：爬取包含所有R包的名称及介绍
第一种方法 library("rvest") page <- read_html("https://cran.rstudio.com/web/packages/av ...
R语言重要数据集分析研究—— 数据集本身的分析技巧
数据集本身的分析技巧作者:王立敏文章来源:网络 1.数据集数据集,又称为资料集.数据集合或资料集合,是一种由数据所组成的集合. Data set(或dat ...
windows核心编程第5章job lab示例程序解决小技巧
看到windows核心编程第5章的最后一节,发现job lab例子程序不能在我的系统(win8下)正常运行,总是提示“进程在一个作业里” 用process explorer程序查看 ...
R语言：用简单的文本处理方法优化我们的读书体验
博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html 前言延续之前的用R语言读琅琊榜小说,继续讲一下利用R语言做一些简单的文本处理.分词的事情.其实 ...

随机推荐

js按值传递和按引用传递
摘要:js的数据类型有种划分方式为原始数据类型和引用数据类型. 原始数据类型存储在栈(stack)中的简单数据段,也就是说,它们的值直接存储在变量访问的位置.栈区包括了变量的标识符和变量的值. ...
深入Callable及Runnable两个接口获取线程返回结果
今天碰到一个需要获取线程返回结果的业务场景,所以了解到了Callable接口. 先来看下下面这个例子: public class ThreadTest { public static void mai ...
MarkDown 常用语法教程
MarkDown 语法说明 [TOC] 标题标题1 ====== 标题2 ----- ## 大标题 ### 小标题 #### 小标题列表无序列表 + 列表文本前使用 [减号+空格] * 列表文本 ...
原生JS中DOM节点相关API合集
节点属性 Node.nodeName //返回节点名称,只读 Node.nodeType //返回节点类型的常数值,只读 Node.nodeValue //返回Text或Comment节点的文本值,只 ...
XtraBackup 原理与安装
简介 XtraBackup(PXB) 工具是 Percona 公司用 perl 语言开发的一个用于 MySQL 数据库物理热备的备份工具,支持 MySQl(Oracle).Percona Server ...
数据可视化之MarkPoint
MarkPoint是什么效果?如上图,一闪一闪亮晶晶的效果,这是在Echarts中对应的效果.我最早看到的是腾讯的一个Flash的版本,显示当前QQ在线人数的全国分布效果,感觉效果很炫,当时也在想,怎 ...
c# 基础算法(一) 九九乘法
闲来无事,偶见某贴子里面讨论面试题．突然对一题产生了兴趣,做一道99乘法打印(主要是我工作了2家单位,还没有一家单位在面试时给我出这一道题)于是试着自己写写看．大概逻辑如下 class program ...
IDEA第五章----Git常用技能
前几篇已经介绍了idea的环境搭建及基础配置常用模板等,这一章我们介绍下idea中git的一些常用技能,包括提交文件,排除提交文件,合并分支,解决冲突,还原代码等等等. 第一节:Git常用技能 Git ...
由CODEVS笨小猴1053引发的一些思考
#include<cstdio> #include<cstring> ]; ]; int check(int n) { ||n==) ; ;m*m<=n;++m) ) ; ...
bzoj1013 [JSOI2008]球形空间产生器
Description 有一个球形空间产生器能够在n维空间中产生一个坚硬的球体.现在,你被困在了这个n维球体中,你只知道球面上n+1个点的坐标,你需要以最快的速度确定这个n维球体的球心坐标,以便于摧毁 ...

R语言-Kindle特价书爬榜示例 & 输出HTML小技巧（转）

R语言-Kindle特价书爬榜示例 & 输出HTML小技巧（转）的更多相关文章

随机推荐

热门专题