R语言爬虫：CSS方法与XPath方法对比（代码实现）

CSS选择器和XPath方法都是用来定位DOM树的标签，只不过两者的定位表示形式上存在一些差别：

CSS 方法提取节点

library("rvest")

single_table_page <- read_html("single-table.html")

# 提取url里的所有表格

html_table(single_table_page)

html_table(html_node(single_table_page,"table"))

products_page <- read_html("./case/products.html")

products_page %>% html_nodes(".product-list li .name") %>% html_text()

product_items <- products_page %>% html_nodes(".product-list li")

data.frame(name = product_items %>% html_nodes(".name") %>% html_text(),

           price = product_items %>% html_nodes(".price") %>%html_text()

           %>% str_replace_all(pattern="\\$",replacement="") %>%

               as.numeric(), stringsAsFactors = FALSE)

XPath 方法提取节点

page <- read_html("./case/new-products.html")

#查找所有p节点

page %>% html_nodes(xpath="//p")

#CSS's way

page %>% html_nodes("p")

# 找到所有具有class属性的li标签

# xpath's way

page %>% html_nodes(xpath="//li[@class]")

# CSS's way

page %>% html_nodes("li[class]")

# 找到id=‘list’的div标签下的所有li标签

# xparth's way

page %>% html_nodes(xpath="//div[@id='list']/ul/li")

# CSS's way

page %>% html_nodes("div#list > ul > li")

# 查找包含p节点的所有div节点

page %>% html_nodes(xpath="//div[p]")

# 查找所有class值为“info-value”，文本内容为“Good”的span节点

page %>% html_nodes(xpath = "//span[@class='info-value' and text()='Good']")

R语言爬虫：CSS方法与XPath方法对比（代码实现）的更多相关文章

R语言爬虫：CSS方法与XPath方法对比（表格介绍）
css 选择器与 xpath 用法对比目标匹配节点 CSS 3 XPath 所有节点 ~ * //* 查找一级.二级.三级标题节点 <h1>,<h2>,<h3> ...
R语言爬虫初尝试-基于RVEST包学习
注意:这文章是2月份写的,拉勾网早改版了,代码已经失效了,大家意思意思就好,主要看代码的使用方法吧.. 最近一直在用且有维护的另一个爬虫是KINDLE 特价书爬虫,blog地址见此: http://w ...
给社团同学做的R语言爬虫分享
大家好,给大家做一个关于R语言爬虫的分享,很荣幸也有些惭愧,因为我是一个编程菜鸟,社团里有很多优秀的同学经验比我要丰富的多,这次分享是很初级的,适用于没有接触过爬虫且有一些编程基础的同学,内容主要有以 ...
简单R语言爬虫
R爬虫实验 R爬虫实验 PeRl 简单的R语言爬虫实验,因为比较懒,在处理javascript翻页上用了取巧的办法. 主要用到的网页相关的R包是: {rvest}. 其余的R包都是常用包. libra ...
R语言︱文件读入、读出一些方法罗列（批量xlsx文件、数据库、文本txt、文件夹）
笔者寄语:小规模的读取数据的方法较为简单并且多样,但是,批量读取目前看到有以下几种方法:xlsx包.RODBC包.批量转化成csv后读入. R语言中还有一些其他较为普遍的读入,比如代码包,R文件,工作 ...
R 语言爬虫之 cnblog博文爬取
Cnbolg Crawl a). 加载用到的R包 ##library packages needed in this case library(proto) library(gsubfn) ## Wa ...
R语言读取EXCEL文件的各种方法
路径问题原始文件路径C:\Users\air\Desktop\1.txt R中有两种方法读取该路径 C:\\Users\\air\\Desktop\\1.txt C:/Users/air/Deskt ...
R语言爬虫：爬取包含所有R包的名称及介绍
第一种方法 library("rvest") page <- read_html("https://cran.rstudio.com/web/packages/av ...
R语言爬虫 rvest包 html_text()-html_nodes() 原理说明
library(rvest) 例子网页:http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=010000% ...

随机推荐

db2巡检小脚本
写了下db2巡检的一个小脚本,只能做常规检查,减少日常工作量,脚本内容如下: #!/bash/bin echo "物理CPU个数为:"cat /proc/cpuinfo| grep ...
libevent使用event_new和不使用的两种方法
写两个简单的demo,对照一下各自的方法 #include <sys/types.h> #include <event2/event-config.h> #include &l ...
bzoj1434 [ZJOI2009]染色游戏
Description 一共n × m 个硬币,摆成n × m 的长方形.dongdong 和xixi 玩一个游戏, 每次可以选择一个连通块,并把其中的硬币全部翻转,但是需要满足存在一个硬币属于这个 ...
pycharm 2016注册码
43B4A73YYJ-eyJsaWNlbnNlSWQiOiI0M0I0QTczWVlKIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiI ...
针对Restful风格参数传递的请求获取真实url
昨天遇到这样一个问题,先简单介绍下. 业务场景我们想要统计热点请求URL,进而进行分析优化方案通过过滤器获取到请求url(调用方法request.getservletpath),通过redis进 ...
Yii2.0 请求
1.获取请求参数 $request = Yii::$app->request; $get = $request->get(); // 等价于:$get = $_GET; $id = $re ...
获取Windows安装日期
智能门锁超低功耗：SI522（13.56芯片）替代MFRC522\FM17522
SI522(超低功耗13.56M芯片)替代RC522 完全兼容 PIN对PIN,同时也替代FM17522. MF RC522 是应用于13.56MHz 非接触式通信中高集成度读写卡系列芯片中的一员.是 ...
【luogu P1666 前缀单词】题解
题目链接:https://www.luogu.org/problemnew/show/P1666 10.13考试题当时没想出来,觉得是要用trie做,在trie上跑一个树形dp 结果是写了个子集枚举 ...
【题解】UVA10298 Power String（KMP）
UVA10298:https://www.luogu.org/problemnew/show/UVA10298 思路设P[x]数组为前x个字符的最大前缀长度等于后缀字串由P数组的定义我们可以知道 ...

R语言爬虫：CSS方法与XPath方法对比（代码实现）

CSS选择器和XPath方法都是用来定位DOM树的标签，只不过两者的定位表示形式上存在一些差别：

R语言爬虫：CSS方法与XPath方法对比（代码实现）的更多相关文章

随机推荐

热门专题