通读Cheerio文档
前言
cheerio是一款非常实用的nodejs第三方包,适用于服务端(nodejs端)处理html。它有着与jquery及其相似(几乎是一致)的api,速度飞快,使用灵活,而且不仅能够处理html,同样也能处理xml。
本文主要的参考文档就是cheerio的官方文档,基本上就是它的翻译。
APIs
cheerio文档的api我将其分为以下几个方面,包括
- 加载(loading)
- 选择器(selectors)
- 属性操作(attributes)
- 结构推导(traversing)
- 结构操作(manipulation)
- 实用方法(Miscellaneous & Utilities)
在具体讲述各个api之前,我们给出一份html代码,这份html代码将会是我们下面所有api操作的示例代码。
1 |
<ul id="fruits"> |
加载(loading)
在使用cheerio进行各种操作之前,我们需要首先加载一份html得到一个cherrio对象。比如
1 |
var cheerio = require('cheerio');
|
因为cheerio与jquery有着极其相似的语法,所以我们一般将得到的cheerio对象命名为$,装作它就是jquery对象,反正基本上用法都一样。
除了.load()方法之外,我们还可以使用$( selector, [context], [root] )这个api来获得部分html节点作为cheerio对象。比如
1 |
var $ = require('cheerio');
|
其中第一个参数就是我们获取的目标参数。所以t1得到是ul标签封装的cheerio对象,t2得到是3个li标签封装的cheerio对象的集合。
此外,我们在加载html时还可以设置一些配置参数,比如
1 |
$ = cheerio.load('<ul id = "fruits">...</ul>', {
|
关于cheerio的配置,一般我们用的较少,它默认的配置如下,
1 |
{
|
选择器(selectors)
cheerio的选择器基本上跟jquery拥有一致的用法。如果你熟悉jquery,那你将会倍感亲切。
1 |
$(selector, [context], [root]) |
其中selector是目标选择器,context是目标选择器的上下文,root是上下文context的上下文。selector和context可以是字符串表达式、dom元素、dom元素集合、cheerio对象,而root一般都是html文档字符串。
一般地,我们通过cheerio操作html,都是以上面的这个api得到目标元素的cheerio对象开始,然后再进行各种操作。比如
1 |
$('.apple', '#fruits').text(); //=> Apple
$('ul .pear').attr('class'); //=> pear
$('li[class=orange]').html(); //=> <li class="orange">Orange</li>
|
属性操作(attributes)
cheerio提供了操作元素属性的一系列方法。
.attr(name[, value])
这个方法很简单,第二个参数是可选的。当只有第一个参数时表示获取属性的值,当有带有第二个参数时,表示设置属性的值。
1 |
$('ul').attr('id'); //=> fruits
$('.apple').attr('id', 'favorite').html();
|
.removeAttr(name)
通过name移除某一个属性,同时返回被移除的这个元素。
1 |
$('.pear').removeAttr('class').html();
|
.hasClass(className)
判断某元素的class中是否包含className。
1 |
$('.pear').hasClass('pear'); //=> true
$('apple').hasClass('fruit'); //=> false
$('li').hasClass('pear'); //=> true
|
.addClass(className)
给某元素添加一个名为className的样式名。
1 |
$('.pear').addClass('fruit').html();
|
.removeClass(className)
将某元素上名为className的样式名移除。如果不存在className,则移除所有的样式名。
1 |
$('.pear').removeClass('pear').html();
|
结构推导(traversing)
可以像使用jquery那样使用cheerio,通过某一个元素来获取它的父元素、子元素、兄弟元素等等。
.find(selector)
在某元素下查询满足选择条件的元素。
1 |
$('#fruits').find('li').length; //=> 3
|
.parent()
获取某元素的父元素。
1 |
$('.pear').parent().attr('id'); //=> fruits
|
.next()
获取某元素的下一个兄弟元素。
1 |
$('.apple').next().hasClass('orange'); //=> true
|
.perv()
获取某元素的上一个兄弟元素。
1 |
$('.orange').prev().hasClass('apple'); //=> true
|
.siblings()
获取某元素的所有同级元素。(当然除了它自己)
1 |
$('.pear').siblings().length; //=> 2
|
.children([selector])
获取某元素的孩子节点。可以传入参数在所有的孩子节点中进行筛选。
1 |
$('#fruits').children().length; //=> 3
$('#fruits').children('.pear').text(); //=> Pear
|
.each(function(index, element){...})
和jquery类似的each迭代器,对每一个元素进行处理。
1 |
var fruits = [];
$('li').each(function(i, elem) {
|
.map(function(index, element){...})
和jquery类似的each迭代器,对每一个元素进行处理并返回一个值。
1 |
$('li').map(function(i, el) {
|
.filter(selector) & .filter(function(index))
在cheerio对象集合中进行条件筛选。
1 |
$('li').filter('.orange').attr('class'); //=> orange
$('li').filter(function(i, el) {
|
.first()
获取cheerio集合中的第一个cheerio对象。
1 |
$('#fruits').children().first().text(); //=> Apple
|
.last()
获取cheerio集合中的最后一个cheerio对象。
1 |
$('#fruits').children().last().text(); //=> Pear
|
.eq(i)
根据索引获取cheerio集合中的某一个对象。参数可以使负数,表示从尾部开始索引。
1 |
$('li').eq(0).text(); //=> Apple
$('li').eq(-1).text(); //=> Pear
|
结构操作(manipulation)
cheerio提供一系列修改dom结构的方法。
.append(content, [content, ...])
将content插入到某元素中作为该元素的最后一个子元素。
1 |
$('ul').append('<li class = "plum">Plum</li>');
|
.prepend(content, [content, ...])
将content插入到某元素中作为该元素的第一个子元素。
1 |
$('ul').prepend('<li class = "plum">Plum</li>');
|
.after(content, [content, ...])
将content插入到某元素的后面,并作为其后面第一个兄弟节点。
1 |
$('.apple').after('<li class = "plum">Plum</li>');
|
.before(content, [content, ...])
将content插入到某元素的前面,并作为其前面的第一个兄弟节点。
1 |
$('.apple').before('<li class = "plum">Plum</li>');
|
.remove([selector])
移除某一个节点以及他们的孩子节点。
1 |
$('.pear').remove();
|
.replaceWith(content)
替换匹配的节点。
1 |
var plum = $('<li class = "plum">Plum</li>');
|
.empty()
清空一个节点,移除其所有的孩子节点。
1 |
$('ul').empty();
|
.html([htmlString])
获取某节点的html字符串。如果传入参数,则设置该元素的html结构。
1 |
$('.orange').html(); //=> Orange
$('#fruits').html('<li class = "mango">Mango</li>').html();
|
.text([textString])
获取某节点的纯文本。
1 |
$('.orange').text();
|
实用方法(Miscellaneous & Utilities)
.toArray()
将cheerio对象集合转换成真正的数据结构。
1 |
$('li').toArray();
|
.clone()
克隆一个节点。
1 |
var moreFruit = $('#fruits').clone();
|
$.root
对某一cheerio对象的根节点进行相关操作。
1 |
$.root().append('<ul id="vegetables"></ul>').html();
|
$.contains(container, contained)
检查container中是否是否包含contained元素。
1 |
$.contains('#fruits', '.pear'); // => true
|
End! All rights reserved @gejiawen.
通读Cheerio文档的更多相关文章
- 通读cheerio API ——NodeJs中的jquery
通读cheerio API ——NodeJs中的jquery 所谓工欲善其事,必先利其器,所以通读了cheerio的API,顺便翻译了一遍,有些地方因为知道的比较少,不知道什么意思,保留了英文,希望各 ...
- IO流-ZIP文档
java中通常使用ZipInputStream来读ZIP文档 ZIP文档(通常)以压缩格式存储了一个或多个文件,每个ZIP文档都有一个包含诸如文件 名字和所使用的压缩方法等信息的头.在Java中,可以 ...
- [转]支付宝接口程序、文档及解读(ASP.NET)
本文转自:http://www.cnblogs.com/blodfox777/archive/2009/11/03/1595223.html 最近需要为网站加入支付宝的充值接口,而目前关于支付宝接口开 ...
- [ Laravel 5.5 文档 ] 快速入门 —— 目录结构篇
简介 Laravel 默认的目录结构试图为不管是大型应用还是小型应用提供一个良好的起点.当然,你也可以按照自己的喜好重新组织应用的目录结构,因为 Laravel 对于指定类在何处被加载没有任何限制 — ...
- 20165234 [第二届构建之法论坛] 预培训文档(Java版) 学习总结
[第二届构建之法论坛] 预培训文档(Java版) 学习总结 我通读并学习了此文档,并且动手实践了一遍.以下是我学习过程的记录~ Part1.配置环境 配置JDK 原文中提到了2个容易被混淆的概念 JD ...
- 通读cheerio API
所谓工欲善其事,必先利其器,所以通读了cheerio的API,顺便翻译了一遍,有些地方因为知道的比较少,不知道什么意思,保留了英文,希望各位不吝告诉我,然后一起把这个翻译完成. ###cheerio ...
- 通读cheerio API-网络爬虫
所谓工欲善其事,必先利其器,所以通读了cheerio的API,顺便翻译了一遍,有些地方因为知道的比较少,不知道什么意思,保留了英文,希望各位不吝告诉我,然后一起把这个翻译完成. ###cheerio ...
- 9、perldoc文档阅读器
转载:http://www.cnblogs.com/nkwy2012/p/6016320.html 一般来说,将文档的名称作为参数传递给perldoc命令,即可查阅该文档.比如下面,给定文档名称per ...
- 支付宝接口程序、文档及解读(ASP.NET)
最近需要为网站加入支付宝的充值接口,而目前关于支付宝接口开发的资料比较杂乱,这里就我此次开发所用到的资料进行汇总整理,希望能够帮助需要的朋友. 开发步骤: 1. 确定签约类型 支付宝的接口有多种类型, ...
随机推荐
- [Go] ok 判断 汇总
1.判断 类型 类似于 JavaScript 中 typeof 和 Java 中 instanceof var a interface{} newA, ok := a.(string) // 如果 o ...
- [Winfrom]Cefsharp配置与初始化
摘要 在做客户端程序的时候,本来打算使用wpf的,但在内嵌cefsharp的时候,发现输入法有问题,所以使用了winform作为cefsharp的容器. 系列文章 CefSharp 在同一窗口打开链接 ...
- [Winform]CefSharp ——js调用c#方法
摘要 有时我们在winform中嵌入浏览器,需要在页面上读取电脑上的一些信息,这个时候就需要用到CefSharp的RegisterJsObject进行注册方法然后供js进行调用了. 一个例子 我们在w ...
- CefSharp 在同一窗口打开链接的方法
摘要 在winform中使用cefsharp的时候,我们在浏览网页的时候,想在同一个窗口打开链接,而不是创建新的窗口.可以通过下面的方法实现. 解决方案 CefSharp 中控制弹窗的接口是 ILif ...
- VS2015开发环境的安装和配置 2016-07-03更新
创建日期:2016-07-03 一.简介 为了避免网上乱七八糟的过时介绍,避免误导初学者,这次把至2016年6月底C#开发环境各种版本的更新和安装过程重新整理一下贡献出来.目的是为了让对C#感兴趣的初 ...
- DELPHI新的变量的声明方法
DELPHI新的变量的声明方法 从DELPHI 10.3.1开始支持新的变量声明方法: procedure TForm1.查询1Click(Sender: TObject); begin var ur ...
- 动态规划经典问题Java实现
动态规划问题Java实现 如果我们有面值为1元.3元和5元的硬币若干枚,如何用最少的硬币凑够11元? public class DPProblem { public static void main( ...
- Java CMYK图片转RGB图片(TwelveMonkeys方式)
TwelveMonkeys的使用比较简单,只要把相关的jar包加入到类路径,他的类我们基本不会用到,只要使用jdk ImageIO或其上层的接口就行了.jdk的ImageIO有自动发现功能,会自动查找 ...
- java swing MenuItem乱码处理
用java开发一个带有托盘图标的程序, 其它模块的中文显示都是正常的,就只有托盘中点击小图标时弹出的菜单中的中文是方框(中文方块) 解决: 1: 在你的具有main函数的类也即你应用运行的主类上点击右 ...
- TextView中文文档
十分感谢农民伯伯的翻译:http://www.cnblogs.com/over140/archive/2010/08/27/1809745.html xml 属性: 属性名称 描述 android: ...