From a String
From a File
From the Internet
Parse Options
Encoding

解析HTML/XML文档

从字符串读取

 html_doc = Nokogiri::HTML("<html><body><h1>Mr. Belvedere Fan Club</h1></body></html>")

 xml_doc  = Nokogiri::XML("<root><aliens><alien><name>Alf</name></alien></aliens></root>")

变量 html_doc 与 xml_doc 是Nokogiri 对象¹, 具有各种属性与方法, 具体见此. 这些具体内容会在其他章节讲述.

*1　　原文为documents, 在此译为"对象"

从文件读取

无需读取文件到字符串. Nokogiri会进行这项工作.

 doc = File.open("blossom.xml") { |f| Nokogiri::XML(f) }

从网络读取

 require 'open-uri'

 doc = Nokogiri::HTML(open("http://www.threescompany.com/"))

解析选项(Parse Options)

Nokogiri提供了一些影响解析方式的选项. 详见: read about them here, 以下是最常用的选项:

NOBLANKS - Remove blank nodes
NOENT - Substitute entities
NOERROR - Suppress error reports
STRICT - Strict parsing; raise an error when parsing malformed documents
NONET - Prevent any network connections during parsing. Recommended for parsing untrusted documents.

用法:

 doc = Nokogiri::XML(File.open("blossom.xml")) do |config|

   config.strict.nonet

 end

或

 doc = Nokogiri::XML(File.open("blossom.xml")) do |config|

   config.options = Nokogiri::XML::ParseOptions::STRICT | Nokogiri::XML::ParseOptions::NONET

 end

编码

在程序内部, 字符串正常是以UTF-8编码储存. 返回文本值的方法将会返回UTF-8字符串. 返回XML的方法(例如to_xml, to_html, inner_html)会返回与源文件相同编码方式的字符串.

注意 / WARNING

某些文档声明了特定的编码方式, 但实际是用的却是另外一种. 这种情况下解析器会使用哪一种编码?

所谓的数据仅仅是由一个一个的字节组成的长串. 我们人为地为它附加了含义. 同样的一组字节在不同的编码下代表着一些互不相同的字符, 因此100%准确地推断出编码是不可能的. 即使做的相当好的libxml2库也不能总是成功地推断出编码.

让Nokogiri使用正确的编码方式来处理文档的最好方式就是显示设定编码. 以下为示例:

 doc = Nokogiri.XML('<foo><bar /><foo>', nil, 'EUC-JP')

[翻译][Nokogiri官方教程] 解析HTML/XML文档 / Parsing an HTML/XML Document的更多相关文章

JAVA读取XML，JAVA读取XML文档，JAVA解析XML文档，JAVA与XML，XML文档解析(Document Object Model, DOM)
使用Document Object Model, DOM解析XML文档也可参考我的新浪博客:http://blog.sina.com.cn/s/blog_43ac5543010190w3.html ...
使用LINQ TO XML 创建xml文档，以及读取xml文档把内容显示到GridView例子
首先,准备了一个Model类 using System; using System.Collections.Generic; using System.Linq; using System.Text; ...
java中XML操作：xml与string互转、读取XML文档节点及对XML节点增删改查
一.XML和String互转: 使用dom4j程式变得很简单 //字符串转XML String xmlStr = \"......\"; Document document = D ...
java中用jdom创建xml文档/将数据写入XML中
import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; i ...
使用dom4j解析XML文档
dom4j的包开源包,不属于JDK里面,在myeclipse中要单独导入在项目中,这里不累赘了做这个过程,很慢,因为很多方法没用过不熟悉,自己得去查帮助文档,而且还得去试,因为没有中文版,英文翻译不 ...
JavaEE实战——XML文档DOM、SAX、STAX解析方式详解
原 JavaEE实战--XML文档DOM.SAX.STAX解析方式详解 2016年06月22日 23:10:35 李春春_ 阅读数:3445 标签: DOMSAXSTAXJAXPXML Pull 更多 ...
java 解析XML文档
Java 解析XML文档一.解析XML文档方式: 1.DOM方式:将整个XML文档读取到内存中,按照XML文件的树状结构图进行解析. 2.SAX方式:基于事件的解析,只需要加载XML中的部分数据,优 ...
浅谈用java解析xml文档（四）
继续接上一文,这一阵子因为公司项目加紧,导致最后一个解析xml文档的方式,还没有总结,下面总结使用dom4J解析xml. DOM4J(Document Object Model for Java) 使 ...
使用DOM4J解析XML文档，以及使用XPath提取XML文档
使用DOM4J解析XML文档需要首先下载DOM4J工具包.这是个第三方工具包在使用DOM4J解析的时候需要导入 DOM4J的JAR包下载DOM4J工具包->在MyEclipse中新建lib ...

随机推荐

常用模块之 os,json,shelve,xml模块
os 即操作系统在 os 中提供了很多关于文件,文件夹,路径处理的函数这是我们学习的重点 os.path 是os模块下专门用于处理路径相关的 python是一门跨平台语言,由于每个平台路径规则不同 ...
PAT Advanced 1001
1001 A+B Format (20 分) Calculate a+b and output the sum in standard format -- that is, the digits mu ...
POJ1741 Tree （点分治）
Tree Time Limit: 1000MS Memory Limit: 30000K Total Submissions: 25772 Accepted: 8566 Description ...
DevOps实施的三种IT障碍
[TechTarget中国原创] 现今DevOps可谓是红遍半边天,但正因为它是新的东西,企业也在不停的犯同样的错误.从这些挑战中学习,让你的DevOps项目取得成功. DevOps正在以一种更有效的 ...
MongoDB快速入门学习笔记3 MongoDB的文档插入操作
1.文档的数据存储格式为BSON,类似于JSON.MongoDB插入数据时会检验数据中是否有“_id”,如果没有会自动生成.shell操作有insert和save两种方法.当插入一条数据有“_id”值 ...
【原创】React实例入门教程(1)基础API,JSX语法--hello world
前言毫无疑问,react是目前最最热门的框架(没有之一),了解并学习使用React,可以说是现在每个前端工程师都需要的. 在前端领域,一个框架为何会如此之火爆,无外乎两个原因:性能优秀,开发效率 ...
Python_字符串操作
name='hu\tqihang' #\t是TAB键 1.打印相关 print(name.center(50,'-')) #一共打印50个字符,不够的 ...
python矩阵和向量的转置问题
numpy有很多方法进行转置,这里由于时间和精力限制(主要是我实在比较懒,有一个基本上一直能使的,就懒得看其他的了),其他方法我没研究,这里我总结的东西,如果有问题,欢迎各路大佬拍砖一.创建矩阵: ...
初识面向对象-python
Python 面向对象一.概念的区分: 面向过程:根据业务逻辑从上到下写垒代码函数式:将某功能代码封装到函数中,日后便无需重复编写,仅调用函数即可面向对象:对函数进行分类和封装,让开发“更快更好 ...
web 大规模并发访问的解决方案
电商的秒杀和抢购,对我们来说,都不是一个陌生的东西.然而,从技术的角度来说,这对于Web系统是一个巨大的考验.当一个Web系统,在一秒钟内收到数以万计甚至更多请求时,系统的优化和稳定至关重要.这次我们 ...

[翻译][Nokogiri官方教程] 解析HTML/XML文档 / Parsing an HTML/XML Document