简单的PHP HTML DOM 解析器中文手册 | PHP Simple HTML DOM Parser中文手册

快速入门

Top

//从一个URL或者文件创建一个DOM对象
$html = file_get_html('http://www.google.cn/');

// 寻找所有的img标签
foreach($html->find('img') as $element)
echo $element->src . '<br>';

// 寻找所有的链接标签
foreach($html->find('a') as $element)
echo $element->href . '<br>';

//从字符串创建一个DOM对象
$html = str_get_html('<div id="hello">Hello</div><div id="world">World</div>');

$html->find('div', 1)->class = 'bar';

$html->find('div[id=hello]', 0)->innertext = 'foo';

echo $html; // 输出: <div id="hello">foo</div><div id="world" class="bar">World</div>

// 从HTML中提取内容(不包含标签)
echo file_get_html('http://www.google.com/')->plaintext;

//从URL创建一个DOM对象
$html = file_get_html('http://slashdot.org/');

// 寻找所有的article块
foreach($html->find('div.article') as $article) {
    $item['title']     = $article->find('div.title', 0)->plaintext;
    $item['intro']    = $article->find('div.intro', 0)->plaintext;
    $item['details'] = $article->find('div.details', 0)->plaintext;
    $articles[] = $item;
}

print_r($articles);

如何创建HTML DOM 对象？

Top

//从字符串创建一个DOM对象
$html = str_get_html('<html><body>Hello!</body></html>');

//从一个URL创建一个DOM对象
$html = file_get_html('http://www.google.com/');

//从一个HTML文件创建一个DOM对象
$html = file_get_html('test.htm');

//创建一个DOM对象
$html = new simple_html_dom();

//从字符串中载入HTML
$html->load('<html><body>Hello!</body></html>');

//从URL中载入HTML
$html->load_file('http://www.google.cn/');

//从文件中载入HTML
$html->load_file('test.htm');
//输出
echo $html;

如何查找HTML元素?

Top

// 查找所有的锚, 返回一个元素对象数组
$ret = $html->find('a');

//查找第N个 锚, 返回元素对象或者当找不到时返回null (从零开始)
$ret = $html->find('a', 0);

//查找最后一个 锚, 返回元素对象或者当找不到时返回null (从零开始)
$ret = $html->find('a', -1);

//通过id属性查找所有的<div>
$ret = $html->find('div[id]');

// 查找所有属性id=foo的<div>标签
$ret = $html->find('div[id=foo]');

//查找所有id=foo的元素
$ret = $html->find('#foo');

//查找所有class=foo的元素
$ret = $html->find('.foo');

//查找所有包含id属性的的元素
$ret = $html->find('*[id]');

//查找所有的锚与图片
$ret = $html->find('a, img');

//查找所有包含title属性的锚与图片
$ret = $html->find('a[title], img[title]');

在属性过滤器中支持如下运算符:

过滤器
描述

[属性]	匹配包含指定属性的元素.
[!属性]	匹配不包含指定属性的元素.
[属性=value]	匹配等于特定值的指定属性的元素.
[属性!=value]	匹配除包含特定值的指定属性之外的元素
[属性^=value]	匹配包含特定前缀的值的指定属性的元素.
[属性$=value]	匹配包含特定后缀的值的指定属性的元素.
[属性*=value]	匹配包含特定值的指定属性的元素..

//在<ul>中查找所有的<li>后代
$es = $html->find('ul li');

//查找所有的<div>嵌套标签
$es = $html->find('div div div');

//在<table>中查找所有的class=hello的<td>后代
$es = $html->find('table.hello td');

//在table标签中查找所有属性align=center的td
$es = $html->find(''table td[align=center]');

//查找所有的text区块
$es = $html->find('text');

//查找所有的comment ()区块
$es = $html->find('comment');

//在<ul>中查找所有的<li>
foreach($html->find('ul') as $ul)
{
       foreach($ul->find('li') as $li)
       {
             //在这里执行操作...
       }
}

//在第一个<ul>中查找第一个<li>
$e = $html->find('ul', 0)->find('li', 0);

如何访问HTML元素的属性?

Top

// 获取属性(如果是一个空值属性(例如. checked, selected...这些属性),则返回true或者false)
$value = $e->href;

// 设置属性(如果是一个空值属性(例如. checked, selected...这些属性),则让值等于true或者false)
$e->href = 'my link';

// 删除属性,让其值为空!
$e->href = null;

// 确定某个属性是否存在?
if(isset($e->href))
echo 'href exist!';

// 列子
$html = str_get_html("<div>foo <b>bar</b></div>");
$e = $html->find("div", 0);

echo $e->tag; // 返回: " div"
echo $e->outertext; // 返回: " <div>foo <b>bar</b></div>"
echo $e->innertext; // 返回: " foo <b>bar</b>"
echo $e->plaintext; // 返回: " foo bar"

属性名
用法

$e->tag	Read or write the tag name of element.
$e->outertext	Read or write the outer HTML text of element.
$e->innertext	Read or write the inner HTML text of element.
$e->plaintext	Read or write the plain text of element.

// Extract contents from HTML
echo $html->plaintext;

// Wrap a element
$e->outertext = '<div class="wrap">' . $e->outertext . '<div>';

// Remove a element, set it's outertext as an empty string
$e->outertext = '';

// Append a element
$e->outertext = $e->outertext . '<div>foo<div>';

// Insert a element
$e->outertext = '<div>foo<div>' . $e->outertext;

如何遍历DOM树?

Top

//如果你不是很熟悉HTML DOM,那么请点击这个链接查看更多资料...

//列子
echo $html->find("#div1", 0)->children(1)->children(1)->children(2)->id;
//或者
echo $html->getElementById("div1")->childNodes(1)->childNodes(1)->childNodes(2)->getAttribute('id');

你也可以使用骆驼命名法调用.
方法
描述

mixed $e->children ( [int $index] )	Returns the Nth child object if index is set, otherwise return an array of children.
element $e->parent ()	Returns the parent of element.
element $e->first_child ()	Returns the first child of element, or null if not found.
element $e->last_child ()	Returns the last child of element, or null if not found.
element $e->next_sibling ()	Returns the next sibling of element, or null if not found.
element $e->prev_sibling ()	Returns the previous sibling of element, or null if not found.

如何储存DOM对象中的内容?

Top

// 将DOM树中的内容储存在字符串中
$str = $html->save();

//将DOM树中的内容储存在文件中
$html->save('result.htm');

// 将DOM树中的内容储存在字符串中
$str = $html;

//打印输出!
echo $html;

如何自定义解析器方法？

Top

Callback 函数

//创建一个带有"$element"参数的函数
function my_callback($element) {
        //隐藏所有的<b>标签
        if ($element->tag=='b')
                $element->outertext = '';
}

//用它的函数名注册callback函数
$html->set_callback('my_callback');

//当输出时就会引用Callback函数
echo $html;

PHP HTML DOM 解析器中文手册的更多相关文章

PHP Simple HTML DOM解析器
一直以来使用php解析html文档树都是一个难题.Simple HTML DOM parser 帮我们很好地解决了使用 php html 解析问题.可以通过这个php类来解析html文档,对其中的h ...
dom解析器机制 web基本概念 tomcat
0 作业[cn.itcast.xml.sax.Demo2] 1)在SAX解析器中,一定要知道每方法何时执行,及SAX解析器会传入的参数含义 1 理解dom解析器机制 1)dom解析和dom4j原理 ...
使用Dom解析器，操作XML里面的信息
import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;impo ...
PHP Simple HTML DOM解析器使用入门
http://www.cnphp.info/php-simple-html-dom-parser-intro.html 一直以来使用php解析html文档树都是一个难题.Simple HTML DOM ...
JAVA与DOM解析器提高（DOM/SAX/JDOM/DOM4j/XPath）学习笔记二
要求必备知识 JAVA基础知识.XML基础知识. 开发环境 MyEclipse10 资料下载源码下载 sax.dom是两种对xml文档进行解析的方法(没有具体实现,只是接口),所以只有它们是无 ...
JAVA与DOM解析器基础学习笔记
要求必备知识 JAVA基础知识.XML基础知识. 开发环境 MyEclipse10 资料下载源码下载文件对象模型(Document Object Model,简称DOM),是W3C组织推荐的 ...
解析XML文件之使用DOM解析器
在前面的文章中.介绍了使用SAX解析器对XML文件进行解析.SAX解析器的长处就是占用内存小.这篇文章主要介绍使用DOM解析器对XML文件进行解析. DOM解析器的长处可能是理解起来比較的直观,当然, ...
Java DOM解析器 - 解析XML文档
使用DOM的步骤以下是在使用DOM解析器解析文档使用的步骤. 导入XML相关的软件包. 创建DocumentBuilder 从文件或流创建一个文档提取根元素检查属性检查子元素导入XML相关的 ...
Java DOM解析器
文档对象模型是万维网联盟(W3C)的官方推荐.它定义了一个接口,使程序能够访问和更新样式,结构和XML文档的内容.支持DOM实现该接口的XML解析器. 何时使用? 在以下几种情况时,应该使用DOM解析 ...

随机推荐

Tuning 12 manage statistics
这个 stattistics 对解析 sql 时的优化器有很重要的作用, 优化器是基于 statistics 来进行优化的. desc dbms_stats 包也可以 desc (早期使用 analy ...
给jdk配置jvm的参数
(1)window->preference->java->installed JREs ->edit -Xms512m -Xmx512m -XX:MaxNewSize=512 ...
运动规划(Motion Planning)
相关介绍: https://mp.weixin.qq.com/s?__biz=MzA5MDE2MjQ0OQ==&mid=2652786406&idx=1&sn=f937dd6a ...
SVD分解与数据压缩
SVD的几何解释:http://blog.csdn.net/dinosoft/article/details/37884597 上文未证明为什么AAT的特征向量就是要找的v 这里有个简单的说明: SV ...
curl使用例子
地址:http://phpbook.phpxy.com/34771 参考:http://php.net/manual/zh/function.curl-setopt.php 我们将curl的步骤分为以 ...
php中数组中&的问题
1.代码: <?php $arr = array('one','two','three'); foreach ($arr as $value){ echo 'Value:'.$value.'&l ...
python3的安装，Window与linux
一.window安装 1.首先是window下的安装. 进入python网站https://www.python.org/downloads/下载页面,选择所需要的版本进行下载. 点击Download ...
async 的三大返回类型
序博主简单数了下自己发布过的异步文章,已经断断续续 8 篇了,这次我想以 async 的返回类型为例,单独谈谈. 异步方法具有三个可让开发人员选择的返回类型:Task<TResult>. ...
IE11上登陆oracle OEM时报：“证书错误，导航已阻止”且无继续浏览此网站(不推荐)的错误
问题原因:oracle oem证书的密钥小于1024 解决方案:在cmd中执行命令:certutil -setreg chain\EnableWeakSignatureFlags 8 出现以下提示: ...
java 常用的几个配置
1.保存代码格式化,打勾即可 2.如何让eclipse像vs那样自动提示,在打勾的地方加入 abcdefghijklmnopqrstuvwxyz.即可

PHP HTML DOM 解析器中文手册

简单的PHP HTML DOM 解析器中文手册 | PHP Simple HTML DOM Parser中文手册

目录

快速入门

如何创建HTML DOM 对象？

如何查找HTML元素?

如何访问HTML元素的属性?

如何遍历DOM树?

如何储存DOM对象中的内容?

如何自定义解析器方法？

PHP HTML DOM 解析器中文手册的更多相关文章

随机推荐

热门专题

PHP HTML DOM 解析器 中文手册

简单的PHP HTML DOM 解析器 中文手册 | PHP Simple HTML DOM Parser中文手册

目录

快速入门

如何创建HTML DOM 对象？

如何查找HTML元素?

如何访问HTML元素的属性?

如何遍历DOM树?

如何储存DOM对象中的内容?

如何自定义解析器方法？

PHP HTML DOM 解析器 中文手册的更多相关文章

随机推荐

热门专题

PHP HTML DOM 解析器中文手册

简单的PHP HTML DOM 解析器中文手册 | PHP Simple HTML DOM Parser中文手册

PHP HTML DOM 解析器中文手册的更多相关文章