使用PHP的正则抓取页面中的网址

最近有一个任务，从页面中抓取页面中所有的链接，当然使用PHP正则表达式是最方便的办法。要写出正则表达式，就要先总结出模式，那么页面中的链接会有几种形式呢？

链接也就是超级链接，是从一个元素（文字、图片、视频等）链接到另一个元素（文字、图片、视频等）。网页中的链接一般有三种，一种是绝对URL超链接，也就是一个页面的完整路径；另一种是相对URL超链接，一般都链接到同一网站的其他页面；还有一种是页面内的超链接，这种一般链接到同一页面内的其他位置。

搞清楚了链接的种类，就知道要抓链接，主要还是绝对URL超链接和相对URL超链接。要写出正确的正则表达式，就必须要了解我们查找的对象的模式。

先说绝对链接，也叫作URL（Uniform Resource Locator），标识了互联网上的唯一资源。URL的结构包含三部分：协议、服务器名称、路径和文件名。

协议是告诉浏览器如何处理将要打开文件的标识，最常见的就是 http 协议。本文也只考虑HTTP协议，至于其他的 https、ftp、mailto、telnet协议等，根据需要也可以添加。

服务器名称是告诉浏览器如何到达这个服务器的方式，通常是域名或者IP地址，有时还会包含端口号（默认为80）。FTP协议中，也可以包含用户名和密码，本文就不考虑了。

路径和文件名，一般以 / 分割，指出到达这个文件的路径和文件本身的名称。如果没有具体的文件名，则访问这个文件夹下的默认文件（可以在服务器端设置）。

那么现在清楚了，要抓取的绝对链接的典型形式可以概括为

http://www.xxx.com/xxx/yyy/zzz.html

每个部分可以使用的字符范围有明确的规范，具体可以参考RFC1738。那么正则表达式就可以写出来了。

/(http|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.]+)/i

解释如下：

(http|https)第一个括号内匹配的是协议部分。

([\w\d\-_]+[\.\w\d\-_]+)第二个括号内匹配的是域名部分。

([\/]?[\w\/\.]+)第三个括号内匹配的是相对路径。

写到这个时候，基本上大部分的网址都能匹配到了，但是对于URL中带有参数的还不能抓取，这样有可能造成再次访问的时候页面报错。关于参数RFC1738规范中要求是用？来分割，后面带上参数，但是现代的RIA应用有可能使用其他奇怪的形式进行分割。

稍微修改一下，这样就可以将查询参数部分搜索出来。这里仍然没有涵盖全部的情况，例如URL中有中文、有空格及其他特殊字符的情况，但是基本上能够满足我的需求了，就没有继续深化。

/(http|ftp|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.\?=&;%@#\+,]+)/i

使用括号的好处是，在处理结果时，可以很容易的获取到协议、域名、相对路径这些内容，方便后续的处理。

例如使用 preg_match_all() 匹配时，结果数组索引0为全部结果、1为协议、2为域名、3为相对路径。

参考资料：

1、百度百科：链接

2、百度百科：统一资源定位符 URL

3、RFC1738

4、https://segmentfault.com/q/1010000000584340

使用PHP的正则抓取页面中的网址的更多相关文章

Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
Python抓取页面中超链接(URL)的3中方法比较(HTMLParser.pyquery.正则表达式) HTMLParser版: #!/usr/bin/python # -*- coding: UT ...
点滴积累【C#】---抓取页面中想要的数据
效果: 描述:此功能是抓取外国的一个检测PM2.5的网站.实时读取网站的数据,然后保存到数据库里面.每隔一小时刷新一次. 地址为:http://beijing.usembassy-china.org. ...
通过CURL抓取页面中的图片路径并下载到本地
1.首页是图片处理页面downpic.php <?phpfunction getImage($url,$filename="") { if($url=="" ...
PHP抓取页面中的邮箱
<?php $url='http://www.cnblogs.com/tinyphp/p/3234926.html'; //当页已留邮箱 $content=file_get_contents($ ...
浅谈如何使用python抓取网页中的动态数据
我们经常会发现网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念, 动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到 ...
用正则表达式抓取网页中的ul 和 li标签中最终的值！
获取你要抓取的页面 const string URL = "http://www.hn3ddf.gov.cn/price/GetList.html?pageno=1& ...
java中使用正则抓取邮箱
我们来抓取豆瓣网的邮箱吧!把这个页面的所有邮箱都抓取下来如https://www.douban.com/group/topic/8845032/: 代码如下: package cn.zhangzon ...
用PHP抓取页面并分析
在做抓取前,记得把php.ini中的max_execution_time设置的大点,不然会报错的.
curl抓取页面时遇到重定向的解决方法
用php的curl抓取网页遇到了问题,为阐述方便,将代码简化如下: <?php function curlGet($url) { $ch = curl_init(); curl_setopt($ ...

随机推荐

input只能输入数字并限制长度
<style> /*在chrome下移除input[number]的上下箭头*/ input::-webkit-outer-spin-button,input::-webkit-inner ...
win7下开启telnet命令
win7下开启telnet命令 win7上telnet这条命令默认被关闭了. 开启telnet方法如下: 一,打开控制面版二,选择程序三,选择打开或关闭windows功能在弹出窗口中把 Teln ...
【翻译】如何给tomcat配置memcached-session-manager
原文在这 ,其实不是忠实翻译,就是按照自己理解记录一下第一步,下载所需的jar包下载 memcached-session-manager-x.y.z.jar, memcached-session- ...
xcode调整debug，release模式
今天调试的时候发现变量都不能查看了.在「lldb」中通过「po」命令来查看总是提示变量未找到. 环境 xcode 7, Swift 2 错误提示 ‘XXXX’ was compiled with op ...
Java网络编程之流——流、过滤器、阅读器和书写器
Java的I/O建立于流(Stream)之上.输入流读取数据:输出流写入数据.所有的输出流都有相同的基本方法来写入数据,所有输入流也使用相同的基本方法来读取数据.在创建流之后,你通常可以忽略在读写时的 ...
学习vulkan的几个有用的网址
<ignore_js_op> 1)一个权威向导网站:https://vulkan-tutorial.com/2)Imagination图形组织官网http://imgtec.eetrend ...
查看 Apache并发请求数及其TCP连接状态
查看 Apache并发请求数及其TCP连接状态 (2011-06-27 15:08:36) 服务器上的一些统计数据: 1)统计80端口连接数 netstat -nat|grep -i "80 ...
夺命雷公狗-----React---16--事件操作事件
<!DOCTYPE> <html> <head> <meta charset="utf-8"> <title></ ...
利用spring boot创建java app
利用spring boot创建java app 背景在使用spring框架开发的过程中,随着功能以及业务逻辑的日益复杂,应用伴随着大量的XML配置和复杂的bean依赖关系,特别是在使用mvc的时候各 ...
hsql数据库使用详解(入门)及快速使用
一.简介: hsql数据库是一款纯Java编写的免费数据库,许可是BSD-style的协议,如果你是使用Java编程的话,不凡考虑一下使用它,相对其他数据库来说,其体积小,才563kb.仅一个hsq ...

使用PHP的正则抓取页面中的网址

使用PHP的正则抓取页面中的网址的更多相关文章

随机推荐

热门专题