PHP抓取网页内容经验总结

用php 抓取页面的内容在实际的开发当中是非常有用的，如作一个简单的内容采集器，提取网页中的部分内容等等，抓取到的内容在通过正则表达式做一下过滤就得到了你想要的内容，至于如何用正则表达式过滤，在这里就不做介绍了，有兴趣的同学可以参考本站的《正则表达式》板块：http://phpzixue.cn/articles11.shtml ，以下就是几种常用的用php抓取网页中的内容的方法。

1.file_get_contents

PHP代码

$url = "http://www.phpzixue.cn ";
$contents = file_get_contents($url);
//如果出现中文乱码使用下面代码
//$getcontent = iconv("gb2312", "utf-8",$contents);
echo $contents;
?>

2.curl

PHP代码

$url = "http://www.phpzixue.cn ";
$ch = curl_init();
$timeout = 5;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
//在需要用户检测的网页里需要增加下面两行
//curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY);
//curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD);
$contents = curl_exec($ch);
curl_close($ch);
echo $contents;
?>

3.fopen->fread->fclose

PHP代码

$handle = fopen ("http://www.phpzixue.cn ", "rb");
$contents = "";
do {
$data = fread($handle, 1024);
if (strlen($data) == 0) {
break;
}
$contents .= $data;
} while(true);
fclose ($handle);
echo $contents;
?>

注：

1. 使用file_get_contents和fopen必须空间开启allow_url_fopen。方法：编辑php.ini，设置 allow_url_fopen = On，allow_url_fopen关闭时fopen和file_get_contents都不能打开远程文件。

2.使用curl必须空间开启curl。方法：windows下修改php.ini，将extension=php_curl.dll前面的分号去掉，而且需要拷贝ssleay32.dll和libeay32.dll到C:/WINDOWS/system32下；Linux 下要安装curl扩展

PHP抓取网页内容经验总结的更多相关文章

paip.抓取网页内容--java php python
paip.抓取网页内容--java php python.txt 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog ...
使用Jsoup函数包抓取网页内容
之前写过一篇用Java抓取网页内容的文章,当时是用url.openStream()函数创建一个流,然后用BufferedReader把这个inputstream读取进来.抓取的结果是一整个字符串.如果 ...
Asp.Net 之抓取网页内容
一.获取网页内容——html ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest.WebResponse.StreamRea ...
ASP.NET抓取网页内容的实现方法
这篇文章主要介绍了ASP.NET抓取网页内容的实现方法,涉及使用HttpWebRequest及WebResponse抓取网页内容的技巧,需要的朋友可以参考下一.ASP.NET 使用HttpWebRe ...
ASP.NET抓取网页内容
原文:ASP.NET抓取网页内容一.ASP.NET 使用HttpWebRequest抓取网页内容这种方式抓取某些页面会失败不过,有时候我们会发现,这个程序在抓取某些页面时,是获不到所需的内容的, ...
c#抓取网页内容乱码的解决方案
写过爬虫的同学都知道,这是个很常见的问题了,一般处理思路是: 使用HttpWebRequest发送请求,HttpWebResponse来接收,判断HttpWebResponse中”Content-Ty ...
C# 抓取网页内容的方法
1.抓取一般内容需要三个类:WebRequest.WebResponse.StreamReader 所需命名空间:System.Net.System.IO 核心代码: view plaincopy ...
ASP.NET 抓取网页内容
(转)ASP.NET 抓取网页内容 ASP.NET 抓取网页内容-文字 ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest. ...
爬虫学习一系列：urllib2抓取网页内容
爬虫学习一系列:urllib2抓取网页内容所谓网页抓取,就是把URL地址中指定的网络资源从网络中读取出来,保存到本地.我们平时在浏览器中通过网址浏览网页,只不过我们看到的是解析过的页面效果,而通过程 ...

随机推荐

php学习之mysqli的面向对象
// mySqlTool.php 封装好的工具类 <?php class SqlTool{ private $conn; private $host="localhost" ...
kafka系列三、Kafka三款监控工具比较
转载原文:http://top.jobbole.com/31084/ 通过研究,发现主流的三种kafka监控程序分别为: Kafka Web Conslole Kafka Manager KafkaO ...
Vistual Studio Community 2017 账号的许可证过期，公安网激活方法
方法: 1.外网电脑打开Vistual Studio Community2017 2.在许可证过期弹窗中登陆账号即可自动下载许可证完成激活许可证下载路径(C:\用户\user\Ap ...
centos 命令和
一.远程工具 Window系统上 Linux 远程登录客户端有SecureCRT, Putty, SSH Secure Shell.TightVNC... 重点推荐一款 FinallShell,一般人 ...
mongodb数据库集群及sharding分片配置
复制集群的配置 1.安装mongodb数据库在主节点和从节点上都安装mongodb # rpm -ivh mongo-10gen-2.4.6-mongodb_1.x86_64.rpm mongo-1 ...
安装xcache3.0.3/3.2，为php加速
安装xcache,为php加速 1.安装 # tar xf xcache-3.0.3.tar.bz2 # cd xcache-3.0.3 # /usr/local/php/bin/phpize # ...
linux设备模型：扩展篇
Linux设备模型组件:总线一.定义:总线是不同IC器件之间相互通讯的通道;在计算机中,一个总线就是处理器与一个或多个不同外设之间的通讯通道;为了设备模型的目的,所有的设备都通过总线相互连接,甚至 ...
MySQL 数据类型（转）
MySQL 数据类型在 MySQL 中,有三种主要的类型:文本.数字和日期/时间类型. Text 类型: 数据类型描述备注 CHAR(size) 保存固定长度的字符串(可包含字母.数字以及特殊字 ...
解决Idea运行testng套件无testoutput文件夹问题
说明:testNG的工程我是使用eclipse创建的,直接导入到idea中,运行test时不会生产test-output,只能在idea的控制台中查看运行结果,然后到处报告,经过不懈的百度终于找到怎么 ...
关卡得分（if 嵌套for）与（for嵌套if）

PHP抓取网页内容经验总结

PHP抓取网页内容经验总结的更多相关文章

随机推荐

热门专题