php利用curl获取网页title内容

/**$html = curl_get_file_contents($url);

$title = get_title_contents($html);

var_dump($title);*/

function curl_get_file_contents($url,$referer='') {

	static $curl_loops = 0;//避免死了循环必备

	static $curl_max_loops = 3;

	$useragent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36";

	$ch = curl_init();

	curl_setopt($ch,CURLOPT_URL,$url);

	curl_setopt($ch,CURLOPT_HEADER,true);

	curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); //不验证证书

	curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false); //不验证证书

	curl_setopt($ch,CURLOPT_USERAGENT,$useragent);

	curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);

	curl_setopt($ch,CURLOPT_REFERER,$referer);

	$data = curl_exec($ch);

	$ret = $data;

	list($header,$data) = explode("\r\n\r\n",$data,2);

	$http_code = curl_getinfo($ch,CURLINFO_HTTP_CODE);

	$last_url = curl_getinfo($ch,CURLINFO_EFFECTIVE_URL);

	curl_close($ch);

	if ($http_code == 301 || $http_code == 302) {

		$matches = array();

		preg_match('/Location:(.*?)\n/',$header,$matches);

		$url = @parse_url(trim(array_pop($matches)));

		if (!$url) {

			return $data;

		}

		$new_url = $url['scheme'] . '://' . $url['host'] . $url['path'] . (isset($url['query']) ? '?' . $url['query'] : '');

		if ($curl_loops++ >= $curl_max_loops) {

			return false;

		}else {

			$new_url = stripslashes($new_url);

			return curl_get_file_contents($new_url);

		}

	} else {

		list($header,$data) = explode("\r\n\r\n",$ret,2);

		return $data;

	}

}

function get_title_contents($html){

	// 解析 HTML 的 <head> 区段

//	<meta http-equiv="Content-type" content="text/html; charset=utf-8" />

//	<meta content="text/html; charset=gb2312" http-equiv="Content-Type">

	preg_match("/<head.*>(.*)<\/head>/smUi",$html, $htmlHeaders);

	//var_dump($output);die();

	if(!count($htmlHeaders)){

		$title = "无法解析数据中的 <head> 区段";

	}

// 取得 <head> 中 meta 设置的编码格式<meta charset="gb2312">

	if(preg_match('/<meta.*charset=(("){0,1}[a-zA-Z0-9-]*("){0,1})/',$htmlHeaders[1], $results)){

		$charset =  $results[1];

	}else{

		$charset = "None";

	}

	$charset = str_replace('"','',$charset);

// 取得 <title> 中的文字

	if(preg_match("/<title>(.*)<\/title>/Ui",$htmlHeaders[1], $htmlTitles)){

		if(!count($htmlTitles)){

			$title = "无法解析 <title> 的内容";

			exit;

		}

		// 将  <title> 的文字编码格式转成 UTF-8

		if($charset == "None"){

			$title=$htmlTitles[1];

		}else{

			$title=iconv($charset, "UTF-8", $htmlTitles[1]);

		}

	}

	return html_entity_decode($title);

}

　　支持https，302跳转

php利用curl获取网页title内容的更多相关文章

selenium常用的API（三）获取网页title、html源码
获取网页title 获取页面title的方法可以直接用driver.title获取到,然后可以把获取到的结果用做断言. #encoding=utf-8 from selenium import web ...
c#利用HttpWebRequest获取网页源代码
c#利用HttpWebRequest获取网页源代码,搞了好几天终于解决了,直接获取网站编码进行数据读取,再也不用担心乱码了! 命名空间:Using System.Net private static ...
Python获取网页指定内容(BeautifulSoup工具的使用方法)
Python用做数据处理还是相当不错的,如果你想要做爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功能,此文中所有的功能都是基于BeautifulSoup这个包. ...
curl获取远程文件内容
curl获取远程文件内容 ** 获取远程文件内容 @param $url 文件http地址 * function fopen_url($url) { if (function_exists(& ...
telnet建立http连接获取网页HTML内容
利用telnet可以与服务器建立http连接,获取网页,实现浏览器的功能.它对于需要对http header进行观察和测试到时候非常方便.因为浏览器看不到http header. 步骤如下: 1. 运 ...
黄聪：C#获取网页HTML内容的三种方式
C#通常有三种方法获取网页内容,使用WebClient.WebBrowser或者HttpWebRequest/HttpWebResponse. 方法一:使用WebClient static void ...
linux下利用curl监控网页shell脚本
#!/bin/bash smail() {mail -s "$1" gjw_apparitor@gmail.com <<EOF$1$2====report time: ...
java 获取网页指定内容
import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.HttpURLConnection; ...
python3 利用正则获取网页中的想保存下来的内容
需要获取某个网页中表格部分中某个产品的成份分析在html中成份的元素代码 <a href="/composition/4c3060178d1184935a48c4e51be4f63f ...

随机推荐

Sergey's problem CodeForces - 1019C (图论,构造,神题)
链接大意: 给定有向图, 求选择一个点集$S$, 使得$S$任意两点不相连, 且对于不属于$S$的任意点$x$, 均存在$S$中的点$y$, 使得$d(x,y)<=2$, $d(x,y)$为从 ...
Leetcode 86
/** * Definition for singly-linked list. * struct ListNode { * int val; * ListNode *next; * ListNode ...
python 抓取搜狗微信出现的问题，求大神解决
爬取到的data不是想要获取文章页面的源码,而是跳转到验证码的页面的源码.我网上查了一下是由于访问过于频繁导致的,我也加了time.sleep和改了请求头但还是显示不了,求大神支招,除了识别验证码的方 ...
.net 外部CSS文件不起作用总结
外部css文件样式全部不起作用 asp.net 页面引用路径的问题缺少必须属性<link rel="stylesheet" type="text/css" ...
CentOS 7中firewall防火墙详解和配置以及切换为iptables防火墙
官方文档介绍地址: https://access.redhat.com/documentation/en-US/Red_Hat_Enterprise_Linux/7/html/Security_Gui ...
以DefaultFuture为例，看类变量初始化顺序
https://stackoverflow.com/questions/8517121/java-what-is-the-difference-between-init-and-clinit# < ...
en_o out1
1● o əʊ ɒ ə ɔː ʌ ʊ: 2● oor ʊə ɔː 3● oo u u: 4● or ɜː ə ɔː 5● oar ore ɔː 6● ow əʊ aʊ ...
如何解决请求URL长度超过配置的maxurlLength值问题
当我们批量请求的数据太多时,会出现请求的url长度超过配置maxurllength值的问题(比如一次性操作1000条数据) 1.问题描述: 我在进行批量选择单据进行发送时,出现这个问题(批量500条) ...
51nod1693
题解: 首先将问题转化,可以发现操作改为两种一种是s*=k,代价为k,一种是s--,代价为1 转化成图论,spfa跑最短路然后更据一些证明,代价1的k<=13且为质数,并且不可能操作2连续5 ...
玩转X-CTR100 | X-PrintfScope波形显示
我造轮子,你造车,创客一起造起来!塔克创新资讯[塔克社区 www.xtark.cn ][塔克博客 www.cnblogs.com/xtark/ ] X-CTR100控制器配套的X-Print ...

php利用curl获取网页title内容

php利用curl获取网页title内容的更多相关文章

随机推荐

热门专题