PHP多进程编程(3):多进程抓取网页的演示
我们知道,从父进程到子经常的数据传递相对比较容易一些,但是从子进程传递到父进程就比较的困难。
有很多办法实现进程交互,在php中比较方便的是 管道通信。当然,还可以通过 socket_pair 进行通信。
首先是服务器为了应对每一个请求要做的事情(发送一个url 序列,url序列用t 分割。而结束标记是 n)
- function clientHandle($msgsock, $obj)
- {
- $nbuf = '';
- socket_set_block($msgsock);
- do {
- if (false === ($buf = @socket_read($msgsock, , PHP_NORMAL_READ))) {
- $obj->error("socket_read() failed: reason: " . socket_strerror(socket_last_error($msgsock)));
- break;
- }
- $nbuf .= $buf;
- if (substr($nbuf, -) != "\n") {
- continue;
- }
- $nbuf = trim($nbuf);
- if ($nbuf == 'quit') {
- break;
- }
- if ($nbuf == 'shutdown') {
- break;
- }
- $url = explode("\t", $nbuf);
- $nbuf = '';
- $talkback = serialize(read_ntitle($url));
- socket_write($msgsock, $talkback, strlen($talkback));
- debug("write to the client\n");
- break;
- } while (true);
- }
代码如下:(为每一个url fork 一个线程,然后打开管道 ,读取到的标题写入到管道里面去,主线程一直的在读取管道数据,直到所有的数据读取完毕,最后删除管道)
- function read_ntitle($arr)
- {
- $pipe = new Pipe("multi-read");
- foreach ($arr as $k => $item)
- {
- $pids[$k] = pcntl_fork();
- if(!$pids[$k])
- {
- $pipe->open_write();
- $pid = posix_getpid();
- $content = base64_encode(read_title($item));
- $pipe->write("$k,$content\n");
- $pipe->close_write();
- debug("$k: write success!\n");
- exit;
- }
- }
- debug("read begin!\n");
- $data = $pipe->read_all();
- debug("read end!\n");
- $pipe->rm_pipe();
- return parse_data($data);
- }
- parse_data 代码如下,非常的简单,就不说了。
- parse_data 代码如下,非常的简单,就不说了。
- function parse_data($data)
- {
- $data = explode("\n", $data);
- $new = array();
- foreach ($data as $value)
- {
- $value = explode(",", $value);
- if (count($value) == ) {
- $value[] = base64_decode($value[]);
- $new[intval($value[])] = $value[];
- }
- }
- ksort($new, SORT_NUMERIC);
- return $new;
- }
在下载到 title 标签后,就停止读取内容,以节省时间。代码如下:
- function read_title($url)
- {
- $url_info = parse_url($url);
- if (!isset($url_info['host']) || !isset($url_info['scheme'])) {
- return false;
- }
- $host = $url_info['host'];
- $port = isset($url_info['port']) ? $url_info['port'] : null;
- $path = isset($url_info['path']) ? $url_info['path'] : "/";
- if(isset($url_info['query'])) $path .= "?".$url_info['query'];
- if(empty($port)){
- $port = ;
- }
- if ($url_info['scheme'] == 'https'){
- $port = ;
- }
- if ($url_info['scheme'] == 'http') {
- $port = ;
- }
- $out = "GET $path HTTP/1.1\r\n";
- $out .= "Host: $host\r\n";
- $out .= "User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.7)\r\n";
- $out .= "Connection: Close\r\n\r\n";
- $fp = fsockopen($host, $port, $errno, $errstr, );
- if ($fp == NULL) {
- error("get title from $url, error. $errno: $errstr \n");
- return false;
- }
- fwrite($fp, $out);
- $content = '';
- while (!feof($fp)) {
- $content .= fgets($fp, );
- if (preg_match("/<title>(.*?)<\/title>/is", $content, $matches)) {
- fclose($fp);
- return encode_to_utf8($matches[]);
- }
- }
- fclose($fp);
- return false;
- }
- function encode_to_utf8($string)
- {
- return mb_convert_encoding($string, "UTF-8", mb_detect_encoding($string, "UTF-8, GB2312, ISO-8859-1", true));
- }
这里,我只是检测了 三种最常见的编码。其他的代码都很简单,这些代码都是测试用的,如果你要做这样一个服务器,一定要进行优化处理。特别是,要防止一次打开太多的进程,你要做更多的处理。
很多时候,我们抱怨php 不支持多进程,实际上,php是支持多进程的。当然,没有那么多的进程通信的选项,而多进程的核心就在于进程的通信与同步。在web开发中,这样的多线程基本上是不会使用的,因为有很严重的性能问题。要实现比较简单的多进程,高负载,必须借助其扩展。
PHP多进程编程(3):多进程抓取网页的演示的更多相关文章
- Asp.net 使用正则和网络编程抓取网页数据(有用)
Asp.net 使用正则和网络编程抓取网页数据(有用) Asp.net 使用正则和网络编程抓取网页数据(有用) /// <summary> /// 抓取网页对应内容 /// </su ...
- [转]Linux Socket编程 Socket抓取网页源码
“一切皆Socket!” 话虽些许夸张,但是事实也是,现在的网络编程几乎都是用的socket. ——有感于实际编程和开源项目研究. 我们深谙信息交流的价值,那网络中进程之间如何通信,如我们每天打开浏览 ...
- Python -- 网络编程 -- 简单抓取网页
抓取网页: urllib.request.urlopen(url).read().decode('utf-8') --- (百度是utf-8,谷歌不是utf-8,也不是cp936,ascii也不行 ...
- HttpClient+Jsoup 抓取网页信息(网易贵金属为例)
废话不多说直接讲讲今天要做的事. 利用HttpClient和Jsoup技术抓取网页信息.HttpClient是支持HTTP协议的客户端编程工具包,并且它支持HTTP协议. jsoup 是一款基于 Ja ...
- HttpClient(一)HttpClient抓取网页基本信息
一.HttpClient简介 HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的.最新的.功能丰富的支持 HTTP 协议的客户端编程工具包, 并且它支 ...
- java学习-GET方式抓取网页(UrlConnection和HttpClient)
抓取网页其实就是模拟客户端(PC端,手机端...)发送请求,获得响应数据documentation,解析对应数据的过程.---自己理解,错误请告知 一般常用请求方式有GET,POST,HEAD三种 G ...
- Python爬虫练习(多线程,进程,协程抓取网页)
详情点我跳转 关注公众号"轻松学编程"了解更多. 一.多线程抓取网页 流程:a.设置种子url b.获取区域列表 c.循环区域列表 d.创建线程获取页面数据 e.启动线程 impo ...
- Java 抓取网页中的内容【持续更新】
背景:前几天复习Java的时候看到URL类,当时就想写个小程序试试,迫于考试没有动手,今天写了下,感觉还不错 内容1. 抓取网页中的URL 知识点:Java URL+ 正则表达式 import jav ...
- C语言调用curl库抓取网页图片
思路是先用curl抓取网页源码,然后以关键字寻找出图片网址. #include <stdio.h> #include <stdlib.h> #include <str ...
随机推荐
- HTML5 Canvas(画布)实战编程初级篇:基本介绍和基础画布元素
欢迎大家阅读HTML5 Canvas(画布)实战编程初级篇系列,在这个系列中,我们将介绍最简单的HTML5画布编程.包括: 画布元素 绘制直线 绘制曲线 绘制路径 绘制图形 绘制颜色,渐变和图案 绘制 ...
- Java浮点运算-BigDecimal
package com.hsun.test; import static java.lang.System.out; import java.math.BigDecimal; public class ...
- shareSDK(分享第三方库)的 使用
首先,下载第三方库,可以去官网下载,官网的地址我忘记了,但下面有一个我之前下的和我写的例子,其实官方的例子也写我们只是告诉大家用时需要把哪些代码复制出来就可以用了. 1.导入如下框架和第三方库 新浪微 ...
- 关于android的设备管理器-DevicePolicyManager(二)
上回分析到了/data/system/device_policies.xml这个文件是在package change事件发生的时候变化的.那么来看看它的内容. 依据以往的经验.在/data/syste ...
- 设计模式 - 模板方法模式(template method pattern) 具体解释
模板方法模式(template method pattern) 详细解释 本文地址: http://blog.csdn.net/caroline_wendy 模板方法模式(template metho ...
- webpack CommonsChunkPlugin 提取公共代码
1.项目结构 2.部分代码 module.js console.log('module.js'); index文件夹下的index.js require('../module.js'); consol ...
- com.fasterxml.jackson.core.JsonParseException: Unexpected character
com.fasterxml.jackson.core.JsonParseException: Unexpected )): was expecting double-quote to start fi ...
- 让Sql Server 2008 可以远程连接的方法
1.先开防火墙TCP:1433 2.设置外围端口为:1433 注意一定不要忘记“启用”和IPALL的端口设置 3.重启SQL完成 如果要查看1433端口有没有启用并被监听,只要在cmd里使用netst ...
- jquery获取json对象中的key小技巧,遍历json串所有key,value
比如有一个json var json = {"name" : "Tom", "age" : 18}; 想分别获取它的key 和 value ...
- JDBC 关于Date格式
package test; import java.sql.Connection; import java.util.Date; import java.sql.PreparedStatement; ...