Snoopy+phpquery采集demo
用phpquery类,写了个采集的demo,以 某网贷平台的 一个列表为例,我们要采集该平台下面的 各平台名称,结构树如下
include 'phpQuery.php'; phpQuery::newDocumentFile('http://www.wangdaizhijia.com/dangan/');//获取Dom文档 $artlist = pq(".terraceList")->find('.item .nameBox .name');//筛选节点 //echo count($arrlist) //数量 foreach($artlist as $k=>$v){
echo pq($artlist)->find("a:eq($k)")->text()."<br/>";// text方法只文本,html方法含html代码
}
注意:html和text对于获取表单不太好使。例如<input type="hidden" name="sss" value="testvalue" />
pq("input[name='sss']")->html()/text() 是无效的。。 要使用attr方法
pq("input[name='sss']")->attr("value");
采集结果如下:
这里要考虑到一个问题,如果采集的页面的分页链接是有分页信息的自然最好,就想我现在采集的这个网站,网站分页是用ajax加载一个url,提交页码数,返回json数据来渲染页面的,并非链接跳转第N页。
那么我们怎么做呢,phpquery显然不足以完成这些,所以我考虑到了snoopy,他不但可以采集,还可以模拟响应信息,模拟表单自然不在话下。但是dom操作没有phpquery那么人性化,所以两者结合自然是
最好的。
1,抓取http响应
得到信息:点击N页的时候 需要 提交 currPage=N 和 sort=0 两个参数 至 http://www.wangdaizhijia.com/front_select-plat
so
include "Snoopy.class.php"; $snoopy=new Snoopy; $data=array('currPage'=>2,'sort'=>0);//获得第二页 $snoopy->submit('http://www.wangdaizhijia.com/front_select-plat',$data); //模拟提交表单 echo $snoopy->results; //输出返回结果
我需要遍历所有记录,所以我需要知道总页数,来决定循环请求的次数。
其实返回记录里面已经有了。pageCount=95页,rowCount 记录数,如果别的网站没有返回这种信息也要紧,用phpquery去采集总页数的那个dom元素的值嘛。
$snoopy=new Snoopy; $url="http://www.wangdaizhijia.com/front_select-plat"; $snoopy->submit($url,array('currPage'=>1,'sort'=>0)); $index=$snoopy->results;//第一页 $index_arr=json_decode($index,1);//转化数组 $pageCount=$index_arr['pageCount'];//总页数 $data=$index_arr['list'];//首页数据 //第二页开始,循环采集,并追加至$data
for($i=2;$i<=$pageCount;$i++){
$snoopy->submit($url,array('currPage'=>$i,'sort'=>0));
$res=$snoopy->results;
$res=json_decode($res,1);//转化数组
foreach($res['list'] as $k=>$v){
$data[]=$res['list'][$k];
}
} var_dump($data); //入库....
注意:
1,phpQuery内存占用过大,导致溢出问题
phpQuery在每处理一个网页就会产生一个DOMDocumentWrapper 对象,而每个DOMDocumentWrapper 对象会被保存在静态成员$documents中(phpQuery::createDocumentWrapper中),
这个变量是一个数组,每解析一个 网页数组元素就增加一个。
推荐使用:phpQuery::$documents = array();
unset(phpQuery::$documents)//这个有可能会报错
Snoopy+phpquery采集demo的更多相关文章
- phpQuery采集微信公众号文章乱码
终于找到解决方案了,这是一个值得庆祝的事情.... 原来是因为微信在源码中加入了防采集代码<!--headTrap<body></body><head>< ...
- 简单的视频采集demo
打算做个简单的聊天软件,其中一个我没做过的,就是视频采集. 在网上查了许久资料,终于搞清楚了dshow采集视频的流程 参考资料如下: https://msdn.microsoft.com/en-us/ ...
- phpQuery对数据信息的采集进一步学习
前提:需要下载:phpQuery/phpQuery.php 链接:http://www.cnblogs.com/wuheng1991/p/5145398.html 1.对于规则的部分 <?php ...
- phpquery 学习笔记
phpQuery是一个基于PHP的服务端开源项目,它可以让PHP开发人员轻松处理DOM文档内容,比如获取某新闻网站的头条信息.更有意思的是,它采用了jQuery的思想,你可以像使用jQuery一样处理 ...
- Flume NetCat Demo
准备工作: 1.apache官网下载flume 2.解压flume 3.修改flume-env.sh,配置JAVA_HOME NetCat采集Demo: 1.在conf中创建netcat-logger ...
- PHP curl_setopt函数用法介绍中篇
此篇已实例为主. 一.一般的实例 demo1.php <?php $user = "admin123"; $pass = "admin456"; // $ ...
- snoopy采集
Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单.Snoopy正确运行需要你的服务器的PHP版本在4以上,并且支持PCRE(Perl Compatible Regular ...
- PHP采集利器:Snoopy 试用心得
Snoopy.class.php下载 Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单.Snoopy正确运行需要你的服务器的PHP版本在4以上,并且支持PCRE(Perl ...
- ThinkPHP Http工具类(用于远程采集 远程下载) phpSimpleHtmlDom采集类库_Jquery筛选方式 使用phpQuery轻松采集网页内容http://www.thinkphp.cn/extend/541.html
[php]代码库 view sourceprint? <?php // +------------------------------------------------------------ ...
随机推荐
- SQLServer 游标 (A)
游标 游标分为客户端游标和服务器端游标.Sql通过游标可以对一个结果集进行逐行处理.对于使用服务器端游标的过程有:声明.打开.读取.关闭.释放. 1 声明游标 1.1 SQL-92标准的声明 Decl ...
- ARM——操作系统—最小操作系统-开发板测试
怀着激动的心情,打算弄到硬件上试试. 折腾了一整天.终于运行起来了. 需要设置IBRD和CR,以及寄存器. 希望大家也能顺利完成自己的开发板实验. 我畅想了一下,目前所有带串口的嵌入式ARM设备,都应 ...
- sum data
$('.group_header').each(function(){ ; $(this).nextUntil('tr.group_header').find('.num').each(functio ...
- 关于ThinkPHP3.2框架接收不到json数据的解决办法
原因分析: 在tp框架中,我们经常使用的 I 方法是加过验证和默认的函数过滤的.所以我们接收的值当我们json_decode的时候就会出现空的字段 那么我们是不是又会像网上说的不用 I 方法用 $_ ...
- 设置myeclipse新建jsp文件默认编码为UTF-8
有三个地方需要改编码设置: 1. window-->preference-->general-->contenttype 然后在content types中展开每一个子项,并在Def ...
- 安装VS2012以后打开office 2007 的任何程序都跳出VS2012配置界面的解决方案
前两天闲来无事,下载了vs2012,打算学点mvc4的东西,装好以后,问题来了,打开word文档,直接弹出个windows正在配置vs2012的界面,等就等一下吧,结束以后还能正常看,结果谁知道,每次 ...
- 虚拟机中Linux系统盘空间不足
虚拟机中Linux系统盘在使用过程中, 出现空间不足的提示. 使用命令du --max-depth=1 -h 查看Home目录下各个文件占用空间, 发现是./cache(隐藏文件)占用很大空间.进入c ...
- angular的路由
AngularJS 路由允许我们通过不同的 URL 访问不同的内容. 通过 AngularJS 可以实现多视图的单页Web应用(single page web application,SPA). 下面 ...
- 修改bootstrap modal模态框的宽度
原文链接:http://blog.csdn.net/wuhawang/article/details/52252912 修改模态框的宽度很简单,修改width属性就可以了 但是要注意的一点是,修改的不 ...
- Radmin Server-3.5 完美绿色破解版(x32 x64通用) 第三版 + 单文件制作方法
Radmin Server v3.5 汉化破解绿色版(x32 x64通用) 第三版 下载链接: https://pan.baidu.com/s/1qYVcSQo 2016年7月8日更新第三版1.修复在 ...