关于php网络爬虫phpspider

前几天，被老板拉去说要我去抓取大众点评某家店的数据，当然被我义正言辞的拒绝了，理由是我不会。。。但我的反抗并没有什么卵用，所以还是乖乖去查资料，因为我是从事php工作的，首先找的就是php的网络爬虫源码，在我的不懈努力下，终于找到phpspider，打开phpspider开发文档首页我就被震惊了，标题《我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言》，果然和我预料的一样，php就是世界上最好的语言。废话少说，下面开始学习使用。

首先看的是提供的一个demo，代码如下：

$configs = array(

    'name' => '糗事百科',

    'domains' => array(

        'qiushibaike.com',

        'www.qiushibaike.com'

    ),

    'scan_urls' => array(

        'http://www.qiushibaike.com/'

    ),

    'content_url_regexes' => array(

        "http://www.qiushibaike.com/article/\d+"

    ),

    'list_url_regexes' => array(

        "http://www.qiushibaike.com/8hr/page/\d+\?s=\d+"

    ),

    'fields' => array(

        array(

            // 抽取内容页的文章内容

            'name' => "article_content",

            'selector' => "//*[@id='single-next-link']",

            'required' => true

        ),

        array(

            // 抽取内容页的文章作者

            'name' => "article_author",

            'selector' => "//div[contains(@class,'author')]//h2",

            'required' => true

        ),

    ),

);

$spider = new phpspider($configs);

$spider->start();

每项具体的信息，可以去 https://doc.phpspider.org/demo-start.html 查看，哪里比较详细，这里只说下我走的弯路，

domains是定义采集的域名，只在该域名下采集，

content_url_regexes是采集的内容页，使用chrome查看网页源码，然后使用selector选择器定位，selector使用xpath格式定位参数，当然也可以用css来选择。

list_url_regexes列表页，每个列表页抓取多条content_url_regexes的url循环采集。
还有一些其他参数没有列出来，例如：

 'max_try' => 5,

   'export' => array(

        'type' => 'db',

        'conf' => array(

            'host'  => 'localhost',

            'port'  => 3306,

            'user'  => 'root',

            'pass'  => 'root',

            'name'  => 'demo',

        ),

        'table' => '360ky',

    ),

max_try 同时工作的爬虫任务数。

export采集数据存储，有两种格式，一种是写到数据库中，一种是直接生成.csv格式文件。
只要url规则写的对，就可以运行，不用管框架里面的封装。当然，此框架只能在php-cli命令行下运行，所以使用前要先配置环境变量，或者cd到php安装路径运行。
最后成功采集到大众点评某点的一千多条数据。

关于php网络爬虫phpspider的更多相关文章

关于php网络爬虫phpspider。
前几天,被老板拉去说要我去抓取大众点评某家店的数据,当然被我义正言辞的拒绝了,理由是我不会...但我的反抗并没有什么卵用,所以还是乖乖去查资料,因为我是从事php工作的,首先找的就是php的网络爬虫源 ...
Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...
网络爬虫：使用Scrapy框架编写一个抓取书籍信息的爬虫服务
上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫( 使用Beautiful Soup编写一个爬虫系列随笔汇总 ), BeautifulSoup是一个非常流行的Python网 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格
通过上一篇随笔的处理,我们已经拿到了书的书名和ISBN码.(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码
这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码. 一.分析需求和网站结构 allitebooks.com这个网站的结构很简单,分页+书籍列表+书籍详情页. ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup
开始学习网络数据挖掘方面的知识,首先从Beautiful Soup入手(Beautiful Soup是一个Python库,功能是从HTML和XML中解析数据),打算以三篇博文纪录学习Beautiful ...
Atitit.数据检索与网络爬虫与数据采集的原理概论
Atitit.数据检索与网络爬虫与数据采集的原理概论 1. 信息检索1 1.1. <信息检索导论>((美)曼宁...)[简介_书评_在线阅读] - dangdang.html1 1.2. ...
Java 网络爬虫获取页面源代码
原博文:http://www.cnblogs.com/xudong-bupt/archive/2013/03/20/2971893.html 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网 ...
[Search Engine] 搜索引擎技术之网络爬虫
随着互联网的大力发展,互联网称为信息的主要载体,而如何在互联网中搜集信息是互联网领域面临的一大挑战.网络爬虫技术是什么?其实网络爬虫技术就是指的网络数据的抓取,因为在网络中抓取数据是具有关联性的抓取, ...

随机推荐

Angularjs基础(二)
AngularJS 表达式 AngularJS 表达式写在双大括号内:{{expression}} AngularJS 表达式把数据绑定到HTML,这与ng-bind 指令有异曲同工之妙 Angula ...
密钥登录LINUX步骤
1.创建目录2.创建一个文件3.给目录和文件授权4.关闭防火墙5.然后才可以登录.
javaScript 字符串与unicode码之间的相互转换，函数的封装
在我们的开发过程中,有时在对数据进行储存的时候,我们需要将字符串转成unicode. 比如,在jsp开发时,前端使用页面间传值时,将传值参数先存入cookie中,然后在使用的时候,再从ookie中取出 ...
Hadoop(8)-HDFS的读写数据流程以及机架感知
1. HDFS的写数据流程 1.客户端通过fs模块向NameNode申请文件上传,NameNode检查请求是否合法,如用户权限,目标文件是否已存在,父目录是否存在等等 2.NameNode返回是否可以 ...
linux文件操作篇 (三) 文件状态和操作属性
#include <sys/stat.h> int fstat(int fildes, struct stat *buf); 获取文件信息 int lstat(const char* ...
Python3 os模块&sys模块&hashlib模块
''' os模块非常重要的模块 ''' import os # print(os.getcwd()) # 获取当前工作目录 # os.chdir(r'路径名') # 改变当前工作目录 # print ...
FZU：1759-Problem 1759 Super A^B mod C （欧拉降幂）
题目链接:http://acm.fzu.edu.cn/problem.php?pid=1759 欧拉降幂是用来干啥的?例如一个问题AB mod c,当B特别大的时候int或者longlong装不下的时 ...
maven之package与install的区别
mvn clean package 先看命令的执行过程 mvn clean install 同样先看执行过程 mvn clean package依次执行了clean.resources.compile ...
【转】手把手教你：Ubuntu14+apache2+django1.7+python2.7下网页/网站部署
本人亲自尝试了网上众多的部署网页/网站方法,绝大多数都未能试验成功,这次的项目光部署这块遇到了很多问题,大概耗费了我一个星期. 本着:王道论坛中的赠人玫瑰,手留余香的精神.我把自己一路所走的历程发布出 ...
安装cloudera manager使用mysql作为元数据库
1.首次安装好mysql数据库后,会生成一个随机密码,使用如下办法找到: cat /var/log/mysqld.log |grep password 2.首次安装好mysql数据库后,第一次登陆进去 ...

关于php网络爬虫phpspider

关于php网络爬虫phpspider的更多相关文章

随机推荐

热门专题