php爬虫 phpspider

<?php

/**

 * Created by PhpStorm.

 * User: brady

 * Date: 2016/12/9

 * Time: 17:32

 */

ini_set("memory_limit", "1024M");

require dirname(__FILE__).'/../core/init.php';

$url = "http://www.epooll.com/archives/806/";

$html = requests::get($url);

// 抽取文章标题

$selector = "//*[@id=\"content\"]/div[1]/div[1]/h1/a";

$title = selector::select($html, $selector);

// 检查是否抽取到标题

// 抽取文章作者

$selector = "//*[@id=\"content\"]/div[1]/div[1]/h6/span[1]";

$author = selector::select($html, $selector);

// 检查是否抽取到作者

// 去掉 作者：

$author = str_replace("作者：", "", $author);

//发布时间

$selector = "//*[@id=\"content\"]/div[1]/div[1]/h6/span[2]";

$time = selector::select($html, $selector);

$time = str_replace("发布时间：",'', $time);

$time  = date("Y-m-d H:i:s",strtotime($time));

// 抽取文章内容

$selector = "//*[@id=\"content\"]/div[1]/div[2]";

$content = selector::select($html, $selector);

// 检查是否抽取到内容

$data = array(

    'article_title' => $title,

    'article_author' => $author,

    'article_content' => $content,

);

// 查看数据是否正常

$res = db::insert("content", $data);

var_dump($res);

php爬虫 phpspider的更多相关文章

关于php网络爬虫phpspider。
前几天,被老板拉去说要我去抓取大众点评某家店的数据,当然被我义正言辞的拒绝了,理由是我不会...但我的反抗并没有什么卵用,所以还是乖乖去查资料,因为我是从事php工作的,首先找的就是php的网络爬虫源 ...
关于php网络爬虫phpspider
前几天,被老板拉去说要我去抓取大众点评某家店的数据,当然被我义正言辞的拒绝了,理由是我不会...但我的反抗并没有什么卵用,所以还是乖乖去查资料,因为我是从事php工作的,首先找的就是php的网络爬虫源 ...
phpspider php爬虫框架
其实我自身的不是经常写正则,而且不规则的html去写正则本身就是件很麻烦的事情,如果页面有些微变动和更新就得再次去维护正则表达式,其实是非常蛋疼的我第一感觉就是去找一下爬虫的库,但是发现现在php爬 ...
phpspider爬虫框架的使用
这几天使用PHP的爬虫框架爬取了一些数据,发现还是挺方便的,先上爬虫框架的文档 phpspider框架文档使用方法其实在文档中写的很清楚而且在demo中也有使用示例,这里放下我自己的代码做个笔记 & ...
phpspider PHP 爬虫
* 通过composer下载 composer require owner888/phpspider // composer.json { "require": { "o ...
[爬虫资源]各大爬虫资源大汇总,做我们自己的awesome系列
大数据的流行一定程序导致的爬虫的流行,有些企业和公司本身不生产数据,那就只能从网上爬取数据,笔者关注相关的内容有一定的时间,也写过很多关于爬虫的系列,现在收集好的框架希望能为对爬虫有兴趣的人,或者 ...
php 爬虫框架
发现两款不错的爬虫框架,极力推荐下: phpspider 一款优秀的PHP开发蜘蛛爬虫官方下载地址:https://github.com/owner888/phpspider 官方开发手册:http ...
利用phpspider爬取网站数据
本文实例原址:PHPspider爬虫10分钟快速教程在我们的工作中可能会涉及到要到其它网站去进行数据爬取的情况,我们这里使用phpspider这个插件来进行功能实现. 1.首先,我们需要php环境, ...
php爬虫最最最最简单教程
php爬虫最最最最简单教程一.总结一句话总结:用的爬虫框架,却是用的自己的例子(因为网站结构的变化,作者的例子不一定好用) 爬虫框架自己例子 1.发现自己的运行效果和作者的不一样怎么办? 耐下性 ...

随机推荐

"此站点已经禁用应用程序"在sharepoint 2013中通过v2013部署app提示该错误
该错误的原文是:the apps are disabled in this site 可以在yahoo或者bing上搜索这个错误,可以找到解决办法: msdn上也有该错误解决办法,但是如果搜索中文,目 ...
python基础-编码_if条件判断
一.第一句Python代码在 /home/dev/ 目录下创建 hello.py 文件,内容如下: [root@python-3 scripts]# cat hello.py #!/usr/bin/ ...
HTML5基础知识（4）--white-space属性
1.white-space 属性设置如何处理元素内的空白. 这个属性声明建立布局过程中如何处理元素中的空白符.值 pre-wrap 和 pre-line 是 CSS 2.1 中新增的. 默认值: no ...
mybatis和ibatis控制台打印sql语句方法
#将ibatis log4j运行级别调到DEBUG可以在控制台打印出ibatis运行的sql语句 log4j.rootLogger=debug,stdout,logfile### 把日志信息输出到控制 ...
[转]Hibernate设置时间戳的默认值和更新时间的自动更新
原文地址:http://blog.csdn.net/sushengmiyan/article/details/50360451 Generated and default property value ...
mysql5.5的安装与配置（亲测版）
mysql5.5.x的编译安装说明:5.5和5.1差不多,只是在编译时增加了一个cmake,其他基本一样,mysql5.5默认编码是utf-8,在使用mysql5.5配置lnmp或者lamp后安装d ...
linux下使用localhost和127.0.0.1都不能连接的解决思路
linux下刚安装了mysql,尝试写了程序连接mysql,出现了只有用本地ip地址才能连接,而127.0.0.1和localhost都不能访问解决这个问题主要查看3个方向 .hosts中是否有ip ...
ps还能用脚本切片？
最近在慕课网上看有关于ps切图的视频,发现ps 切片的水还挺深的.这相当于我的一篇学习笔记吧.对于ps的基本切图我觉得对于前端人员来说就是a piece of cake.但是对于ps的精准切图,我不知 ...
GC基本算法及C++GC机制
前言垃圾收集器是一种动态存储分配器,它自动释放程序不再需要的已分配的块,这些块也称为垃圾.在程序员看来,垃圾就是不再被引用的对象.自动回收垃圾的过程则称为垃圾收集(garbage collectio ...
Leetcode Find K Pairs with smallest sums
本题的特点在于两个list nums1和nums2都是已经排序好的.本题如果把所有的(i, j)组合都排序出来,再取其中最小的K个.其实靠后的很多组合根本用不到,所以效率较低,会导致算法超时.为了简便 ...

php爬虫 phpspider

php爬虫 phpspider的更多相关文章

随机推荐

热门专题