Web Crawler, 也时也称scrapers，即网络爬虫，用于自动搜索internet并从中提取想要的内容。互联网的发展离不开它们。爬虫是搜索引擎的核心，通过智能算法发现符合你输入的关键字的网页。

Google网络爬虫会进入你的域名，然后扫描你网站的所有网页，从中析取网页标题，描述，关键字和链接 - 然后把这些的评价返回给Google HQ，把内容存放至海量的数据库中、

今天，我很高兴告诉你怎么做自己的爬虫 -- 它并不对整个互联网进行搜索，只是对指定的一个网址获取所有链接和信息[译:我稍微根据应用修改了例子，改成获取电视节目表]。

一般地，你应该确保你在爬虫前已经获得授权，因为那真的是一个灰色的地带。就如我说过互联网离不开这些爬虫，对于理解它们是如何工作，如何创建的是一件很重要的事。

为了让实现更简单，我们使用最流行的网络编程语言--PHP.不用怕你不懂PHP--我将告诉你演示每一步操作，并解释是用来做什么的。我假定你已经了解HTML,并知道如何在HTML文档中加链接和图片。

你需要有一个服务器运行PHP脚本。建议你使用AppServ。

入门

我们使用一个辅助库Simple HTML DOM。这个库用于便捷地遍历HTML文档。

首先，我们测试环境是否正常。创建一个.php文件。并把下面代码拷贝至服务器www文件夹。

<?php

    include_once('simple_html_dom.php');

    phpinfo();

?>

通过浏览器浏览创建的文件。如果一切正确，那么你会看到如下图输出的服务器信息：

第1行代码<?php告诉服务器使用PHP语言。这对服务器如何解析是十分重要的。第二行代码是包含我们辅助库Simple HTML DOM。最后phpinfo()打印出PHP当前的配置信息，用于查看环境是否正常。要注意所有PHP语句都要以;结尾。初学者最常见的一个错误就是忘记写分号，结果输出空白页。

接下来，我们把phpinfo替换成我们的爬虫代码。我们的任务是从一个电视节目预告的网站获取节目表。代码如下：

<?

    include_once('simple_html_dom.php');

    $domain = "http://epg.tvsou.com";

    $target_url = "http://epg.tvsou.com/programys/TV_1/Channel_1/W4.htm";

    $html = new simple_html_dom();

    $html->load_file($target_url);

    // 查找channel

    $channels = array();

    $channels['CCTV-1'] = $target_url;

    foreach($html->find('div[class=listmenu2] a') as $post)

    {

        $channels[$post->innertext] = $domain.$post->href;

    }

?>

首先，我们通过$target_url指示抓取的地址，通过实例化simple_html_dom对象，以load_file加载指定地址内容。最后，调用find提取想要的内容。find的语法与css选择子很类似。上面代码获取节目的频道连接，由于频道链接是class=listmenu2的div下的链接，所以我们把它存放在数组中，并通过链接的文本（即频道名作为索引）

通过获取频道链接后，我们可以进一步深入获取频道的节目表，我相信你已经能够把后面的代码完成了。enjoy!

【转】使用PHP创建基本的爬虫程序的更多相关文章

Scrapy：创建爬虫程序的方式
Windows 10家庭中文版,Python 3.6.4,Scrapy 1.5.0, 在Scrapy中,建立爬虫程序或项目的方式有两种(在孤读过Scrapy的大部分文档后): 1.继承官方Spider ...
为编写网络爬虫程序安装Python3.5
1. 下载Python3.5.1安装包1.1 进入python官网,点击menu->downloads,网址:https://www.python.org/downloads/ 1.2 根据系统 ...
Docker Compose 一键部署多节点爬虫程序
Docker Compose 一键部署多节点爬虫程序目录结构 [root@localhost ~]# tree compose_crawler/ compose_crawler/ ├── cento ...
Scrapy：运行爬虫程序的方式
Windows 10家庭中文版,Python 3.6.4,Scrapy 1.5.0, 在创建了爬虫程序后,就可以运行爬虫程序了.Scrapy中介绍了几种运行爬虫程序的方式,列举如下: -命令行工具之s ...
某个php爬虫程序分析--来自wooyun
乌云漏洞编号: WooYun-2014-68061 作者:hkAssassin 爬虫程序源码: <?php header("content-type:text/html;charset ...
简单的爬虫程序以及使用PYQT进行界面设计（包含源码解析）
由于这个是毕业设计的内容,而且还是跨专业的.爬虫程序肯定是很简单的,就是调用Yahoo的API进行爬取图片.这篇博客主要讲的是基础的界面设计. 放上源码,然后分部解析一下重要的地方.注:flickra ...
liunx系统下crontab定时启动Scrapy爬虫程序
定时启动爬虫 # 查看命令得绝对路径 # which scrapy # cd到爬虫得项目目录下 + scrapy命令得绝对路径 + 启动命令 */5 * * * * cd /opt/mafengwo/ ...
ASP.NET MVC 5 03 - 安装MVC5并创建第一个应用程序
不知不觉又逢年底, 穷的钞票所剩无几. 朋友圈里各种装逼, 抹抹眼泪 MVC 继续走起.. 本系列纯属学习笔记,如果哪里有错误或遗漏的地方,希望大家高调指出,当然,我肯定不会低调改正的.(开个小 ...
Visual Studio中创建混合移动应用程序解决方案Xamarin Portable Razor
在Visual Studio中创建混合移动应用程序的一个解决方案是使用Xamarin Portable Razor工具,这是ASP.NET MVC API针对移动设备的一个轻量级实现.Xamarin编 ...

随机推荐

storm-starter项目概述
storm-starter项目包含使用storm的各种各样的例子.项目托管在GitHub上面,其网址为: http://github.com/nathanmarz/storm-starter stor ...
nyoj 540 奇怪的排序
奇怪的排序时间限制:1000 ms | 内存限制:65535 KB 难度:1 描述最近,Dr. Kong 新设计一个机器人Bill.这台机器人很聪明,会做许多事情.惟独对自然数的理解与人类 ...
Android中解析JSON格式数据常见方法合集
待解析的JSON格式的文件如下: [{"id":"5", "version":"1.0", "name&quo ...
DoctorNote医生处方笔记开发记录
1.开发背景一个开诊所的中医朋友,希望我能给他开发一个记录病人姓名和处方的Android手机app,以便查询病人每次就诊信息,比如上一次的处方,以前他要找个病人上一次的就诊处方,几乎要翻遍一叠厚厚的 ...
iOS ipv6
这当中最重要的两个概念是DNS64和NAT64. DNS64 DNS64说白了是用来帮助host获取IPv6地址的,传统的DNS服务器可以把域名转换成IPv4地址,但我们的iPhone设备如果处于IP ...
超详细单机版搭建hadoop环境图文解析
前言: 年前,在老大的号召下,我们纠集了一帮人搞起了hadoop,并为其取了个响亮的口号“云在手,跟我走”.大家几乎从零开始,中途不知遇到多少问题,但终于在回家之前搭起了一个拥有12台服务器的集群, ...
[IOS地图开发系类]2、位置解码CLGeocoder
接第一步的操作,获取到地址信息经纬度后,我们可以对其进行解码,解码采用的CLGeocoder这个类,使用方式如下: 1.在ViewControlelr.m文件中声明一个CLGeocoder的属性, ...
百度之星资格赛——Disk Schedule（双调旅行商问题）
Disk Schedule Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) To ...
Eclipse使用新手教程
说起java的IDE,朗朗上口的无非是Eclipse了,假若能熟练Eclipse,对于我们编写java程序会起到事半功倍的效果,大大提高我们工作效率.因此本篇博文,笔者仅仅是针对刚刚入门java的新手 ...
android studio常用快捷键(不断补充)
1.查找类 ctrl + n 2.查找全局文件双击shift 3.返回上一次编辑的地方 ctrl + shift + backspace 4.代码格式化ctrl + alt + L 5.查看类的结 ...

【转】使用PHP创建基本的爬虫程序

入门

【转】使用PHP创建基本的爬虫程序的更多相关文章

随机推荐

热门专题