PHP电影小爬虫(2)

学习了别人的爬虫后自己改的一个，算是又回顾了一下php的使用

我们来利用simple_html_dom的采集数据实例，这是一个PHP的库，上手很容易。
simple_html_dom 可以很好的帮助我们利用php解析html文档。通过这个php封装类可以很方便的解析html文档，对其中的html元素进行操作 (PHP5+以上版本)

下载地址：https://github.com/samacs/simple_html_dom

还是http://paopaotv.com/tv-type-id-5-pg-1.html 这个字母版面 1 <?php

 set_time_limit();

 header("Content-Type:text/html;charset=utf-8");

 require('../../web crawler/simple_html_dom-master/simple_html_dom.php');

 require './config.php';

 $DBNA="crawler";

 mysql_select_db($DBNA,$link);

 //获取html数据转化对象

 $html = file_get_html('http://paopaotv.com/tv-type-id-5-pg-1.html');

 //A-Z的字母列表每条数据是在id=letter-focus的div内class=letter-focus=item的

 //dl标签内，用find方法查找即为

 $ListData = $html->find("#letter-focus .letter-focus-item");

 //$listData为数组对象

 $count=;

 foreach($ListData as $key=>$EachLetterData){

     $LetterData = $EachLetterData->find("dd a");

     foreach ($LetterData as $Letterinfo){

         $count++;

         //影片名称

         $filmName = $Letterinfo->plaintext;

         //echo "<br/>";

         //影片地址

         $filmUrl = $Letterinfo->href;

         $filmUrl="http://www.paopaotv.com".$filmUrl;

         //echo "<br/>";

         //一部影片的地址内容

         $filmInfo = file_get_html($filmUrl);

         //所找信息

         $filmDetail = $filmInfo->find(".info dl");

         foreach($filmDetail as $film){

             $info = $film->find("dd");

             foreach($info as $childinfo){

                 $row[] = $childinfo->plaintext;

             }

         }

         $sql = "insert into movie2(name,url,actor,status,form,location,label,director,time,year) values('{$filmName}','{$filmUrl}',

         '{$row[0]}','{$row[1]}','{$row[2]}','{$row[3]}','{$row[4]}','{$row[5]}','{$row[6]}','{$row[7]}')";

         echo "<pre>";

         echo $sql."<br/>";

         mysql_query($sql);

         $row=null;

         //if($count==3){goto a;}

         echo "<br/>";

     }

     //echo "<br/>";

 }

 a:
关于自己遇到的问题：
　字符编码的问题，uft-8又一次坑了我，之后在config.php中加了set names uft8才解决，问题是有时候加就灵，有时候就没有。。。菜鸟语录

PHP电影小爬虫(2)的更多相关文章

今天来做一个PHP电影小爬虫。
今天来做一个PHP电影小爬虫.我们来利用simple_html_dom的采集数据实例,这是一个PHP的库,上手很容易.simple_html_dom 可以很好的帮助我们利用php解析html文档.通过 ...
放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~)
放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~) 笔者声明:只用于学习交流,不用于其他途径.源代码已上传github.githu地址:https://github.com/Erma-Wa ...
Java豆瓣电影爬虫——小爬虫成长记（附源码）
以前也用过爬虫,比如使用nutch爬取指定种子,基于爬到的数据做搜索,还大致看过一些源码.当然,nutch对于爬虫考虑的是十分全面和细致的.每当看到屏幕上唰唰过去的爬取到的网页信息以及处理信息的时候, ...
python 10 min系列三之小爬虫(一)
python10min系列之小爬虫前一篇可视化大家表示有点难,写点简单的把,比如命令行里看论坛的十大,大家也可以扩展为抓博客园的首页文章本文原创,同步发布在我的github上据说去github右 ...
放养的小爬虫--京东定向爬虫(AJAX获取价格数据)
放养的小爬虫--京东定向爬虫(AJAX获取价格数据) 笔者声明:只用于学习交流,不用于其他途径.源代码已上传github.githu地址:https://github.com/Erma-Wang/Sp ...
Python练习，网络小爬虫（初级）
最近还在看Python版的rcnn代码,附带练习Python编程写一个小的网络爬虫程序. 抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的.比如说你在浏览器的地址栏中输入 www ...
「拉勾网」薪资调查的小爬虫，并将抓取结果保存到excel中
学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫. 第一步:分析网站的请求过程我们在查看拉勾网上的招聘信息的时候 ...
java正则表达式之java小爬虫
这个java小爬虫, 功能很简单,只有一个,抓取网上的邮箱.用到了javaI/O,正则表达式. public static void main(String[] args) throws IOExce ...
Python 基于学习网络小爬虫
<span style="font-size:18px;"># # 百度贴吧图片网络小爬虫 # import re import urllib def getHtml( ...

随机推荐

洛谷 2484 [SDOI2011]打地鼠
[题解] n^6的做法很好想,然而这样复杂度不对.. 然后我们可以发现R和C可以分开求,这样复杂度降到了n^4. 使用树状数组可以把复杂度降到n^3logn,可以顺利通过. #include<c ...
多校1010 Taotao Picks Apples
>>点击进入原题<< 思路:题解很有意思,适合线段树进阶 #include<cstdio> #include<cmath> #include<cs ...
unigui导出TMS.Flexcel【5】
参考代码 procedure TUniFrmeWebEmbedBase.ExportData; //导出到excel var FlexCelImport1: TExcelFile; i, rowind ...
Spring MVC 概述
[简介] Spring MVC也叫Spring web mvc,属于表现层的框架.SpringMVC是Spring框架的一部分,是在Spring 3.0后发布的. 由以上Spring的结构图可以看出, ...
noip模拟赛圆桌游戏
[问题描述] 有一种圆桌游戏是这样进行的:n个人围着圆桌坐成一圈,按顺时针顺序依次标号为1号至n号.对1<i<n的i来说,i号的左边是i+1号,右边是i-1号.1号的右边是n号,n号的左边 ...
洛谷——P2935 [USACO09JAN]最好的地方Best Spot
P2935 [USACO09JAN]最好的地方Best Spot 题目描述 Bessie, always wishing to optimize her life, has realized that ...
springMVC 返回中文字符串时乱码
转载自:https://blog.csdn.net/yaov_yy/article/details/51819567
sizeThatFits and sizeToFit
http://liuxing8807.blog.163.com/blog/static/9703530520134381526554/ sizeThatFits and sizeToFit是UIVie ...
多个线程对hashmap进行put操作的异常
多个线程对hashmap进行put操作的异常 Exception in thread "Thread-0" java.lang.ClassCastException: java.u ...
从hbase读取数据优化策略和实验对照结果
起因:工作须要.我须要每5分钟从hbase中.导出一部分数据,然后导入到ES中.可是在開始阶段编写的python脚本,我发现从hbase读取数据的速度较慢,耗费大量的时间.影响整个导数过程,恐怕无法在 ...

PHP电影小爬虫(2)

PHP电影小爬虫(2)的更多相关文章

随机推荐

热门专题