PHP脚本扮演爬虫的角色,可能大家第一时间想到可能会是会正则,个人对正则的规则老是记不住,表示比较难下手,今天工作中有个需求需要爬取某个网站上的一些门店信息

无意间在网上看到一个比较好的类库叫:simple_html_dom

github下载地址:https://github.com/samacs/simple_html_dom

最重要的一步:你得先了解别人网站的结构,知道从哪个tab开始是你想要的数据

下面演示下过程吧

实现过程我分了三步

1、将门店信息的经纬度,名称等一些重要信息先插入本地表

  1. set_time_limit(0);
  2. $host = '127.0.0.1';
  3. $user = 'root';
  4. $user_pwd = '';
  5. $database = 'dataname';
  6. $conn = mysql_connect($host,$user,$user_pwd) or die('sss');
  7. mysql_select_db($database,$conn) or die('dddd');
  8. mysql_query('set names utf8');
  9. include('./simple_html_dom-master/simple_html_dom.php');
  10. $url = '需要爬取的网站URL';
  11. $html = file_get_html($url);
  12. $n = 1;
  13. foreach($html->find('li[data-counts=0]') as $e){
  14. $storeid = $e->storeid;
  15. $star = $e->level.'.0';
  16. $work_time = $e->time;
  17. $mapx = $e->mapx;
  18. $mapy = $e->mapy;
  19. $nickname = $e->mapname;
  20. $mapadd = $e->mapadd;
  21. $maptel = $e->maptel;
  22. $time = date('Y-m-d H:i:s');
  23. $query = "INSERT INTO `store` (`storeid`,`star`,`work_time`,`longitude`,`latitude`,`create_time`,`nickname`,`address`,`tel`)
  24. VALUES ($storeid,'".$star."','".$work_time."','".$mapx."','".$mapy."','".$time."','".$nickname."','".$mapadd."','".$maptel."')";
  25. $res = mysql_query($query);
  26. //echo $query;exit();
  27. if($res){
  28. echo '成功导入第'.$n.'个门店<br>';
  29. $n++;
  30. }else{
  31. die('失败<br>');
  32. }
  33. }

2、跳入站点的另一个页面获取门店LOGO图片

  1. $query = "SELECT storeid FROM store order by id desc";
  2. $row = mysql_query($query);
  3. while($rows = mysql_fetch_array($row)){
  4. $url = 'http://别人站点域名/'.$rows['storeid'].'.jhtml';
  5. $html = file_get_html($url);
  6. foreach($html->find('div.onlyOnePic') as $e){
  7. //获取img的src属性
  8. $img =  $e->firstChild()->src;
  9. //将远程图片保存到本地
  10. $content = file_get_contents($img);
  11. file_put_contents('./store/'.$rows['storeid'].'.jpeg', $content);
  12. }
  13. }

3、更新表中对应门店的LOGO字段

  1. $query = "SELECT storeid FROM store order by id desc";
  2. $row = mysql_query($query);
  3. $n = 1;
  4. while($rows = mysql_fetch_array($row)){
  5. $img = "https://我自己站点域名/".$rows['storeid'].".jpeg";
  6. $sql = "UPDATE store set img_url='".$img."' where storeid=".$rows['storeid'];
  7. $res = mysql_query($sql);
  8. if($res){
  9. echo '成功更新第'.$n.'个门店<br>';
  10. $n++;
  11. }else{
  12. echo '失败';
  13. }
  14. }

OK,功能实现了,不过还没有更深入的了解这个类库的其他功能,这里也只是做个记录,方便以后需要的时候用

php利用simple_html_dom类,获取页面内容,充当爬虫角色的更多相关文章

  1. PHP curl获取页面内容,不直接输出到页面,CURLOPT_RETURNTRANSFER参数设置

    使用PHP curl获取页面内容或提交数据,有时候希望返回的内容作为变量储存,而不是直接输出.这个时候就必需设置curl的或true. 1.curl获取页面内容, 直接输出例子: <?php $ ...

  2. PHP CURL获取页面内容输出例子

    使用PHP curl获取页面内容或提交数据,有时候希望返回的内容作为变量储存,而不是直接输出.这个时候就必需设置curl的CURLOPT_RETURNTRANSFER选项为1或true. 1.curl ...

  3. C#获取页面内容的几种方式

    常见的Web页面获取页面内容用 WebRequest 或者 HttpWebRequest 来操作 Http 请求. 例如,获取百度网站的 html 页面 var request = WebReques ...

  4. python+selenium 页面中存在选项卡时,获取页面内容的小技巧

    最近用selenium读取页面内容时,遇到包含选项卡的页面,由于选项卡多由js加载其中的内容,所以在网址打开时只能获取到默认显示的选项卡中的内容,而tab2.tab3等等都需要傻傻的点击一下才会获取到 ...

  5. 利用Retrofit, RxJava获取网络内容

    Retrofit & RxJava 关于如何使用Retrofit和RxJava请阅读参考中的两篇文章. Retrofit处理数据 Retrofit是在什么时候处理从网络中获取到的json数据的 ...

  6. python 携带cookie获取页面内容

    有时会遇到爬取的页面需要登录,这就要带上cookie了. 下面记录了几种携带cookie的方法 # coding=utf-8 import requests s = requests.Session( ...

  7. POST信息模拟登录获取页面内容

    最近项目里有一个是要模拟登录后,访问固定页面获取内容的要求,一开始用JQ AJAX好像不支持跨域请求.后使用.net中HttpWebRequest对象来获取.一开始访问总是无法在第二个页面正常访问,好 ...

  8. android 利用TrafficStats类获取本应用的流量

    public void getData() { // PackageManager 包管理类 PackageManager packageManager = BrownserActivity.this ...

  9. asp.net 利用Response.Filter 获取输出内容, 变更输出内容

    重写 Response.Filter 就可以获取或更新输出到浏览器的内容       资料: https://weblog.west-wind.com/posts/2009/Nov/13/Captur ...

随机推荐

  1. macbook 下hadoop伪分布式安装

    1 准备原材料 1.1  jdk 1.8.0_171(事先安装并配置环境变量HAVA_HOME,PATH) 1.2 Hadoop 2.8.3 2 免密登陆配置(否则安装过程需要不断输入密码) 2.1 ...

  2. JavaScript中DOM(第二天)

    DOM document object model,文档对象模型,也叫dom树:dom是由节点组成的.html标签称为标签节点,属性称为属性节点: console.log(docment);即可输出d ...

  3. PythonStudy——集合 Set

    # 空集合:不能用{},因为用来标示空字典 s = set() print(s, type(s)) # 概念:# 1.set为可变类型 - 可增可删# 2.set为去重存储 - set中不能存放重复数 ...

  4. Head First 设计模式 (Eric Freeman / Elisabeth Freeman / Kathy Sierra / Bert Bates 著)

    1. 欢迎来到设计模式世界:设计模式入门 (已看) 策略模式 定义了算法族,分别分装起来,让它们之间可以互相替换,此模式让算法的变化独立于使用算法的客户. 设计原则 找出应用中可能需要变化之处,把它们 ...

  5. CNN+BLSTM+CTC的验证码识别从训练到部署

    项目地址:https://github.com/kerlomz/captcha_trainer 1. 前言 本项目适用于Python3.6,GPU>=NVIDIA GTX1050Ti,原mast ...

  6. 将SQL for xml path('')中转义的字符正常显示

    在工作中出现的发送邮件的时候:因为邮件内容中有链接,并且多个拼接在一起的,于是用了for xml path().       但是,这样显示出来的链接时会将路径中的<,>,&符号转 ...

  7. 如何系统学习知识图谱-15年+IT老兵的经验分享

    一.前言 就IT而言,胖子哥算是老兵,可以去猝死的年纪,按照IT江湖猿龄的规矩,也算是到了耳顺之年:而就人工智能而言,胖子哥还是新人,很老的新人,深度学习.语音识别.人脸识别,知识图谱,逐个的学习了一 ...

  8. 3076: 神经网络(bfs和拓扑排序)

    3076: 神经网络 时间限制: 1 Sec  内存限制: 125 MB提交: 7  解决: 5[提交][状态][讨论版][命题人:外部导入][Edit] [TestData] [同步数据] 题目描述 ...

  9. Struts2 <s:select >标签的使用

    select 取值session中的内容 <s:select name="meal.mealseries.seriesid" list="#session.meal ...

  10. PHP chdir函数:改变当前的目录

    PHP chdir函数的作用是改变当前的目录,这里主机吧详细介绍下chdir函数的用法,并列举使用chdir函数的例子. chdir定义和用法: chdir() 函数改变当前的目录. chdir实例: ...