用php写爬虫去爬数据

参考文档1

参考文档2

这里是我自己写的一个小需求

<?php

/**

采集http://www.959.cn/school，即时更新的最新的文章内容；每分钟采集一次。采集结束后实时入库并展示。

*/

header("Content-Type: text/html;charset=utf-8");

date_default_timezone_set('PRC');

$con = mysqli_connect('127.0.0.1', 'xxxxx', 'xxxxx', 'xxxxx');

mysqli_set_charset($con,'UTF8');

// 日志位置

//把当前的最新一条文章的id.shtml的id 存入一个max.log的文件中,实时读取 实时更改

$log_path = '/home/logs';

if(!file_exists($log_path)){

        mkdir($log_path,0755,true);

}

$max_log = $log_path.'/kecheng_max.log';

$path = './img/';

$max = file_get_contents($max_log) ? file_get_contents($max_log) : 4613925; //当前的最新一条文章的id.shtml的id

//记录日志

$message_log = $log_path.'/kecheng_message.log';

$now_max = 0; //当前网站实际的最新一条的文章的id.shtml的id

$url = "http://www.959.cn/school/kecheng/";//要爬取的网址

$res = file_get_contents("compress.zlib://".$url);//curl封装方法

//var_dump($con);die;

preg_match_all('/<h3>.*<\/h3>/',$res,$arr_all);//文章列表内容

//var_dump($arr_all[0]);

foreach($arr_all[0] as $k => $v){

	// 先去匹配a标签 如果不是a标签直接继续下一个

	preg_match_all('/<a href="(.*)">.*<\/a>/',$v,$v_all);

	if (empty($v_all[1])){// 不是a标签

		continue;

	}

	$title =  strip_tags($v_all[0][0]); //文章标题

	$href = $v_all[1][0];//url

	// 截取当前url的shtml前面的id

	$href_one = substr($href, strrpos($href, '/')+1);

	$href_id = substr($href_one, 0, strpos($href_one, '.'));

	if ($k === 0) {

        $now_max = $href_id;

    }

	if ($href_id <=  $max){ // 只爬大于保存的最大id的数据

		$max = file_put_contents($max_log, $now_max, LOCK_EX); // 爬完之后让maxid更新为最新的

		break;

	}

	// 获取标题缩略图

	preg_match_all('/<img src="(.*)" alt="'.$title.'" \/>/',$res,$title_img);

	$title_img_url = $title_img[1][0];

	if(!file_exists($path)){

		mkdir($path,0755,true);

	}

	$title_img = file_get_contents ("http:{$title_img_url}");

	$cover_img_name = microtime_float().'.jpg';

	file_put_contents($path.$cover_img_name, $title_img);

	$cover_img = '/public/uploads/img/'.date('Y/md',time()).'/'.$cover_img_name; // 标题缩略图位置

	// 获取文章内容

	$article_res = file_get_contents("compress.zlib://".$href);

	//var_dump($article_res);die;

	$article_res = trimall($article_res);

	//var_dump($article_res);die;

	preg_match_all('/<div class="detail">(.*?)<\/div>/',$article_res,$article_all);//文章详情内容

	$text = $article_all[1][0]; // 文章内容

	//var_dump($text);die;

	//筛选图片 并下载到本地

	preg_match_all('/<img .*? src="(.*?)" .*? \/>/',$article_all[1][0],$img_all); //文章详情图片

	//preg_match_all('/<imgalt="创业项目"src="(.*?)"title="创业项目" \/>/',$article_all[0][0],$img_all); //文章详情图片

	//var_dump($img_all[1]);

	foreach($img_all[1] as $key => $value){

		$message_img = file_get_contents ("http:{$value}");

		$message_img_name = microtime_float().'.jpg';

		file_put_contents($path.$message_img_name, $message_img);

		$text = str_replace($value,'/public/uploads/img/'.date('Y/md',time()).'/'.$message_img_name,$text);

	}

	// 去掉【如果还有什么问题点击留言咨询】 和  >>>>想了解更多创业资讯，点击咨询详情 和 其他的a标签

	$text = preg_replace("/<a[^>]*>(.*?)<\/a>/is", "", $text);

	//var_dump($text);die;

	// 入库数据

	$cid = 2;// 1:行业资讯，2：创业故事

	$source = '88加盟网';

	$create_time = time();

	$update_time = time();

	// 入库前转码

	$title = mb_convert_encoding($title,'UTF-8');

	$text = mb_convert_encoding($text,'UTF-8');

	//var_dump($title, $text);

	// 插入数据库

	$sql = "insert into zs_message (cid, title, create_time, update_time, source, cover_img, text) values ($cid, '$title', $create_time, $update_time, '$source', '$cover_img', '$text')";

    $result = mysqli_query($con,$sql);

	if ($result) {

		$msg = "当前抓取的页面url为:{$href},入库sql为:{$sql},结果:入库成功";

	} else {

		$msg = "当前抓取的页面url为:{$href},入库sql为:{$sql},结果:入库失败";

	}

	file_put_contents($message_log, $msg, FILE_APPEND | LOCK_EX);

	file_put_contents($message_log, "\n\r", FILE_APPEND | LOCK_EX);

}

function microtime_float()

{

    list($usec, $sec) = explode(" ", microtime());

    return $sec.substr($usec,2,6);

}

function trimall($str){

    $qian=array("\n","\r");

    return str_replace($qian, '', $str);

}

function curl_get_contents($url,$cookie='',$referer='',$timeout=300,$ishead=0) {

  $curl = curl_init();

  curl_setopt($curl, CURLOPT_RETURNTRANSFER,1);

  curl_setopt($curl, CURLOPT_FOLLOWLOCATION,1);

  curl_setopt($curl, CURLOPT_URL,$url);

  curl_setopt($curl, CURLOPT_TIMEOUT,$timeout);

  curl_setopt($curl, CURLOPT_USERAGENT,'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36');

  if($cookie)

  {

    curl_setopt( $curl, CURLOPT_COOKIE,$cookie);

  }

  if($referer)

  {

    curl_setopt ($curl,CURLOPT_REFERER,$referer);

  }

  $ssl = substr($url, 0, 8) == "https://" ? TRUE : FALSE;

  if ($ssl)

  {

    curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);

    curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);

  }

  $res = curl_exec($curl);

  return $res;

  curl_close($curl);

}

爬虫主要的思路是:用正则去筛选我们爬取我们的页面,然后从列表页获取到的url,再一个个去爬取详情页的内容

注意事项:

如果用file_get_contens去获取内容的话,gzip压缩,会出现乱码的情况

file_get_contents("compress.zlib://".$url);

如是用的curl的话

function curl_get($url, $gzip=false){

        $curl = curl_init($url);

        curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);

        curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 10);

        if($gzip) curl_setopt($curl, CURLOPT_ENCODING, "gzip"); // 关键在这里

        $content = curl_exec($curl);

        curl_close($curl);

        return $content;

}

无论页面是否经过gzip压缩，上述代码都可以正常工作！

参考出处

2.在获取到页面后,在匹配之前,一定要先把字符串中的\r\n空格换行都去掉,在进行匹配,否则会出现匹配为空的情况

function trimall($str){

    $qian=array("\n","\r");

    return str_replace($qian, '', $str);

}

 // 处理页面源码，多行变单行

   $htmlOneLine = preg_replace("/\r|\n|\t/","",$html);

3.去掉文章中的超链接或者将锚文本，只保留文字，去掉链接，去掉加粗格式

$text = preg_replace("/<a[^>]*>(.*?)<\/a>/is", "", $text);//去掉文章中的超链接

$str = preg_replace("/<a[^>]*>(.*?)<\/a>/is", "$1", $str);//只保留文字

4.生成图片的路径和文件名(参考)

$cover_img_name = microtime_float().'.jpg';

$cover_img = '/public/uploads/img/'.date('Y/md',time()).'/'.$cover_img_name;

function microtime_float()

{

    list($usec, $sec) = explode(" ", microtime());

    return $sec.substr($usec,2,6);

}

5.入库的时候,有可能会出现,存入的数据读出来全是???,或者乱码要把页面设置为utf8,数据库设置为utf8

header("Content-Type: text/html;charset=utf-8");

date_default_timezone_set('PRC');

$con = mysqli_connect('127.0.0.1', 'xx', 'xx', 'xx');

mysqli_set_charset($con,'UTF8');

// 入库前转码

$title = mb_convert_encoding($title,'UTF-8');

$text = mb_convert_encoding($text,'UTF-8');

用php写爬虫去爬数据的更多相关文章

开发记录_自学Python写爬虫程序爬取csdn个人博客信息
每天刷开csdn的博客,看到一整个页面,其实对我而言,我只想看看访问量有没有上涨而已... 于是萌生了一个想法: 想写一个爬虫程序把csdn博客上边的访问量和评论数都爬下来. 打算通过网络各种搜集资料 ...
使用selenium爬虫抓取数据
写在前面本来这篇文章该几个月前写的,后来忙着忙着就给忘记了.ps:事多有时候反倒会耽误事.几个月前,记得群里一朋友说想用selenium去爬数据,关于爬数据,一般是模拟访问某些固定网站,将自己关注的 ...
初次尝试python爬虫，爬取小说网站的小说。
本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...
怎么用Python写爬虫抓取网页数据
机器学习首先面临的一个问题就是准备数据,数据的来源大概有这么几种:公司积累数据,购买,交换,政府机构及企业公开的数据,通过爬虫从网上抓取.本篇介绍怎么写一个爬虫从网上抓取公开的数据. 很多语言都可以写 ...
python爬虫25 | 爬取下来的数据怎么保存？ CSV 了解一下
大家好我是小帅b 是一个练习时长两年半的练习生喜欢唱! 跳! rap! 篮球! 敲代码! 装逼! 不好意思我又走错片场了接下来的几篇文章小帅b将告诉你如何将你爬取到的数据保存下来有文本 ...
Python写爬虫-爬甘农大学校新闻
Python写网络爬虫(一) 关于Python: 学过C. 学过C++. 最后还是学Java来吃饭. 一直在Java的小世界里混迹. 有句话说: "Life is short, you ne ...
爬虫爬数据时，post数据乱码解决办法
最近在写一个爬虫,目标网站是:http://zx.bjmemc.com.cn/,可能是为了防止被爬取数据,它给自身数据加了密.用谷歌自带的抓包工具也不能捕获到数据.于是下了Fiddler. F ...
python爬虫16 | 你，快去试试用多进程的方式重新去爬取豆瓣上的电影
我们在之前的文章谈到了高效爬虫在 python 中多线程下的 GIL 锁会让多线程显得有点鸡肋特别是在 CPU 密集型的代码下多线程被 GIL 锁搞得效率不高特别是对于多核的 CPU 来说 ...
爬虫爬数据时，post数据乱码解决的方法
近期在写一个爬虫,目标站点是:http://zx.bjmemc.com.cn/.可能是为了防止被爬取数据,它给自身数据加了密. 用谷歌自带的抓包工具也不能捕获到数据. 于是下了Fiddler. ...

随机推荐

LINUX 文件合并，去重
(1)两个文件的交集,并集前提条件:每个文件中不得有重复行1. 取出两个文件的并集(重复的行只保留一份)cat file1 file2 | sort | uniq > file32. 取出两个文 ...
I2C总线协议详解
I2C总线定义 I2C(Inter-Integrated Circuit)总线是一种由PHILIPS公司开发的两线式串行总线,用于连接微控制器及其外围设备.I2C总线产生于在80年代,最初为音 ...
flysql 里两种传参的方式
传参的方式,两个标清楚: for lists_bx_goods in out_list: sql = XDO().get_update_sql('init_goods_test', { "一 ...
将windows下的文件上传到Linux服务器上
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明.本文链接:https://blog.csdn.net/lx_Frolf/article/deta ...
在BUG分支下创建分支,开发后合并到bus分支
在BUG分支下创建分支 1.切换到bus分支 2,创建新分支 git checkout -b bugfix/fix_vedio_0627 3,把创建的分支push到远程分支 git push orig ...
EasyUI的datagrid表格行高度增加
这里以easyui的default样式为例: 找到easyui--->themes-->default-->easyui.css-->Ctrl+F找到.datagrid-row ...
select下拉框选中其中一个值
function LoadList123() { var param = { action: "SelectShopType1"};//参数拼接 var Resultstr = & ...
Python 学习笔记12 函数模块
函数的优点之一,使用它们可将代码块与主程序分离.通过给函数指定描述性的名称.可以让主程序非常好理解.但是如果将过多的函数和主程序放置在一起,会让文件显得非常凌乱.太多的代码混杂在一起,不方便管理.我们 ...
APACHE两种域名跳转法简单完成重定向
当我们变更网站域名,或者申请多个域名指向一个网站的时候,这个时候我们就会用到域名跳转(或者叫域名重定向redirect.域名转向).下面用最简单的文字讲两种apache的域名跳转方法. 假设我们想把w ...
js确认末尾字符算法挑战
检查一个字符串(str)是否以指定的字符串(target)结尾. 如果是,返回true;如果不是,返回false. 这个挑战可以通过在ES2015中引入的.endsWith()方法来解决.但是出于这个 ...

用php写爬虫去爬数据

用php写爬虫去爬数据的更多相关文章

随机推荐

热门专题