php 扫描url死链接
* 从Packagist上搜索需要的包
https://packagist.org/
* 通过composer下载依赖包
- composer require guzzlehttp/guzzle
- composer require league/csv
* 使用composer自动加载器, 编写scan.php
- <?php
- // 1. 使用composer自动加载器
- require 'vendor/autoload.php';
- use GuzzleHttp\RequestOptions;
- // 2. 实例Guzzle HTTP客户端
- $client = new \GuzzleHttp\Client();
- $options = [
- RequestOptions::TIMEOUT => 3,
- RequestOptions::DECODE_CONTENT => false,
- RequestOptions::HEADERS => [
- 'User-Agent' => 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
- ]
- ];
- // 3. 打开迭代处理csv
- // 或者传用户自定义命令行参数指定输入文件 $argv[1]
- // $file = new SplFileObject('../data/t_video.csv'); /* $csvRow[4], $csvRow[5] */
- $file = new SplFileObject('../data/urls.csv');
- $csv = \League\Csv\Reader::createFromFileObject($file);
- foreach ($csv as $csvRow) {
- $url = $csvRow[0];
- echo 'scanning ',$url,'... ';
- try {
- // 4. 发送http options请求
- $httpResponse = $client->request('GET', $url, $options);
- // 5. 检查http相应的状态码
- $code = $httpResponse->getStatusCode();
- if ($code === 200) {
- echo "\033[32m[OK]\033[0m",PHP_EOL;
- } else {
- throw new \Exception();
- }
- } catch (\Exception $e) {
- // 6. 把死链发给标准输出
- // echo $url.PHP_EOL;
- echo "\033[31m[ERROR]\033[0m ".$e->getMessage().PHP_EOL;
- }
- }
* input csv:
../data/urls.csv
- https://www.baidu.com
- https://mail.qq.com/cgi-bin/frame_html?sid=CYcBjsDbOqznWhVO&r=375cccc57697ed7d00ae5d751663a71c
- https://pan.baidu.com/disk/home?errno=0&errmsg=Auth%20Login%20Sucess&&bduss=&ssnerror=0&traceid=#/all?vmode=list&path=%2F05.php%2F25K%20PHP%E9%9D%A2%E8%AF%95%E8%A7%86%E9%A2%91%E6%95%99%E7%A8%8B
- http://dict.youdao.com/w/eng/components/#keyfrom=dict2.index
- http://php.net/manual/en/splfileobject.fwrite.php
- https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=2&tn=baiduhome_pg&wd=ansi%20%E7%BB%88%E7%AB%AF%E9%A2%9C%E8%89%B2%20%5B%5C33&rsv_spt=1&oq=ansi%2520%25E7%25BB%2588%25E7%25AB%25AF%25E9%25A2%259C%25E8%2589%25B2&rsv_pq=8b17bd6e0027882b&rsv_t=fcf6oR2SbHi9Cpu2eThdv3AQvGwSDf7ecjv7QBvjXoZ3SMpBem3pdNzlNRNmuOW%2BEowe&rqlang=cn&rsv_enter=1&inputT=2640&rsv_sug3=68&rsv_sug2=0&rsv_sug4=3243
- https://blog.csdn.net/SLASH_24/article/details/54846392
- https://www.jb51.net/article/42358.htm
- https://www.cnblogs.com/xudong-bupt/p/3721210.html
- http://www.cnblogs.com/mingzhanghui/p/9314906.html
- https://packagist.org/packages/maatwebsite/excel
- https://www.phptherightway.com/#use_the_current_stable_version
- https://doc.phpspider.org/methods.html
- http://nosuchurl
- http://deadurl
output:
* 在Linux终端输出带颜色的文字的方法
注意 echo "" 要用双引号, 单引号会原样输出 \033[32mxxx\033[0m
一、shell下的实现方法
\033[0m 关闭所有属性
\033[1m 设置高亮度
\033[4m 下划线
\033[5m 闪烁
\033[7m 反显
\033[8m 消隐
\033[30m 至 \33[37m 设置前景色
\033[40m 至 \33[47m 设置背景色
\033[nA 光标上移n行
\033[nB 光标下移n行
\033[nC 光标右移n行
\033[nD 光标左移n行
\033[y;xH设置光标位置
\033[2J 清屏
\033[K 清除从光标到行尾的内容
\033[s 保存光标位置
\033[u 恢复光标位置
\033[?25l 隐藏光标
\033[?25h 显示光标
各数字所代表的颜色如下:
字背景颜色范围:40----49
40:黑
41:深红
42:绿
43:黄色
44:蓝色
45:紫色
46:深绿
47:白色
字颜色:30----39
30:黑
31:红
32:绿
33:黄
34:蓝色
35:紫色
36:深绿
37:白色
===================================================================================
php 命令行脚本
http://php.net/manual/en/wrappers.php.php
http://php.net/manual/en/reserved.variables.argv.php
http://php.net/manual/en/reserved.variables.argc.php
====================================================================================
scanner.php
不在终端打印 返回数组
- 1 <?php
- 2 /**
- 3 * Created by PhpStorm.
- 4 * User: Mch
- 5 * Date: 7/17/18
- 6 * Time: 21:34
- 7 */
- 8 namespace Tsinghuadtv\ModernPHP\Url;
- 9
- 10 // composer require guzzlehttp/guzzle
- 11 require 'vendor/autoload.php';
- 12
- 13 use GuzzleHttp\RequestOptions;
- 14
- 15 class Sanner {
- 16 protected $urls;
- 17
- 18 protected $httpClient;
- 19
- 20 protected $options = [
- 21 RequestOptions::VERSION => 1.1,
- 22 RequestOptions::TIMEOUT => 3,
- 23 RequestOptions::DECODE_CONTENT => false,
- 24 RequestOptions::HEADERS => [
- 25 'User-Agent' => 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'
- 26 ]
- 27 ];
- 28
- 29 public function __construct(array $urls) {
- 30 $this->urls = $urls;
- 31 $this->httpClient = new \GuzzleHttp\Client();
- 32 }
- 33
- 34 public function getInvalidUrls() {
- 35 $invalidUrls = [];
- 36 foreach ($this->urls as $url) {
- 37 try {
- 38 $statusCode = $this->getStatusCodeForUrl($url);
- 39 } catch (\Exception $e) {
- 40 $statusCode = 500;
- 41 }
- 42 if ($statusCode >= 400) {
- 43 array_push($invalidUrls, [
- 44 'url' => $url,
- 45 'status' => $statusCode
- 46 ]);
- 47 }
- 48 }
- 49 return $invalidUrls;
- 50 }
- 51
- 52 protected function getStatusCodeForUrl($url) {
- 53 $httpResponse = $this->httpClient->request('get', $url, $this->options);
- 54 return $httpResponse->getStatusCode();
- 55 }
- 56
- 57 }
scanner.php
调用scanner.php测试
假设这个包提交到 modernphp/scanner https://packagist.org
composer require modernphp/scanner
- 1 <?php
- 2 /**
- 3 * Created by PhpStorm.
- 4 * User: Mch
- 5 * Date: 7/17/18
- 6 * Time: 21:41
- 7 */
- 8 // require 'vendor/autoload.php';
- 9 include 'scanner.php';
- 10
- 11 $urls = [
- 12 'http://www.apple.com',
- 13 'http://nosuchurl',
- 14 'https://www.cnblogs.com/mingzhanghui/p/9317179.html',
- 15 'https://www.baidu.com',
- 16 'http://jp2.php.net',
- 17 'http://sdfssdwerw.org'
- 18 ];
- 19
- 20 $scanner = new \Tsinghuadtv\ModernPHP\Url\Sanner($urls);
- 21 print_r($scanner->getInvalidUrls());
index.php
output:
Array (
[0] => Array ([url] => http://nosuchurl [status] => 500 )
[1] => Array([url] => http://sdfssdwerw.org [status] => 500 )
)
php 扫描url死链接的更多相关文章
- php 扫描url死链接 \033[31m ANSI Linux终端输出带颜色
* 从Packagist上搜索需要的包 https://packagist.org/ * 通过composer下载依赖包 composer require guzzlehttp/guzzlecompo ...
- 常用工具篇(二)死链接扫描工具–Xenu
一个网站上线一段时间之后,可能出现很多的死链接,死链接就是那些打不开的链接,或者是请求是404的,可能是因为有的文件位置移动了,或者有的功能不好使了,可能会影响我们网的功能,我们就要隔一阵扫描一下网站 ...
- 死链接检查工具:Xenu 使用教程
一.软件作用 Xenu 全称Xenu’s Link Sleuth,是一款英文软件,界面单一,功能简单,使用方法很容易掌握.虽然看起来简单,但Xenu却拥有强大的功能.Xenu可以对网站的内链进行详细的 ...
- Xenu-web开发死链接检測工具应用
Xenu 是一款深受业界好评,并被广泛使用的死链接检測工具. 时常检測站点并排除死链接,对站点的SEO 很重要,由于大量死链接存在会减少用户和搜索引擎对站点的信任,web程序开发者还可通过其找到死链接 ...
- Xenu-web开发死链接检测工具应用
Xenu 是一款深受业界好评,并被广泛使用的死链接检测工具. 时常检测网站并排除死链接,对网站的SEO 非常重要,因为大量死链接存在会降低用户和搜索引擎对网站的信任,web程序开发人员还可通过其找到死 ...
- 基于Python实现的死链接自动化检测工具
基于Python实现的死链接自动化检测工具 by:授客 QQ:1033553122 测试环境: win7 python 3.3.2 chardet 2.3.0 脚本作用: 检测系统中访问异常(请求 ...
- 整站死链接检测与查询工具 Xenu(可以用来制作sitemap)
http://www.wocaoseo.com/thread-286-1-1.html 很多新手朋友们都会去找一些工具来检查网站死链接,这里给大家分享一款非常好用的检查网站死链接的工具xenu,大家可 ...
- 最佳死链接href= "#" VS href= "javascript:void(0);"
href= "#" 熟悉hash跳转的同学都知道,只是一个hash跳转,跳转到页面的顶部,可以发现地址栏多了一个#,点击返回会返回本页面. href= "javascri ...
- mmz-asio4delphi死链接的解决办法
最近一段时间,因为忙于网络的项目,特意到网上找了些例子,特意花时间研究了一下马敏钊写的 mmz-asio4delphi 感觉很好用,不过深入研究之后,发现一个问题. 马大的这个代码,会产生死链接. ...
随机推荐
- 一篇文章让你搞懂如何通过Nginx来解决跨域问题
Nginx跨域实现 首先大家要搞清楚什么是跨域,为什么会有跨域情况的出现.哪些情况属于跨域? 跨域:由于浏览器的同源策略,即属于不同域的页面之间不能相互访问各自的页面内容 注:同源策略,单说来就是 ...
- nuxt.js服务端渲染中less的配置和使用
第一步:npm 安装 less 和 less-loader ,文件根目录下安装,指令如下 npm install less less-loader --save-dev 第二步:直接在组件中使用 &l ...
- Linux下的Shell工作原理
Linux下的Shell工作原理 Linux系统提供给用户的最重要的系统程序是Shell命令语言解释程序.它不属于内核部分,而是在核心之外,以用户态方式运行.其基本功能是解释并执行用户打入的各种命令, ...
- Javascript - Vue - 在vscode里使用webpack
cnpm(node package manager)和webpack模块 npm是运行在node.js环境下的包管理工具,使用npm可以很快速的安装前端文件里需要依赖的那些项目文件,比如js.css文 ...
- 统计MySQL数据库硬盘占用量大小
select TABLE_NAME, concat(truncate(data_length/1024/1024,2),' MB') as data_size, concat(truncate(ind ...
- Mybatis简单应用
Mybatis的核心组件: SqlSeeeionFactoryBuilder (构建器):它会根据配置或者代码来生成SqlSessionFactory,采用的是分布构建的Builder模式: SqlS ...
- 使用dom4工具:增删改xml文件(七)
package dom4j_write; import java.io.File; import java.io.FileOutputStream; import org.dom4j.Attribut ...
- Java程序设计学习笔记(三)—— IO
时间:2016-3-24 11:02 --IO流(Input/Output) IO流用来处理设备之间的数据传输. Java对数据的操作是通过流的方式. Java对于操作流的对象都在 ...
- WIN10 64bit + QT5.10.0(MinGW3.5.0) + OpenCV3.4.1 无痛安装、配置
安装QT和配置MinGW 官方下载qt-opensource-windows-x86-5.10.0.exe 正常步骤安装QT5.10.0,安装过程选择自带的MinGW3.5.0编译器即可. 打开QtC ...
- Qt之文件操作
虽然文件操作是一项很常用的功能,但是总记不住,今天就干脆记了一下笔记,以后好查阅. 在Qt中,主要使用的是QFile类进行文件操作,因此要包括#include <QFile>头文件.下面就 ...