查询被收录页面中的死链接 By SEO

朋友说他的站挂了，想知道被收录的页面有多少是死链，于是我就想了一下流程，从Site获得收录数量当然是不精准的，不过也没有更好的地了，真实的收录只有搜索引擎数据库里面才有。。。

查询被收录页面的状态码，流程：获取收录网址 > 解析真实URL > 获取状态码

不过执行起来比较慢，不知道是BeautifulSoup还是 Location 获取真实URL地址这步慢了

#coding:utf-8

import urllib2,re,requests

from bs4 import BeautifulSoup as bs

domain = 'www.123.com'    #要查询的域名

page_num = 10 * 10     #第一个数字为要抓取的页数

def gethtml(url):

    headers = {

        'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

        # 'Accept-Encoding':'gzip, deflate, sdch',

        'Accept-Language':'zh-CN,zh;q=0.8',

        'Cache-Control':'max-age=0',

        'Connection':'keep-alive',

        'Cookie':'BDUSS=ng4UFVyUUpWU2hUR2R3b3hKamtpaE9ocW40LTFZcGdWeDBjbXkzdE83eDJQSE5YQVFBQUFBJCQAAAAAAAAAAAEAAADD3IYSamFjazE1NDUAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAHavS1d2r0tXa; ispeed_lsm=2; PSTM=1465195705; BIDUPSID=2274339847BBF9B1E97DA3ECE6469761; H_WISE_SIDS=102907_106764_106364_101556_100121_102478_102628_106368_103569_106502_106349_106665_106589_104341_106323_104000_104613_104638_106071_106599_106795; BAIDUID=D94A8DE66CF701AB5C3332B1BF883DDC:FG=1; BDSFRCVID=UEusJeC62m80hjJRoxzDhboaBeKaL6vTH6aIa6lTlb9Zx-72yRF7EG0PfOlQpYD-d1GyogKK3gOTH4jP; H_BDCLCKID_SF=fR-foIPbtKvSq5rvKbOEhPCX-fvQh4JXHD7yWCvG3455OR5Jj65Ve58JM46N2bvE3IbaWbjP5lvH8KQC3MA--fF_jxvn2PD8yj-L_KoXLqLbsq0x0-jchh_QWt8LKToxMCOMahkb5h7xOKbF056jK4JKjH0qt5cP; SIGNIN_UC=70a2711cf1d3d9b1a82d2f87d633bd8a02157232777; BD_HOME=1; BD_UPN=12314353; sug=3; sugstore=1; ORIGIN=0; bdime=0; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; H_PS_645EC=a5cfUippkbo0uQPU%2F4QbUFVCqXu4W9g5gr5yrxTnJT10%2FElVEvJBbeyjWJq8QUHgepjd; BD_CK_SAM=1; BDSVRTM=323; H_PS_PSSID=1434_20317_12896_20076_19860_17001_15506_11866; __bsi=16130066511508055252_00_0_I_R_326_0303_C02F_N_I_I_0',

        # 'Host':'www.baidu.com',

        'Upgrade-Insecure-Requests':'',

        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36',

    }

    req = urllib2.Request(url=url,headers=headers)

    html = urllib2.urlopen(req,timeout = 30).read()

    return html

def status(url):    #返回状态码

    status = requests.get(url).status_code

    return status

status_file = open('url_status.txt','a+')

for i in range(10,page_num,10):

    url = 'https://www.baidu.com/s?wd=site%3A' + domain + '&pn=' + str(i)

    html = gethtml(url)

    soup = bs(html,"lxml")

    for i in soup.select('.c-showurl'):

        # print i.get('href')

        urls = i.get('href')

        # url_list.append(urls)

        header = requests.head(urls).headers

        header_url = header['location']    #获取真实URL

        if int(status(header_url)) == 404:

            print status(header_url),header_url    #打印状态码和真实URL

            status_file.write(str(status(header_url)) + ' ' + header_url + '\n')    #获取的状态码和链接写入文件

status_file.close()

#获取状态码函数

借鉴的代码段

#coding: utf-8

import sys

import urllib

import urllib2

from BeautifulSoup import BeautifulSoup

question_word = "吃货 程序员"

url = "http://www.baidu.com/s?wd=" + urllib.quote(question_word.decode(sys.stdin.encoding).encode('gbk'))

htmlpage = urllib2.urlopen(url).read()

soup = BeautifulSoup(htmlpage)

print len(soup.findAll("table", {"class": "result"}))

for result_table in soup.findAll("table", {"class": "result"}):

    a_click = result_table.find("a")

    print "-----标题----\n" + a_click.renderContents()#标题

    print "----链接----\n" + str(a_click.get("href"))#链接

    print "----描述----\n" + result_table.find("div", {"class": "c-abstract"}).renderContents()#描述

    print

查询被收录页面中的死链接 By SEO的更多相关文章

整站死链接检测与查询工具 Xenu（可以用来制作sitemap）
http://www.wocaoseo.com/thread-286-1-1.html 很多新手朋友们都会去找一些工具来检查网站死链接,这里给大家分享一款非常好用的检查网站死链接的工具xenu,大家可 ...
使用PHP的正则抓取页面中的网址
最近有一个任务,从页面中抓取页面中所有的链接,当然使用PHP正则表达式是最方便的办法.要写出正则表达式,就要先总结出模式,那么页面中的链接会有几种形式呢? 链接也就是超级链接,是从一个元素(文字. ...
HTML <base> 标签为页面上的所有链接规定默认地址或默认目标
定义和用法 <base> 标签为页面上的所有链接规定默认地址或默认目标. 通常情况下,浏览器会从当前文档的 URL 中提取相应的元素来填写相对 URL 中的空白. 使用 <base& ...
常用工具篇（二）死链接扫描工具–Xenu
一个网站上线一段时间之后,可能出现很多的死链接,死链接就是那些打不开的链接,或者是请求是404的,可能是因为有的文件位置移动了,或者有的功能不好使了,可能会影响我们网的功能,我们就要隔一阵扫描一下网站 ...
数据库中的记录通过servlet回显到jsp页面中（连接数据库或者查询參照:对数据进行增删改查）
我们常常会用到通过图书的名称来查询图书那么这种话我们也就会使用到从数据库中搜索出数据而且载入到自己的Jsp页面中这种话我们须要将从数据库中获取到的数据放进响应中然后通过%=request.getAt ...
Android 通过URL scheme 实现点击浏览器中的URL链接，启动特定的App，并调转页面传递参数
点击浏览器中的URL链接,启动特定的App. 首先做成HTML的页面,页面内容格式如下: <a href="[scheme]://[host]/[path]?[query]" ...
H5小技巧之——巧用<a>标签锚链接（#锚点链接 #页面特定位置 #DOM定位 #hash路由中使用锚链接）
#作者:矩阵鱼--代码中游泳的咸鱼前端开发中,常遇到定位到页面某特定位置的需求,JavaScript提供的el.scrollIntoView() 和 el.scrollIntoViewIfNeede ...
在某网站的登录页面登录时如果选择“记住用户名”,登录成功后会跳转到一个中间层（页面代码将登录的用户名和密码存在cookie）,中间页面中存在一个超链接，单击超链接可以链接到第三个页面查看信息。若选择“
Response实现登录并记录用户名和密码信息在某网站的登录页面登录时如果选择"记住用户名",登录成功后会跳转到一个中间层(页面代码将登录的用户名和密码存在cookie),中间页 ...
使用内链接（A a inner join B b on a.xx = b.xx）查询2个表中某一列的相同的字段。
这里一句代码就是查询2个表中某一列的相同,可是查询出来之后B表因为有很多重复的id数据,然而查询出来的数据需要插入到临时表中,临时表的oid是不允许有重复的, 因此需要用到 distinct 函数来取 ...

随机推荐

深入浅出Redis-redis底层数据结构（下）
概述: 学习使用Redis,其实并不需要去研究其底层数据的实现.我们只需要了解他有哪些常用的数据类型,然后熟练使用,就可以很好的掌握Redis 这个工具了.但是这样的学习方法只适合Redis 的入门, ...
Swift Array copy 的线程安全问题
Swift Array copy 的线程安全问题 NSArray 继承自 NSObject,属于对象,有 copy 方法.Swift 的 Array 是 struct,没有 copy 方法.把一个 A ...
浅谈linux读写同步机制RCU
RCU是linux系统的一种读写同步机制,说到底他也是一种内核同步的手段,本问就RCU概率和实现机制,给出笔者的理解. [RCU概率] 我们先看下内核文档中对RCU的定义: RCU is a sync ...
hdu1040
#include<stdio.h>#include<stdlib.h>int a[100];int cmp(const void *a,const void *b){ retu ...
ORA-01940无法删除当前已连接用户
原文地址:ORA-01940无法删除当前已连接用户作者:1736188794 1)查看用户的连接状况 select username,sid,serial# from v$session ------ ...
.PHP后缀大写导致Linux下Composer找不到类
在本地Windows写完一个Composer包,上传到Linux报错找不到类,纠结了一下午,最后发现是.PHP后缀大写导致的问题. mv Google2FA.PHP Google2FA.php
Cstring 的用法
CString位于头文件afx.h中. 这篇文章就来讨论这些技巧. 使用CString可以让你对字符串的操作更加直截了当.这篇文章不是CString的完全手册,但囊括了大部分常见基本问题. 这篇文章包 ...
Elasticsearch 5.0 安装 Search Guard 5 插件（五）
一.Search Guard 简介 Search Guard 是 Elasticsearch 的安全插件.它为后端系统(如LDAP或Kerberos)提供身份验证和授权,并向Elasticsearc ...
mac下使用 versions版本控制工具修复游戏bug过程
1,首先拥有游戏源代码文件,修复bug之前先使用versions工具进行更新: 2,查找指定的bug之前,先运行游戏,在源代码中觉得是bug的地方打个断点,然后运行游戏的对应有bug的地方,看是否会有 ...
node-canvas
1.使用之前需要预先安装 Cairo 本人安装遇到各种各样的坑,可以参考这里来填坑:https://github.com/Automattic/node-canvas/wiki/Installati ...

查询被收录页面中的死链接 By SEO

查询被收录页面中的死链接 By SEO的更多相关文章

随机推荐

热门专题