用python查看网站被百度所有收录网址与标题进行SEO分析

SEO要是和python数据分析联合在一起，可谓是很好的方法，没事的时候尝试写的分析网站被百度收录的网址和标题。

首先得引入两个py模块，分别是：Beautiful Souprequests

没有下载这两个模块的可以用以下命令下载：

pip install BeautifulSoup

pip install requests

#!/usr/bin/env python

# -*- coding:utf-8 -*-

'''

百度收录网址标题查询

'''

 

import requests

from random import randint

from bs4 import BeautifulSoup

import re

import datetime

import sys

 

reload(sys)

sys.setdefaultencoding("utf-8")

 

HEADERS = {

        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36",

        "X-Forwarded-For": '%s:%s:%s:%s' % (randint(1, 255),

                                                                                randint(1, 255), randint(1, 255), randint(1, 255)),

        "Content-Type": "application/x-www-form-urlencoded",

        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",

        "Connection": "keep-alive"}

 

# print HEADERS

start_time = datetime.datetime.now()  # 取当前时间

print (u'[-] 现在时间：%s') % start_time

 

for pn in range(0, 750, 10):

        print ('第【%s】页')%pn

        url_a = 'https://www.baidu.com/s?wd=site%3Azhimo.yuanzhumuban.cc&rsv_spt=1&rsv_iqid=0xac952cfa0005be29&issp=1&f=8&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&rsv_sug3=1'

        joinUrl = url_a + str(pn) + url_b

        # print joinUrl   #拼接URL

        html_Doc = requests.get(joinUrl, headers=HEADERS).content  # 从Url 中取回网站源码

        html_Soup = BeautifulSoup(html_Doc, 'html.parser', from_encoding='utf-8')

        all_H3 = html_Soup.findAll('h3', attrs={'class': 't'})  # 取所有H3标签中class为t的所有元系

        print (u'[+] 此页共找到%s条数据!') % len(all_H3)

 

        for each in all_H3[0:]:

                # print each

                link = re.findall(r'" href="(.*?)" target="_blank">.*?</a></h3>', str(each), re.S)

                title = re.findall(r'" href=".*?" target="_blank">(.*?)</a>', str(each), re.S)

                print '[-] 标题：%s 链接：%s'%(str(title[0]), str(link[0]))

用python查看网站被百度所有收录网址与标题进行SEO分析的更多相关文章

python查看网站的RTT
import requests time=0.0 jpserver=['jp1.herejump.com','jp1.herejump.com','jp1.herejump.com'] usserve ...
百度优先收录HTTPS网站？你的网站https还在等什么
2015年5月25日,百度站长平台发布的公告,称将正式开放对HTTPS站点的收录.开始优先抓取HTTPS站点.所有事情都有两面性,这个消息对于已经到HTTPS的网站来说是个喜大普奔的好消息.对于需要 ...
SEO：查找网站的百度收录情况和如何让百度快速收录
查询收录的工具地址: http://tool.chinaz.com/baidu/entry/ 如何让百度快速收录: 一.大家都熟知的百度网站提交,只需要提交网站的首页即可.以前做完这一步就被百度收录的 ...
phpcms的后台网站直接访问正常，百度快照收录链接访问跳转到非法网站
问题: phpcms制作的网站直接访问正常,百度快照收录链接访问跳转到非法网站百度快照收录网站域名,访问时自动跳转到一个非法网站检查静态页index.html,index.php 网页内引用 ...
Python识别网站验证码
http://drops.wooyun.org/tips/6313 Python识别网站验证码 Manning · 2015/05/28 10:57 0x00 识别涉及技术验证码识别涉及很多方面的内 ...
网站被百度和google封了，怎么办？
很多站长总是抱着侥幸的心里,通过作弊的方式在搜索引擎上获得一定排名,以致于网站被百度和google封了,也就是所谓的被K站. 那么,要是网站被百度和Google封了,怎么办? 首先要确定你的网站已经被 ...
python 查看目录下所有目录和文件
python查看目录下所有的子目录和子文件 python递归遍历目录结构我喜欢第一种方法1 import json, os def list_dir(path, res): for i in os ...
Python编程初学者指南|百度网盘免费下载|Python新手入门资料
Python编程初学者指南|百度网盘免费下载提取码:9ozx 目录 · · · · · · 第1章启程:Game Over程序1.1 剖析Game Over程序1.2 Python简介1.2.1 ...
《精通Python网络爬虫》|百度网盘免费下载|Python爬虫实战
<精通Python网络爬虫>|百度网盘免费下载|Python爬虫实战提取码:7wr5 内容简介为什么写这本书网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中.在搜索引 ...

随机推荐

npm创建angular项目
1.首先保证你本地的 node 环境是ok的哦. 2.安装 angular-cli 命令 npm install -g @angular/cli.安装完成后,ng version 查看版本, ...
sql 表的连接 inner join、full join、left join、right join、natural join
一.内连接-inner jion : SELECT * FROM table1 INNER JOIN table2 ON table1.field1 compopr table2.field2 INN ...
运行报错：'_TestResult' object has no attribute 'outputBuffer'
一.运行main函数,未生成测试报告,报错:'_TestResult' object has no attribute 'outputBuffer' 解决方式: 1.在HTMLTestReportCN ...
REST framework之URL控制
REST framework之URL控制一自定义路由 1.1 原始方式 from django.conf.urls import url from app01 import views urlpa ...
kubernetes 实践三：使用kubeadm安装k8s1.16.0
环境版本说明: 三台vmware虚拟机,系统版本CentOS7.6. Kubernetes 1.16.0,当前最新版. flannel v0.11 docker 18.09 使用kubeadm可以简单 ...
MOOC web前端开发笔记（二）
HTML HTML概述 HTML(HyperText MarkUp Language) "超文本标记语言",以标签的形式规定网页结构,它是制作网页的标准语言 HTML不区分大小写 ...
sql group by hour 按小时分组统计
Time字段以小时分组统计 select datepart(hour,time) hour,count(1) count from table where Similarity<75 group ...
Ubuntu 18.04 LTS版本 GIMP安装
为何安装? GIMP全称GNU Image Manipulation Program,是Linux下的一款图片处理软件,功能基本完备,用户体验不错. 如何安装? 命令:sudo apt install ...
能够提高PHP的性能的一些注意事项
1. 如果能将类的方法定义成static,就尽量定义成static,它的速度会提升将近4倍.(静态类调用属性和方法,只可以调用静态属性和方法.self::方法名().self::属性名.只有实例化 ...
python day 8: re模块补充，导入模块,hashlib模块，字符串格式化，模块知识拾遗，requests模块初识
目录 python day 8 1. re模块补充 2. import模块导入 3. os模块 4. hashlib模块 5. 字符串格式:百分号法与format方法 6. 模块知识拾遗 7. req ...

用python查看网站被百度所有收录网址与标题进行SEO分析

用python查看网站被百度所有收录网址与标题进行SEO分析的更多相关文章

随机推荐

热门专题