BS4爬虫实例应用-CISP

爬取目前在官网可查询的CISP证书编号以及有效期并入库

也算是暴力破解，burp使用grep功能呢也可以实现。

下面是python的代码

#coding=utf-8

import requests

import sys

from bs4 import BeautifulSoup

#demourl='http://www.itsec.gov.cn/export/sites/itsec/person/peregester/CNITSEC2012CISE01098/'

counter = 1

for i in range(2000,2017):

    for t in ['CISE','CISA','CISO','CISM','CISE-E','CISO-E','CISM-E','CISA-E','CISP-Auditor']:

        for j in range(10000):

            SNum = "CNITSEC"+str(i)+t+""+str(j).zfill(4)

            url = "http://www.itsec.gov.cn/export/sites/itsec/person/peregester/%s/"% SNum

            print counter , SNum ,'  Checking .........'

            try:

                res = requests.get(url)

                res.encoding = 'utf-8'

                soup = BeautifulSoup(res.text,'html.parser')

                clength   = res.headers['content-length']

                if 200<= int(res.status_code) <=210 :

                    itsecid   = soup.select('.detail_title')[0].text.encode('gb2312','ignore').strip()

                    starttime = soup.select('.tdm')[0].text.encode('utf-8','ignore').strip().replace("\n","").replace("                ","")

                    endtime   = soup.select('.tdm')[1].text.encode('utf-8','ignore').strip().replace("\n","").replace("                ","")

                    username  = soup.select('.tdm')[2].text.encode('utf-8','ignore').strip()

                    authlevel = soup.select('.tdm')[3].text.encode('utf-8','ignore').strip()

                    print clength

                    print itsecid

                    print starttime

                    print endtime

                    print username

                    print authlevel

                    with open('cispall.txt','a') as f:

                        f.writelines("%s%s%s%s%s  %s\n"%(itsecid,starttime,endtime,username,authlevel,clength))

                else:

                    print SNum ,'Non-existent ########'

                counter+=1

            except:

                info=sys.exc_info()

                print 'except error'

                print info[0],":",info[1]

过程：

根据分割特点可入库存储

BS4爬虫实例应用-CISP的更多相关文章

Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
python爬虫实例——爬取歌单
学习自<<从零开始学python网络爬虫>> 爬取酷狗歌单,保存入csv文件直接上源代码:(含注释) import requests #用于请求网页获取网页数据 from b ...
Python 多进程爬虫实例
Python 多进程爬虫实例 import json import re import time from multiprocessing import Pool import requests f ...
python3.4学习笔记(十三) 网络爬虫实例代码，使用pyspider抓取多牛投资吧里面的文章信息，抓取政府网新闻内容
python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI,采用Python语言编写 ...
python3.4学习笔记(十四) 网络爬虫实例代码，抓取新浪爱彩双色球开奖数据实例
python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例新浪爱彩双色球开奖数据URL:http://zst.aicai.com/ssq/openInfo/ 最终输出结果格 ...
Python 爬虫实例
下面是我写的一个简单爬虫实例 1.定义函数读取html网页的源代码 2.从源代码通过正则表达式挑选出自己需要获取的内容 3.序列中的htm依次写到d盘 #!/usr/bin/python import ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python 利用Python编写简单网络爬虫实例3
利用Python编写简单网络爬虫实例3 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错实验目的获取目标网站“http://bbs.51testing. ...

随机推荐

Spring入门一----HelloWorld
知识点: 简介 HelloWorld 简介: 百度百科 HelloWorld 项目结构图: 导入Spring支持包: 然后选中所有包,右键Build Path à Add to Buil ...
struts2学习(14)struts2文件上传和下载（4）多个文件上传和下载
四.多个文件上传: 五.struts2文件下载: 多个文件上传action com.cy.action.FilesUploadAction.java: package com.cy.action; i ...
52道Python面试题
1.python中is和==的区别 Python中对象包含的三个基本要素,分别是:id(身份标识) .type(数据类型)和value(值).‘==’比较的是value值‘is’比较的是id 2.简述 ...
Linux中常用的查找文件的命令
我们经常在linux要查找某个文件,但不知道放在哪里了,可以使用下面的一些命令来搜索.这些是从网上找到的资料(参考资料1),因为有时很长时间不会用到,当要用的时候经常弄混了,所以放到这里方便使用. w ...
Linux下干净卸载mysql详解
转自:http://blog.csdn.net/tjcyjd/article/details/52189182 1.使用以下命令查看当前安装mysql情况 rpm -qa|grep -i mysql ...
node的模块管理
/* *一:从node_modules目录中加载模块; * 向这样的写法: * require("aa.js") * 则node将aa.js文件视为node_modules目录下的 ...
使用 Windows 运行时中异步性来始终保持应用程序能够快速流畅地运行
转自:http://blogs.msdn.com/b/windowsappdev_cn/archive/2012/03/26/windows.aspx 人类的思维方式在本质上不是同步的,这直接影响着我 ...
pickle示例
my_pickle.py---------------------- #!/usr/bin/env python # encoding: utf-8 # Date: 2018/6/3import p ...
Linux 下实现锐捷验证的方式
准备工作:下载mentohust并安装步骤: 1.打开终端,输入sudo mentohust 2.配置相关参数,网卡选第一个,用户名密码自己输入,类型选锐捷私有,DHCP选认证前.完成后回车即可通过 ...
第6章Zabbix分布式监控
Zabbix是一个分布式的监控系统.分布式监控适合跨机房.跨地域的网络监控.从多个Proxy收集数据,而每个Proxy可以采集多个设备的数据,从而轻松地构建分布式监控系统. ZabbixProxy可以 ...

BS4爬虫实例应用-CISP

BS4爬虫实例应用-CISP的更多相关文章

随机推荐

热门专题