crawler_exa3

优化中...

#! /usr/bin/env python

# -*- coding:utf-8 -*-

# Author: Tdcqma

'''

v1.0:

    由于网站结构存在变更的可能性，一旦爬虫爬取的页面发生变化则会影响正则表达式的匹配，导致爬虫失效。

为了解决这个问题重新架构该爬虫，新的爬虫将分3个部分，即：

    【1】信息收集：一旦网站结构发生变化只需要更改此部分的正则表达式即可，收集的信息需要保存至一个嵌套列表中。

    【2】信息筛选：即使网站结构发生变化也不需要变更此部分。

    【3】信息发送：即使网站结构发生变化也不需要变更此部分。

'''

import urllib.request

import ssl,re

import smtplib,email

import datetime

# ---------------------------------------------

# 【1】信息收集，正则表达匹配网站信息，包括date、title、url等，

#      将所有信息保存至sec_all_list列表中

# ---------------------------------------------

# 指定以当前日期(年月日格式)为搜索条件

#today = str(datetime.date.today())

today = "2017-09-25"    # 临时指定测试时间

str_domain = "http://www.nsfocus.net"

sec_all_list = []   # 收集所有漏洞信息并保存在列表中

# 因一天的漏洞个数可能要占用好几个网站页面，所以指定被扫描网站需要扫描的网页数范围，默认读取10页

for i in range(10):

    url = "http://www.nsfocus.net/index.php?act=sec_bug&type_id=&os=&keyword=&page=%s" % (i+1)

    request = urllib.request.Request(url)

    # 当尝试访问https开始当站点时，设置全局取消SSL证书验证

    ssl._create_default_https_context = ssl._create_unverified_context

    response = urllib.request.urlopen(request)

    data = response.read().decode('utf-8')

    if today in data:

        # 用于匹配内容的正则表达式部分

        str_re = "<.*" + today + ".*"

        res = re.findall(str_re, data)

        for line in res:

            sec_sub_list = []  # 收集单独的漏洞信息

            # 收集漏洞标题

            title_craw = re.findall("/vulndb/\d+.*</a>", line)  # 获取标题

            title = title_craw[0][15:-4]

            sec_sub_list.append(title)

            # 收集漏洞url

            url_craw = re.findall("/vulndb/\d+", line)  # 获取链接

            sub_url = str_domain + url_craw[0]

            sec_sub_list.append(sub_url)

            # 收集漏洞受影响的版本

            vul_request = urllib.request.Request(sub_url)

            vul_response = urllib.request.urlopen(vul_request)

            vul_data = vul_response.read().decode('utf-8')

            affected_version = re.findall("<blockquote>.*</blockquote>", vul_data, re.S)

            affected_version = str(affected_version[0][12:-13])

            aff_ver = affected_version.replace("<br />","")

            sec_sub_list.append(aff_ver)

            # 将所有收集的子列表保存至汇总列表sec_all_list中

            sec_all_list.append(sec_sub_list)

# ---------------------------------------------

# 【2】信息筛选

# ---------------------------------------------

# 筛选后的内容最终会保存至msg变量中

msg = ""

# 调用get_sec_info函数，将目标系统或应用名称作为参数传入，即可获取相关爬虫告警信息

def get_sec_info(vul):

    if vul in line[0]:

        sec_info = "\n漏洞名称：" + line[0] + "\n漏洞链接：" + line[1] + "\n受影响的版本：\n" + line[2]+"\n"

        global msg

        msg += sec_info

for line in sec_all_list:

    get_sec_info("Apache")

    get_sec_info("Cisco")

    get_sec_info("EMC")

    get_sec_info("Samba")

# 为放置数据丢失，同时将筛选后的爬虫信息写入文本f中，f指向secInfo-lvmeng.txt文档。

f = open("secInfo-lvmeng.txt", 'w', encoding='utf-8')

f.writelines(msg)

# ---------------------------------------------

# 【3】信息发送

# ---------------------------------------------

chst = email.charset.Charset(input_charset = 'utf-8')

header = ("From: %s\nTo: %s\nSubject: %s\n\n" %

          ("from_mail@163.com",

           "to_mail@163.com",

           chst.header_encode("[爬虫安全通告-绿盟]")))

# 借用163smtp服务器发送邮件，将上面读到的报警信息作为邮件正文发送。

email_con = header.encode('utf-8') + msg.encode('utf-8')

smtp = smtplib.SMTP("smtp.163.com")

smtp.login("from_mail@163.com","from_mail_pass")

smtp.sendmail('from_mail@163.com','to_mail',email_con)

print('mail send success!')

smtp.quit()

crawler_exa3的更多相关文章

随机推荐

C#如何Json转字符串；字符串转Json；Newtonsoft.Json(Json.Net)
Newtonsoft.Json,一款.NET中开源的Json序列化和反序列化类库(下载地址http://json.codeplex.com/). 下面是Json序列化和反序列化的简单封装: /// & ...
XamarinSQLite教程在Xamarin.iOS项目中定位数据库文件
XamarinSQLite教程在Xamarin.iOS项目中定位数据库文件开发者可以在指定的路径中找到复制的数据库文件,具体的操作步骤如下: (1)单击Mac电脑中Finder菜单中的“前往”|“前 ...
Idea创建一个springboot多模块项目
一.创建空Maven项目二.左边选择maven,右边可以什么不选,直接next: 三.填写artifactId,点击next直到finish 四.finish后,idea会生成如下结果模块,删除sr ...
Node.js API快速入门
Node.js API 快速入门一.事件EventEmitter const EventEmitter = require('events'); class MyEmitter extends Ev ...
Lua的 table.sort排序
在用table.sort 排序的时候注意,如果使用多个条件排序,应在一个排序函数里按照条件优先级进行比较排序. 例如 local t = { {time = , i = }, {time = , i ...
CC2530 Debug ---CC2530 无启动之32K晶振
今天焊接CC2530,其中有个模块下载程序(协议栈程序),无法创建也无法加入网络. 第一步先检查32MH 晶振是否启动,用basice 程序看uart,发现可以正常打印log. 第二步,在线调试,看看 ...
[BZOJ1814]Formula 1
Description: 一个 m * n 的棋盘,有的格子存在障碍,求经过所有非障碍格子的哈密顿回路个数 Hint: \(n,m<=12\) Solution: 插头dp模板题,注意要讨论多种 ...
（转）为什么不能从静态的方法里面调用非静态方法,或变量and类加载机制
1. 程序最终都将在内存中执行,变量只有在内存中占有一席之地时才能被访问. 类的静态成员(变量和方法)属于类本身,在类加载的时候就会分配内存,可以通过类名直接去访问:非静态成员(变量和方法)属于类的对 ...
pytorch0.4版的CNN对minist分类
卷积神经网络(Convolutional Neural Network, CNN)是深度学习技术中极具代表的网络结构之一,在图像处理领域取得了很大的成功,在国际标准的ImageNet数据集上,许多成功 ...
CSS_选择符
2016-10-28 <CSS入门经典>第五章以下提示注意事项: 1.如何选择使用id选择符还是class选择符:当确信id选择符在页面的唯一性时,就可以使用id选择符. 2.通用选择符 ...

crawler_exa3

crawler_exa3的更多相关文章

随机推荐

热门专题