crawler_exa3
优化中...
#! /usr/bin/env python
# -*- coding:utf-8 -*-
# Author: Tdcqma '''
v1.0:
由于网站结构存在变更的可能性,一旦爬虫爬取的页面发生变化则会影响正则表达式的匹配,导致爬虫失效。
为了解决这个问题重新架构该爬虫,新的爬虫将分3个部分,即:
【1】信息收集:一旦网站结构发生变化只需要更改此部分的正则表达式即可,收集的信息需要保存至一个嵌套列表中。
【2】信息筛选:即使网站结构发生变化也不需要变更此部分。
【3】信息发送:即使网站结构发生变化也不需要变更此部分。 ''' import urllib.request
import ssl,re
import smtplib,email
import datetime # ---------------------------------------------
# 【1】信息收集,正则表达匹配网站信息,包括date、title、url等,
# 将所有信息保存至sec_all_list列表中
# --------------------------------------------- # 指定以当前日期(年月日格式)为搜索条件
#today = str(datetime.date.today())
today = "2017-09-25" # 临时指定测试时间
str_domain = "http://www.nsfocus.net"
sec_all_list = [] # 收集所有漏洞信息并保存在列表中 # 因一天的漏洞个数可能要占用好几个网站页面,所以指定被扫描网站需要扫描的网页数范围,默认读取10页
for i in range(10):
url = "http://www.nsfocus.net/index.php?act=sec_bug&type_id=&os=&keyword=&page=%s" % (i+1)
request = urllib.request.Request(url)
# 当尝试访问https开始当站点时,设置全局取消SSL证书验证
ssl._create_default_https_context = ssl._create_unverified_context
response = urllib.request.urlopen(request)
data = response.read().decode('utf-8') if today in data: # 用于匹配内容的正则表达式部分
str_re = "<.*" + today + ".*"
res = re.findall(str_re, data) for line in res: sec_sub_list = [] # 收集单独的漏洞信息 # 收集漏洞标题
title_craw = re.findall("/vulndb/\d+.*</a>", line) # 获取标题
title = title_craw[0][15:-4]
sec_sub_list.append(title) # 收集漏洞url
url_craw = re.findall("/vulndb/\d+", line) # 获取链接
sub_url = str_domain + url_craw[0]
sec_sub_list.append(sub_url) # 收集漏洞受影响的版本
vul_request = urllib.request.Request(sub_url)
vul_response = urllib.request.urlopen(vul_request)
vul_data = vul_response.read().decode('utf-8') affected_version = re.findall("<blockquote>.*</blockquote>", vul_data, re.S)
affected_version = str(affected_version[0][12:-13])
aff_ver = affected_version.replace("<br />","")
sec_sub_list.append(aff_ver) # 将所有收集的子列表保存至汇总列表sec_all_list中
sec_all_list.append(sec_sub_list) # ---------------------------------------------
# 【2】信息筛选
# --------------------------------------------- # 筛选后的内容最终会保存至msg变量中
msg = "" # 调用get_sec_info函数,将目标系统或应用名称作为参数传入,即可获取相关爬虫告警信息
def get_sec_info(vul):
if vul in line[0]:
sec_info = "\n漏洞名称:" + line[0] + "\n漏洞链接:" + line[1] + "\n受影响的版本:\n" + line[2]+"\n"
global msg
msg += sec_info for line in sec_all_list: get_sec_info("Apache")
get_sec_info("Cisco")
get_sec_info("EMC")
get_sec_info("Samba") # 为放置数据丢失,同时将筛选后的爬虫信息写入文本f中,f指向secInfo-lvmeng.txt文档。
f = open("secInfo-lvmeng.txt", 'w', encoding='utf-8')
f.writelines(msg) # ---------------------------------------------
# 【3】信息发送
# --------------------------------------------- chst = email.charset.Charset(input_charset = 'utf-8')
header = ("From: %s\nTo: %s\nSubject: %s\n\n" %
("from_mail@163.com",
"to_mail@163.com",
chst.header_encode("[爬虫安全通告-绿盟]"))) # 借用163smtp服务器发送邮件,将上面读到的报警信息作为邮件正文发送。 email_con = header.encode('utf-8') + msg.encode('utf-8')
smtp = smtplib.SMTP("smtp.163.com")
smtp.login("from_mail@163.com","from_mail_pass")
smtp.sendmail('from_mail@163.com','to_mail',email_con)
print('mail send success!')
smtp.quit()
crawler_exa3的更多相关文章
随机推荐
- 在Windows系统下安装Beautiful Soup4的步骤和方法
1.到http://www.crummy.com/software/BeautifulSoup/网站上上下载,最新版本是4.3.2. 2.下载完成之后需要解压缩,假设放到D:/python下. 3.运 ...
- vue项目的搭建使用
环境变量的安装 参考 环境变量详解 第一次搭建参考 参考 简单初始项目搭建 配置好环境变量的项目的搭建 新建一个new proproject, 查看工作目录vue是否存在 使用查看指令 v ...
- Java基础巩固——《Java核心技术基础·卷一:基础知识》
阅读记录追踪:前言部分 阅读前先看:简介.目录和勘误! Java编程语言是一种多用途.并发的.基于类的.面向对象的编程语言:编译时通常包括将持续转化成机器无关的字节码表示.运行时活动包括加载和链接执行 ...
- ns2.34 移植MFLOOD协议时出现的问题
安全按照<NS网络模拟核协议仿真>第11章的步骤进行修改,但是make的时候出现了一下错误: make[1]: 正在进入目录 `/home/wang/ns/ns-allinone-2.34 ...
- 利用select检索数据
没错这就是DQL,数据查询语言.来看看怎么用. select语句按照复杂程度来说分为简单查询.where查询.多表查询.子查询等. 先来看看select的语法 1.select 2.[distince ...
- 理解Hadoop脚本hadoop-2.5.0/bin/hadoop
1 #!/usr/bin/env bash 此处为什么不是 #!/bin/bash ? 考虑到程序的可移植性,env的作用就是为了找到正确的脚本解释器(这里就是bash),在不同的Linux ...
- 我要当皇帝等微信小游戏的wbs
猜字:1.视图交互: 1)主界面:展示每一道题目跟答案 1) 题目展示区域, 成员布局 2) 选项展示 3) 其他 2)下一道题弹框 3)答案弹框 4)结果弹框 5)关卡弹框 2.数据处理, 1) 读 ...
- Html图像标签、绝对路径和相对路径:
Html图像标签: <img>标签可以在网页上插入一张图片,它是独立使用的标签,它的常用属性有: (1)src 属性 定义图片的引用地址 (2)alt 属性 定义图片加载失败时显示的文字, ...
- nginx -s reload时出现open() "/run/nginx.pid" failed (2: No such file or directory)错误
解决办法: 找到你的nginx.conf的文件夹目录,比如我的为/etc/nginx/nginx.conf,然后运行这个 nginx -c /etc/nginx/nginx.conf命令, 再运行 ...
- 4989: [Usaco2017 Feb]Why Did the Cow Cross the Road
题面:4989: [Usaco2017 Feb]Why Did the Cow Cross the Road 连接 http://www.lydsy.com/JudgeOnline/problem.p ...