爬取乌云上所有人民币和乌云符号的漏洞（python脚本）

 import httplib

 from HTMLParser import HTMLParser

 import urlparse

 import urllib

 from bs4 import BeautifulSoup

 import re

 from time import sleep

 '''

 usage: 

 input your wooyun cookies,then just go crawl!!

 author: Elliott

 '''

 domain = 'wooyun.org'

 cookies = ''  # !!!!here   input your wooyun cookies

 user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:29.0) Gecko/20100101 Firefox/29.0'

 def countnumber():  # the function to get page num

     global domain

     global cookies

     global user_agent

     conn = httplib.HTTPConnection(domain)

     conn.request('GET','/user.php?action=openbugs','',{'Cookie':cookies,'User-Agent':user_agent,'Referer':'http://wooyun.org/index.php','Host':'wooyun.org'})

     content = conn.getresponse()

     content = content.read()

     soup = BeautifulSoup(content)

     tag = soup.find_all('p',attrs={'class':'page'})

     if len(tag) == 0:

         tag = 'None'

     else:

         tag = str(tag[0])

     pattern = re.compile('>.*<a class=\"current\">')

     result = pattern.findall(tag)

     if len(result) == 0:

         result = 'None'

     else:

         result = str(result[0])

     number = filter(str.isdigit, result)

     num = number[5:]  #get then total page number

     return int(num)

 def dealthepage(content):

     global domain

     global cookies

     global user_agent

     conn = httplib.HTTPConnection(domain)

     soup = BeautifulSoup(content)

     k = soup.find_all('a')

     item = k[27:47]

     pattern = re.compile('href=\"(.+?)\"')

     hreaf = []

     for i in range(len(item)):

     ss = pattern.findall(str(item[i]))

         if len(ss) == 0:

             break

     hreaf.append(str(ss[0]))

     for i in hreaf:

         #sleep(0.5)

     conn.request('GET',i,'',{'Cookie':cookies,'User-Agent':user_agent,'Referer':'http://wooyun.org/index.php','Host':'wooyun.org'})

     content2 = conn.getresponse()

     content2 = content2.read()

     soup2 = BeautifulSoup(content2)

     imgtag = soup2.find_all(class_='credit')

     '''may be $ or cloud'''

     if len(imgtag) != 0:

         findcloud = re.compile('src=\"\/images\/credit\.png\"')

         findmoney = re.compile('src=\"\/images\/m(.?)\.png\"')

         cloudnum = findcloud.findall(content2)

         moneylevel = findmoney.findall(content2)

         cloud = 0

         money = 0

         if len(cloudnum) != 0:

             if len(cloudnum) == 1:

                 cloud = 1

             if len(cloudnum) == 2:

                 cloud = 2

             if len(cloudnum) == 3:

                 cloud = 3

         if len(moneylevel) != 0:

             if len(moneylevel) == 1:

                 money = 1

             if len(moneylevel) == 2:

                 money = 2

             if len(moneylevel) == 3:

                 money = 3

         title = soup2.findAll(attrs={"class":"wybug_title"})

         if len(title) == 0:

             title = 'No Title'

         else:

             title = str(title[0])

         deltag = re.compile('r<[^>]+>')

         title = deltag.sub('',title)

         author = soup2.findAll(attrs={"class":"wybug_author"})

         if len(author) == 0:

             author = 'No name'

         else:

             author = str(author[0])

         author = deltag.sub('',author)

         date = soup2.findAll(attrs={"class":"wybug_date"})

         if len(date) == 0:

             date = 'No time'

         else:

             date = str(date[0])

         date = deltag.sub('',date)

         link = "http://www.wooyun.org"+i

         link = str(link)

         f = open("test.html","a+")

         s = "<tr><td>level:cloud="+str(cloud)+"money="+str(money)+"</td><th>"+date+"</th><td><a href='"+link+"'>"+title+"</a></td><th>"+author+"</th></tr><br>"

         f.write(s)

         f.close

 if __name__ == '__main__':

     num = countnumber()  #get page num

     for i in range(num):

         conn = httplib.HTTPConnection(domain)

         conn.request('GET','/user.php?action=openbugs&pNO='+str(i+1),'',{'Cookie':cookies,'User-Agent':user_agent,'Referer':'http://wooyun.org/index.php','Host':'wooyun.org'})

         content = conn.getresponse()

         content = content.read()

         dealthepage(content)

附章效果图：

爬取乌云上所有人民币和乌云符号的漏洞（python脚本）的更多相关文章

使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
爬虫入门（三）——动态网页爬取：爬取pexel上的图片
Pexel上有大量精美的图片,没事总想看看有什么好看的自己保存到电脑里可能会很有用但是一个一个保存当然太麻烦了所以不如我们写个爬虫吧(๑•̀ㅂ•́)و✧ 一开始学习爬虫的时候希望爬取pexel上的 ...
Python编写网页爬虫爬取oj上的代码信息
OJ升级,代码可能会丢失. 所以要事先备份. 一開始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启示和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 p ...
steam夏日促销悄然开始，用Python爬取排行榜上的游戏打折信息
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 不知不觉,一年一度如火如荼的steam夏日促销悄然开始了.每年通过大大小小 ...
Python爬取网站上面的数据很简单，但是如何爬取APP上面的数据呢
C# 爬取网页上的数据
最近工作中需求定时爬取不同城市每天的温度.其实就是通过编程的方法去抓取不同网站网页进行分析筛选的过程..NET提供了很多类去访问并获得远程网页的数据,比如WebClient类和HttpWebReque ...
爬取 StackOverFlow 上有关于 Python 的问题
给定起始页面以及爬取页数,要求得到每一个问题的标题.票数.回答数.查看数 stackflow <- function(page){ url <- "http://stackove ...
python爬虫16 | 你，快去试试用多进程的方式重新去爬取豆瓣上的电影
我们在之前的文章谈到了高效爬虫在 python 中多线程下的 GIL 锁会让多线程显得有点鸡肋特别是在 CPU 密集型的代码下多线程被 GIL 锁搞得效率不高特别是对于多核的 CPU 来说 ...
利用Python爬取OPGG上英雄联盟英雄胜率及选取率信息
一.分析网站内容本次爬取网站为opgg,网址为:” http://www.op.gg/champion/statistics” 由网站界面可以看出,右侧有英雄的详细信息,以Garen为例,胜率为53 ...

随机推荐

linux连接sybase数据库-isql
转自:http://blog.knowsky.com/196438.htm 想要linux连接sybase数据库用命令isql: isql [-U login id] [-P password] [- ...
Nginx（四）-- 配置文件之location
1.location的作用 location主要做定位功能,根据uri来进行不同的定位. 2.location的语法 location [=|~|~*|^~] /uri/ { …} = 开头表示精确匹 ...
oracle查锁表
查锁表 select LOCK_INFO.OWNER || '.' || LOCK_INFO.OBJ_NAME as OBJ_NAME, -- 对象名称(已经被锁住) LOCK_INFO.SUBOBJ ...
嵌入式Linux下Qt的中文显示
一般情况下,嵌入式Qt界面需要中文显示,下面总结自己在项目中用到的可行的办法 1,下载一种中文简体字体,比如我用的是”方正准圆简体“,把字体文件放在ARM开发板系统的Qt字库中,即/usr/lib/f ...
OpenGL超级宝典总结(二)2D/3D笛卡尔坐标、坐标裁剪、纹理坐标、MVP转换等概念
如果你想把图形渲染在正确的位置上,那么坐标的设置就很重要了.在OpenGL中,与坐标相关的主要有笛卡尔坐标.坐标裁剪.纹理坐标.MVP(Model View Projection)转换. 1.笛卡尔坐 ...
Android 使用Spinner实现下拉列表
课程目标1.了解Spinner下拉列表的使用和功能2.学会使用系统默认的Spinner3.学会使用自定义样式的Spinner 执行步骤第一步:添加一个下拉列表项的list,这里添加的项就是下拉列表的菜 ...
【java】将List中的实体按照某个字段进行分组的算法
如何将List中存放的实体按照某个字段进行分组呢?来看看下面的例子,假如实体中有个字段叫批次号,我们将具有相同批次号的实体放在一起,那么怎么实现呢?看下面的代码: 可以定义个Map,Map的key用于 ...
【Android N 7.1.1】锁屏之上显示Toast
package com.android.systemuirom.keyguard; import android.content.Context; import android.view.Gravit ...
12.文件系统fs
文件系统fs ==> 提供文件的读取, 写入, 更名, 删除, 遍历目录, 链接等POSIX文件系统操作 1.fs.readFile(filename, [encoding], [callbac ...
Egret3D初步学习笔记三 (角色使用)
一 Unity中编辑角色仍然使用unity4.7.1_Egret3D_Dll.unitypackage. 里面含有一个角色. 二查看人物的动画选中lingtong 属性面板里有个Animator ...

爬取乌云上所有人民币和乌云符号的漏洞（python脚本）

爬取乌云上所有人民币和乌云符号的漏洞（python脚本）的更多相关文章

随机推荐

热门专题