FOFA链接爬虫爬取fofa spider

之前一直是用的github上别人爬取fofa的脚本，前两天用的时候只能爬取第一页的链接了，猜测是fofa修改了一部分规则（或者是我不小心删除了一部分文件导致不能正常运行了）

于是重新写了一下爬取fofa的代码，写的不好:(

因为fofa的登录界面是https://i.nosec.org/login?service=https%3A%2F%2Ffofa.so%2Fusers%2Fservice

FOFA的登录跟一般网站登录不同，在nosec登录成功后，只拥有nosec的cookie，并没有fofa的cookie，所以访问fofa还是未登录状态，需要再访问https://fofa.so/users/sign_in才会生成fofa的cookie。

然后我就换了一种方式，手动添加_fofapro_ars_session来进行登录，fofapro_ars_session在我们登录fofa之后使用F12可以查看，这一步比较麻烦

添加了对应的session之后，我们对输入内容进行base64编码，因为当我们在fofa网站进行搜索的时候，网站也是将我们输入的内容进行base64编码然后进行搜索的

接着解析页面获取相应链接，持续找到下一页即可。

需要注意的是，因为fofa也有防止快速爬取的机制，所以我们在爬取的时候要设置一点延时，防止抓取到的IP地址有漏掉的。

在检索到了搜索的内容之后，首先显示该搜索对象有多少页，爬取的页数也是由输入者自己决定。

代码如下：（有一个漂亮的字符画大LOGO）

# -*- coding:utf-8 -*-

import requests

from lxml import etree

import base64

import re

import time

cookie = ''

def logo():

    print('''

             /$$$$$$$$ /$$$$$$  /$$$$$$$$ /$$$$$$

            | $$_____//$$__  $$| $$_____//$$__  $$

            | $$     | $$  \ $$| $$     | $$  \ $$

            | $$$$$  | $$  | $$| $$$$$  | $$$$$$$$

            | $$__/  | $$  | $$| $$__/  | $$__  $$

            | $$     | $$  | $$| $$     | $$  | $$

            | $$     |  $$$$$$/| $$     | $$  | $$

            |__/      \______/ |__/     |__/  |__/                                  

                                /$$$$$$            /$$       /$$

                               /$$__  $$          |__/      | $$

                              | $$  \__/  /$$$$$$  /$$  /$$$$$$$  /$$$$$$   /$$$$$$

                              |  $$$$$$  /$$__  $$| $$ /$$__  $$ /$$__  $$ /$$__  $$

                               \____  $$| $$  \ $$| $$| $$  | $$| $$$$$$$$| $$  \__/

                               /$$  \ $$| $$  | $$| $$| $$  | $$| $$_____/| $$

                              |  $$$$$$/| $$$$$$$/| $$|  $$$$$$$|  $$$$$$$| $$

                               \______/ | $$____/ |__/ \_______/ \_______/|__/

                                        | $$

                                        | $$

                                        |__/                                        

                                                                                version:1.0

    ''')

def spider():

    header = {

        "Connection": "keep-alive",

        "Cookie": "_fofapro_ars_session=" + cookie,

    }

    search = input('please input your key: \n')

    searchbs64 = (str(base64.b64encode(search.encode('utf-8')), 'utf-8'))

    print("spider website is :https://fofa.so/result?&qbase64=" + searchbs64)

    html = requests.get(url="https://fofa.so/result?&qbase64=" + searchbs64, headers=header).text

    pagenum = re.findall('>(\d*)</a> <a class="next_page" rel="next"', html)

    print("have page: "+pagenum[0])

    stop_page=input("please input stop page: \n")

    #print(stop_page)

    doc = open("hello_world.txt", "a+")

    for i in range(1,int(pagenum[0])):

        print("Now write " + str(i) + " page")

        pageurl = requests.get('https://fofa.so/result?page=' + str(i) + '&qbase64=' + searchbs64, headers=header)

        tree = etree.HTML(pageurl.text)

        urllist=tree.xpath('//div[@class="list_mod_t"]//a[@target="_blank"]/@href')

        for j in urllist:

            #print(j)

            doc.write(j+"\n")

        if i==int(stop_page):

            break

        time.sleep(10)

    doc.close()

    print("OK,Spider is End .")

def start():

    print("Hello!My name is Spring bird.First you should make sure _fofapro_ars_session!!!")

    print("And time sleep is 10s")

def main():

    logo()

    start()

    spider()

if __name__ == '__main__':

    main()

　　Github链接：https://github.com/Cl0udG0d/Fofa-script

我设置的time.sleep()延时是10秒，可以根据自己的需求进行修改，以及，虽然在代码里面进行了base64解码，但是有的时候总会出现编码问题而导致搜索不到想要的结果，pagenum[0]等于0的情况，如果修改关键字还是不行的话，可以自己在fofa网站里面查了之后，在url中将base64之后的搜索关键字替换成代码里面的searchbs64，这样就必然能够搜索到了，这些不足的地方在下次修改的时候进行改进吧，奥利给。

FOFA链接爬虫爬取fofa spider的更多相关文章

一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
使用scrapy爬虫,爬取17k小说网的案例-方法一
无意间看到17小说网里面有一些小说小故事,于是决定用爬虫爬取下来自己看着玩,下图这个页面就是要爬取的来源. a 这个页面一共有125个标题,每个标题里面对应一个内容,如下图所示下面直接看最核心spi ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
通过爬虫爬取四川省公共资源交易平台上最近的招标信息 --- URLConnection
通过爬虫爬取公共资源交易平台(四川省)最近的招标信息一:引入JSON的相关的依赖 <dependency> <groupId>net.sf.json-lib< ...
python网络爬虫（10）分布式爬虫爬取静态数据
目的意义爬虫应该能够快速高效的完成数据爬取和分析任务.使用多个进程协同完成一个任务,提高了数据爬取的效率. 以百度百科的一条为起点,抓取百度百科2000左右词条数据. 说明参阅模仿了:https: ...
爬虫---爬取b站小视频
前面通过python爬虫爬取过图片,文字,今天我们一起爬取下b站的小视频,其实呢,测试过程中需要用到视频文件,找了几个网站下载,都需要会员什么的,直接写一篇爬虫爬取视频~~~ 分析b站小视频 1.进入 ...
Python爬虫爬取数据的步骤
爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...

随机推荐

【应用服务 App Service】App Service 新手资料包
问题描述云计算的趋势已成定局,作为一个开发者,如果想对PaaS服务中的应用服务有一个初步的了解,从那些资料入手呢? 以Azure的官方文档作为基础库,从中选择出部分内容,分为:本地开发工具,App ...
06、MyBatis 逆向工程
1.MyBatis逆向简介 mybatis需要程序员自己编写sql语句,mybatis官方提供逆向工程,可以针对单表自动生成mybatis执行所需要的代码(mapper.java.mapper.x ...
Android开发-AlertDialog，Progress，ProgressDialog，自定义layout
AlertDialog 默认样式单选样式多选样式自定义样式效果图 AlertDialog效果图 class OnClick implements View.OnClickListener ...
mac 快键键图标对应
Mac 键盘快捷键您可以按下某些组合键来实现通常需要鼠标.触控板或其他输入设备才能完成的操作. 要使用键盘快捷键,请按住一个或多个修饰键,然后按快捷键的最后一个键.例如,要使用 Command- ...
Metasploit渗透使用攻略
msf关于tomcat口令暴力猜解模块 use auxiliary/scanner/http/tomcat_mgr_login show options set rhosts 192.168.2.14 ...
HTML5大纲算法
什么是HTML大纲算法? 大纲算法允许用户代理(user agent)从一个web页面生成一个信息结构目录,让用户对页面有一个快速的概览.类似书籍.PDF.帮助文档等,都有一个清晰的目录结构,用户能方 ...
[原题复现]-HITCON 2016 WEB《babytrick》[反序列化]
前言不想复现的可以访问榆林学院信息安全协会CTF训练平台找到此题直接练手 HITCON 2016 WEB -babytrick(复现) 原题 index.php 1 <?php 2 3 inc ...
PVE简单迁移虚拟机
工作中有2台PVE节点,但是没有做集群,如果有集群可以很方便的进行迁移.本次迁移的目的是: 目前有一台PVE1节点装的虚机资源使用较多,想迁移某台虚机到另一台PVE2. 1 备份备份在web页面操作 ...
使用思维导图MindManager能否增强记忆？
学生时代,每当面对冗杂的需要背诵的课业时,有很多人都会发出"这么多内容怎么背啊"."我讨厌死记硬背"."昨天背完今天就忘了"的呐喊.那么,如 ...
教你用Camtasia制作精美片头
大家都知道在视频播放中,如果有一个令人印象深刻的精彩开头,整个视频的内容都能因此得到不少升华.所以有一个好的片头对于视频的制作来说十分重要.今天我们就来讲一下用Camtasia制作片头的方法. 首先, ...

FOFA链接爬虫爬取fofa spider

FOFA链接爬虫爬取fofa spider的更多相关文章

随机推荐

热门专题