FOFA爬虫大法——API的简单利用

FOFA是一款网络空间搜索引擎，它通过进行网络空间测绘，帮助研究人员或者企业迅速进行网络资产匹配，例如进行漏洞影响范围分析、应用分布统计、应用流行度等。

何为API？如果你在百度百科上搜索，你会得到如下结果：

API（Application Programming Interface，应用程序编程接口）是一些预先定义的函数，目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力，而又无需访问源码，或理解内部工作机制的细节。

那么通俗一点来说，API是什么呢？从技术角度来说，API指的是应用程序编程接口。很多大型企业都会为自己的客户建立应用程序编程接口，或供内部使用。

今天i春秋针对爬虫FOFA里面的数据进行统计分析，即API的简单利用，希望对大家有所帮助，本文阅读用时约5分钟。

环境

描述环境为文章中所用到的所有技术以及中间件并非全部安装，可根据使用的规模进行调整使用。

语言：python2.7（必须）

模块：requests（必须）

操作系统：MacOS 10.13.4（非必须）

分布式消息队列管理：Celery（最后一节安装）

日志记录：logging（必须）

中间价：Redis（最后一节安装）/MySQL（必须）

数据库操作：pymysql（必须）/DBUtils（必须）

安装环境

# 安装requests

pip isntall requests

# 安装celery Mac

pip install celery

# 安装celery Windows

pip isntall celery=3.1.25

# 安装 pymysql

pip install pymysql

# 安装logging

pip install logging

# 安装 DBUtils 数据库连接池

pip install DBUtils

注：Windows安装Celery时最好安装3.1.25版本，不然可能会有意想不到的惊喜。

FOFA API

文档：https://fofa.so/api

请求：https://fofa.so/api/v1/search/all

请求方式：GET

请求参数：

响应：

数据库设计

设计数据库存放FOFA爬虫数据，方便统计查询。

SQL语句

DROP TABLE IF EXISTS `fofa_spider`;

CREATE TABLE `fofa_spider` (

 `id` INT (11) NOT NULL AUTO_INCREMENT,

 `host` VARCHAR (255) NOT NULL,

 `ip` VARCHAR (255) NOT NULL,

 `port` VARCHAR (255) DEFAULT NULL,

 `protocol` VARCHAR (255) NOT NULL,

 `country_name` VARCHAR (255) DEFAULT NULL,

 `region_name` VARCHAR (255) DEFAULT NULL,

 `city_name` VARCHAR (255) DEFAULT NULL,

 `fofa_sql` text NOT NULL,

 `create_date` DATETIME NOT NULL,

 `update_date` DATETIME NOT NULL,

 PRIMARY KEY (`id`)

) ENGINE = INNODB DEFAULT CHARSET = utf8mb4;

数据库SQL文件：https://github.com/0nise/scripts/blob/master/fofa_spider.sql

小试牛刀

本节主要讲解可适用与一般的FOFA爬虫，如果需要大批量数据爬虫请您接着往下看。

环境

语言：python2.7

中间件：MySQL

第三方包：pymysql/requests/

场景：小规模爬虫/一般爬虫

通过查看FOFA API可以得知请求地址和参数，开局一句话功能全靠编。

请求中心

在发送大量的http请求时最好使用统一的HTTP请求中心，方便控制，代码重复利用，提高效率。

session = requests.session()

# 请求头

headers = {

 'Upgrade-Insecure-Requests': '1',

 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'

}

'''

请求中心，控制程序所有HTTP请求，如果请求发生错误进行尝试再次连接

@param url 请求连接

home.php?mod=space&uid=126298 请求响应结果

'''

def fofa_requests(url):

 rs_content = ''

 while True:

 try:

 rs = session.get(api_url, verify=False,headers=headers)

 rs_text = rs.text

 results = json.loads(rs_text)

 total_size = results['size']

 error = results

 if results['error'] and 'None' not in results['error']:

 info = u'fofa 错误:'+results['error']+u' 休眠30s'

 logging.error(info)

 time.sleep(30)

 else:

 rs_content = results

 except Exception as e:

 logging.error(u'fofa 错误:'+str(e.message)+u' 休眠30s')

 traceback.print_exc()

 time.sleep(30)

 return rs_content

数据库存储

有了统一的请求中心接下来就该编写入库代码，将爬虫结果存入数据库中。

'''

批量数据存入数据库

@param results

@param page_no 当前页数

@param page_total 总页数

'''

def batch_insert_db(results,page_no,page_total,fofa_sql):

 try:

 Z = []

 for result in results:

 a = (str(result[0]),str(result[1]),str(result[2]),str(result[3]),str(result[4]),str(result[5]),str(result[6]),pymysql.escape_string(fofa_sql))

 Z.append(a)

 sql = "INSERT IGNORE INTO fofa_spider(id,host,ip,port,protocol,country_name,region_name,city_name,fofa_sql,create_date,update_date) VALUES(DEFAULT,%s,%s,%s,%s,%s,%s,%s,%s,NOW(),NOW())"

 cursor.executemany(sql, Z)

 connection.commit()

 logging.info(u'存入数据库ok,总数量为:'+str(len(Z))+u', page--> '+str(page_no)+'/'+str(page_total))

 except Exception as e:

 logging.error(u"存入数据库错误,错误信息:"+e.message)

 traceback.print_exc()

核心业务代码

可以存入数据库中就该写核心的函数逻辑函数，输入参数仅为FOFA检索语句。

'''

fofa 爬虫主函数

@param fofa_sql fofa查询语句

'''

def main(fofa_sql):

 base64_str = base64.b64encode(fofa_sql)

 fields_str = ','.join(fields)

 api_url = 'http://fofa.so/api/v1/search/all?email='+fofa_name+'&key='+fofa_key+'&fields='+fields_str+'&size='+str(page_size)+'&page='+str(page_start)+'&qbase64='+base64_str

 rs = fofa_requests(api_url)

 total_size = rs['size']

 # 计算页数

 page_end = total_size / page_size + 1 if total_size % page_size != 0 else total_size / page_size

 # 存入u 数据库

 batch_insert_db(rs['results'],page_start,page_end,fofa_sql)

 for page_no in range(1,page_end+1):

 api_url = 'http://fofa.so/api/v1/search/all?email='+fofa_name+'&key='+fofa_key+'&fields='+fields_str+'&size='+str(page_size)+'&page='+str(page_no)+'&qbase64='+base64_str

 batch_insert_db(rs['results'],page_start,page_end,fofa_sql)

程序运行结果：

完整代码地址：

https://github.com/0nise/scripts/blob/master/fofa_spider.py

注：运行脚本之前先配置相关配置信息（数据库/FOFA信息）

进阶

问题

针对一般的数据爬虫，上述方法可以完美适应。但如果需要爬虫的是为千万级别规模的数据，上述方法就不适用了，解决方案一般有多线程/多进程/协程等。

思路

针对大规模数据爬虫，很多人想到的是多线程/多进程/协程等方案，但是这些方案的可扩展并不是很强，如果需要调整工具需要停止程序修改程序等，这里我是使用生产者和消费的思路来处理。只需要对上述的代码做轻微修改就可以完美的适应大规模数据爬虫，这里我使用redis+celery的方式来实现。

Redis

Redis是一款开源的、高性能的键-值存储（key-value store）。它常被称作是一款数据结构服务器（data structure server）。

Redis的键值可以包括字符串（strings）类型，同时它还包括哈希（hashes）、列表（lists）、集合（sets）和有序集合（sorted sets）等数据类型。对于这些数据类型，你可以执行原子操作。例如：对字符串进行附加操作（append）；递增哈希中的值；向列表中增加元素；计算集合的交集、并集与差集等。

为了获得优异的性能，Redis采用了内存中（in-memory）数据集（dataset）的方式。同时，Redis支持数据的持久化，你可以每隔一段时间将数据集转存到磁盘上（snapshot），或者在日志尾部追加每一条操作命令（append only file,aof）。

Redis同样支持主从复制（master-slave replication），并且具有非常快速的非阻塞首次同步（ non-blocking first synchronization）、网络断开自动重连等功能。同时Redis还具有其它一些特性，其中包括简单的事物支持、发布订阅（ pub/sub）、管道（pipeline）和虚拟内存（vm）等。

Redis具有丰富的客户端，支持现阶段流行的大多数编程语言。

celery

简介

Celery（芹菜）是一个简单、灵活且可靠的，处理大量消息的分布式系统，并且提供维护这样一个系统的必需工具。

任务队列

任务队列是一种在线程或机器间分发任务的机制。

消息队列

消息队列的输入是工作的一个单元，称为任务，独立的职程（Worker）进程持续监视队列中是否有需要处理的新任务。

Celery 用消息通信，通常使用中间人（Broker）在客户端和职程间斡旋。这个过程从客户端向队列添加消息开始，之后中间人把消息派送给职程，职程对消息进行处理。如下图所示：

Celery 系统可包含多个职程和中间人，以此获得高可用性和横向扩展能力。

架构

Celery的架构由三部分组成，消息中间件（message broker），任务执行单元（worker）和任务执行结果存储（task result store）组成。

消息中间件

Celery本身不提供消息服务，但是可以方便的和第三方提供的消息中间件集成，包括，RabbitMQ,Redis,MongoDB等，这里我先去了解RabbitMQ,Redis。

任务执行单元

Worker是Celery提供的任务执行的单元，worker并发的运行在分布式的系统节点中。

任务结果存储

Task result store用来存储Worker执行的任务的结果，Celery支持以不同方式存储任务的结果，包括Redis，MongoDB，Django ORM，AMQP等，这里我先不去看它是如何存储的，就先选用Redis来存储任务执行结果。

修改

添加celery配置信息

'''

Celery

'''

from celery import platforms,Celery

platforms.C_FORCE_ROOT = True

# Redis连接地址，如果为本机不需要做修改

broker = 'redis://127.0.0.1:6379/0'

app = Celery('fofa_spider',broker=broker)

添加核心函数

'''

celery 爬虫

@param api_url 爬虫URL

@param fofa_sql FOFA语句

'''

@app.task

def celery_spider(api_url,fofa_sql):

 rs = fofa_requests(api_url)

 batch_insert_db(rs['results'],fofa_sql)

修改业务逻辑代码

'''

fofa 爬虫主函数

@param fofa_sql fofa查询语句

'''

def main(fofa_sql):

 base64_str = base64.b64encode(fofa_sql)

 fields_str = ','.join(fields)

 api_url = 'http://fofa.so/api/v1/search/all?email='+fofa_name+'&key='+fofa_key+'&fields='+fields_str+'&size='+str(page_size)+'&page='+str(page_start)+'&qbase64='+base64_str

 rs = fofa_requests(api_url)

 total_size = rs['size']

 # 计算页数

 page_end = total_size / page_size + 1 if total_size % page_size != 0 else total_size / page_size

 # 存入数据库

 batch_insert_db(rs['results'],fofa_sql)

 for page_no in range(1,page_end+1):

 api_url = 'http://fofa.so/api/v1/search/all?email='+fofa_name+'&key='+fofa_key+'&fields='+fields_str+'&size='+str(page_size)+'&page='+str(page_no)+'&qbase64='+base64_str

 logging.info('send task -->'+api_url)

 celery_spider.delay(api_url,fofa_sql)

完整代码地址：

https://github.com/0nise/scripts/blob/master/fofa_spider_ext.py

运行

运行python fofa_spider_ext.py发送需要爬虫的任务信息

运行celery -A fofa_spider_ext worker -l info进行消费爬虫

运行成功

数据库信息

FOFA爬虫大法——API的简单利用的更多相关文章

Socket编程实践(2) Socket API 与简单例程
在本篇文章中,先介绍一下Socket编程的一些API,然后利用这些API实现一个客户端-服务器模型的一个简单通信例程.该例子中,服务器接收到客户端的信息后,将信息重新发送给客户端. socket()函 ...
【百度地图API】如何利用地图API制作汽车沿道路行驶的动画？——如何获得道路层数据
原文:[百度地图API]如何利用地图API制作汽车沿道路行驶的动画?--如何获得道路层数据有几个做汽车导航的朋友问我说,他们想在地图上制作一辆车沿着道路行驶的动画.可是,百度地图的道路数据并没有公开 ...
PHP简单利用token防止表单重复提交
<?php /* * PHP简单利用token防止表单重复提交 * 此处理方法纯粹是为了给初学者参考 */ session_start(); function set_token() { $_S ...
demo工程的清单文件及activity中api代码简单示例
第一步注册一个账户,并创建一个应用.获取app ID与 app Key. 第二步下载sdk 第三步新建工程,修改清单文件,导入相关的sdk文件及调用相应的api搞定. 3.1 修改清单文件,主要是加入 ...
PHP简单利用token防止表单重复提交（转）
<?php/* * PHP简单利用token防止表单重复提交 */function set_token() { $_SESSION['token'] = md5(microtime(true)) ...
【高德API】如何利用MapKit开发全英文检索的iOS地图
原文:[高德API]如何利用MapKit开发全英文检索的iOS地图制作全英文地图的展示并不困难,但是要制作全英文的数据检索列表,全英文的信息窗口,你就没办法了吧.告诉你,我有妙招!使用iOS自带的M ...
【百度地图API】如何利用PhoneGap制作地图APP
原文:[百度地图API]如何利用PhoneGap制作地图APP 摘要:百度地图API是一套由javascript编写的地图程序接口,按说它应该运行在浏览器上.现在,只要利用PhoneGap,我们就能开 ...
【百度地图API】如何利用自己的数据制作社交地图？只显示可视区域内的标注
原文:[百度地图API]如何利用自己的数据制作社交地图?只显示可视区域内的标注摘要:如果你自己的数据已经超过1万个,如何进行合理的显示?除了聚合marker外,还有一个办法.那就是,只显示可视区域内 ...
Android BLE与终端通信（一）——Android Bluetooth基础API以及简单使用获取本地蓝牙名称地址
Android BLE与终端通信(一)--Android Bluetooth基础API以及简单使用获取本地蓝牙名称地址 Hello,工作需要,也必须开始向BLE方向学习了,公司的核心技术就是BLE终端 ...

随机推荐

DjangoRestFramework实践笔记
1.Restful服务的实现方式一共三种:function based view,class based view,viewset+router,这三种实现方式的封装重度依序升高,越往后越适合典型CU ...
Oracle 11g一步步安装详解
本文所需的安装包都存放在我网盘中,需要的私聊~ 一.安装VMware tools工具(非必须) 1.虚拟机上点击安装因为我在虚拟机中做的,后面oracle 安装是图形化安装,需要屏幕大一点,不然有些 ...
notepad++中双击选中字符串高亮颜色设置
notepad++ 中最好用的功能就是双击选中,本文档中所有相同的内容高亮不过有个问题就是当文档特别大,而且注释比较多的时候,我选中的内容高亮为绿色不太好找,那怎么设置呢? 设置--语言格式设置-- ...
大型三甲医院医疗体检信息管理系统源码 PEIS 体检科软件 CS
详情请点击查看开发环境 :VS2008 + C# + SQL2000 功能介绍: 1:设置:操作员设置系统功能设置用户组权限设置公告打印设置数据字典设置临床类型设置体检 ...
PHP $_FILES函数详解
原创转载请注明出处! 先来看一段代码 <form enctype="multipart/form-data" action="upload.php" m ...
css 实现文字自动换行切同行元素高度自适应
1.实现div行内布局所有行跟随最大高度自适应 html代码样例: <div class="row-single"> <div class="colsp ...
MYSQL数据库设计规范与原则
MYSQL数据库设计规范 1.数据库命名规范采用26个英文字母(区分大小写)和0-9的自然数(经常不需要)加上下划线'_'组成; 命名简洁明确(长度不能超过30个字符); 例如:user, stat ...
Unity文档阅读第三章依赖注入与Unity
Introduction 简介In previous chapters, you saw some of the reasons to use dependency injection and lea ...
Activity的状态保存
这两个图其实说的是一个意思,具体onSaveInstanceState()这个函数什么时候会调用,在网络上搜了一下这个第一种情况,我可以解释一下,说的是这个方法只在onResume和onPause之 ...
Thymeleaf利用layout.html文件生成页面布局框架
1.layout.html文件生成布局 <!DOCTYPE html> <html lang="zh-CN" xmlns:th="http://www ...

FOFA爬虫大法——API的简单利用

FOFA爬虫大法——API的简单利用的更多相关文章

随机推荐

热门专题