FOFA是一款网络空间搜索引擎,它通过进行网络空间测绘,帮助研究人员或者企业迅速进行网络资产匹配,例如进行漏洞影响范围分析、应用分布统计、应用流行度等。

何为API?如果你在百度百科上搜索,你会得到如下结果:

API(Application Programming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

那么通俗一点来说,API是什么呢?从技术角度来说,API指的是应用程序编程接口。很多大型企业都会为自己的客户建立应用程序编程接口,或供内部使用。

今天i春秋针对爬虫FOFA里面的数据进行统计分析,即API的简单利用,希望对大家有所帮助,本文阅读用时约5分钟。

环境

描述环境为文章中所用到的所有技术以及中间件并非全部安装,可根据使用的规模进行调整使用。

语言:python2.7(必须)

模块:requests(必须)

操作系统:MacOS 10.13.4(非必须)

分布式消息队列管理:Celery(最后一节安装)

日志记录:logging(必须)

中间价:Redis(最后一节安装)/MySQL(必须)

数据库操作:pymysql(必须)/DBUtils(必须)

安装环境

# 安装requests
pip isntall requests
# 安装celery Mac
pip install celery
# 安装celery Windows
pip isntall celery=3.1.25
# 安装 pymysql
pip install pymysql
# 安装logging
pip install logging
# 安装 DBUtils 数据库连接池
pip install DBUtils

注:Windows安装Celery时最好安装3.1.25版本,不然可能会有意想不到的惊喜。

FOFA API

文档:https://fofa.so/api

请求:https://fofa.so/api/v1/search/all

请求方式:GET

请求参数:

响应:

数据库设计

设计数据库存放FOFA爬虫数据,方便统计查询。

SQL语句

DROP TABLE IF EXISTS `fofa_spider`;
CREATE TABLE `fofa_spider` (
`id` INT (11) NOT NULL AUTO_INCREMENT,
`host` VARCHAR (255) NOT NULL,
`ip` VARCHAR (255) NOT NULL,
`port` VARCHAR (255) DEFAULT NULL,
`protocol` VARCHAR (255) NOT NULL,
`country_name` VARCHAR (255) DEFAULT NULL,
`region_name` VARCHAR (255) DEFAULT NULL,
`city_name` VARCHAR (255) DEFAULT NULL,
`fofa_sql` text NOT NULL,
`create_date` DATETIME NOT NULL,
`update_date` DATETIME NOT NULL,
PRIMARY KEY (`id`)
) ENGINE = INNODB DEFAULT CHARSET = utf8mb4;

数据库SQL文件:https://github.com/0nise/scripts/blob/master/fofa_spider.sql

小试牛刀

本节主要讲解可适用与一般的FOFA爬虫,如果需要大批量数据爬虫请您接着往下看。

环境

语言:python2.7

中间件:MySQL

第三方包:pymysql/requests/

场景:小规模爬虫/一般爬虫

通过查看FOFA API可以得知请求地址和参数,开局一句话功能全靠编。

请求中心

在发送大量的http请求时最好使用统一的HTTP请求中心,方便控制,代码重复利用,提高效率。

session = requests.session()
# 请求头
headers = {
'Upgrade-Insecure-Requests': '1',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'
}
'''
请求中心,控制程序所有HTTP请求,如果请求发生错误进行尝试再次连接
@param url 请求连接
home.php?mod=space&uid=126298 请求响应结果
'''
def fofa_requests(url):
rs_content = ''
while True:
try:
rs = session.get(api_url, verify=False,headers=headers)
rs_text = rs.text
results = json.loads(rs_text)
total_size = results['size']
error = results
if results['error'] and 'None' not in results['error']:
info = u'fofa 错误:'+results['error']+u' 休眠30s'
logging.error(info)
time.sleep(30)
else:
rs_content = results
except Exception as e:
logging.error(u'fofa 错误:'+str(e.message)+u' 休眠30s')
traceback.print_exc()
time.sleep(30)
return rs_content

数据库存储

有了统一的请求中心接下来就该编写入库代码,将爬虫结果存入数据库中。

'''
批量数据存入数据库
@param results
@param page_no 当前页数
@param page_total 总页数
'''
def batch_insert_db(results,page_no,page_total,fofa_sql):
try:
Z = []
for result in results:
a = (str(result[0]),str(result[1]),str(result[2]),str(result[3]),str(result[4]),str(result[5]),str(result[6]),pymysql.escape_string(fofa_sql))
Z.append(a)
sql = "INSERT IGNORE INTO fofa_spider(id,host,ip,port,protocol,country_name,region_name,city_name,fofa_sql,create_date,update_date) VALUES(DEFAULT,%s,%s,%s,%s,%s,%s,%s,%s,NOW(),NOW())"
cursor.executemany(sql, Z)
connection.commit()
logging.info(u'存入数据库ok,总数量为:'+str(len(Z))+u', page--> '+str(page_no)+'/'+str(page_total))
except Exception as e:
logging.error(u"存入数据库错误,错误信息:"+e.message)
traceback.print_exc()

核心业务代码

可以存入数据库中就该写核心的函数逻辑函数,输入参数仅为FOFA检索语句。

'''
fofa 爬虫主函数
@param fofa_sql fofa查询语句
'''
def main(fofa_sql):
base64_str = base64.b64encode(fofa_sql)
fields_str = ','.join(fields)
api_url = 'http://fofa.so/api/v1/search/all?email='+fofa_name+'&key='+fofa_key+'&fields='+fields_str+'&size='+str(page_size)+'&page='+str(page_start)+'&qbase64='+base64_str
rs = fofa_requests(api_url)
total_size = rs['size']
# 计算页数
page_end = total_size / page_size + 1 if total_size % page_size != 0 else total_size / page_size
# 存入u 数据库
batch_insert_db(rs['results'],page_start,page_end,fofa_sql)
for page_no in range(1,page_end+1):
api_url = 'http://fofa.so/api/v1/search/all?email='+fofa_name+'&key='+fofa_key+'&fields='+fields_str+'&size='+str(page_size)+'&page='+str(page_no)+'&qbase64='+base64_str
batch_insert_db(rs['results'],page_start,page_end,fofa_sql)

程序运行结果:

完整代码地址:

https://github.com/0nise/scripts/blob/master/fofa_spider.py

注:运行脚本之前先配置相关配置信息(数据库/FOFA信息)

进阶

问题

针对一般的数据爬虫,上述方法可以完美适应。但如果需要爬虫的是为千万级别规模的数据,上述方法就不适用了,解决方案一般有多线程/多进程/协程等。

思路

针对大规模数据爬虫,很多人想到的是多线程/多进程/协程等方案,但是这些方案的可扩展并不是很强,如果需要调整工具需要停止程序修改程序等,这里我是使用生产者和消费的思路来处理。只需要对上述的代码做轻微修改就可以完美的适应大规模数据爬虫,这里我使用redis+celery的方式来实现。

Redis

Redis是一款开源的、高性能的键-值存储(key-value store)。它常被称作是一款数据结构服务器(data structure server)。

Redis的键值可以包括字符串(strings)类型,同时它还包括哈希(hashes)、列表(lists)、集合(sets)和 有序集合(sorted sets)等数据类型。 对于这些数据类型,你可以执行原子操作。例如:对字符串进行附加操作(append);递增哈希中的值;向列表中增加元素;计算集合的交集、并集与差集等。

为了获得优异的性能,Redis采用了内存中(in-memory)数据集(dataset)的方式。同时,Redis支持数据的持久化,你可以每隔一段时间将数据集转存到磁盘上(snapshot),或者在日志尾部追加每一条操作命令(append only file,aof)。

Redis同样支持主从复制(master-slave replication),并且具有非常快速的非阻塞首次同步( non-blocking first synchronization)、网络断开自动重连等功能。同时Redis还具有其它一些特性,其中包括简单的事物支持、发布订阅 ( pub/sub)、管道(pipeline)和虚拟内存(vm)等 。

Redis具有丰富的客户端,支持现阶段流行的大多数编程语言。

celery

简介

Celery(芹菜)是一个简单、灵活且可靠的,处理大量消息的分布式系统,并且提供维护这样一个系统的必需工具。

任务队列

任务队列是一种在线程或机器间分发任务的机制。

消息队列

消息队列的输入是工作的一个单元,称为任务,独立的职程(Worker)进程持续监视队列中是否有需要处理的新任务。

Celery 用消息通信,通常使用中间人(Broker)在客户端和职程间斡旋。这个过程从客户端向队列添加消息开始,之后中间人把消息派送给职程,职程对消息进行处理。如下图所示:

Celery 系统可包含多个职程和中间人,以此获得高可用性和横向扩展能力。

架构

Celery的架构由三部分组成,消息中间件(message broker),任务执行单元(worker)和任务执行结果存储(task result store)组成。

消息中间件

Celery本身不提供消息服务,但是可以方便的和第三方提供的消息中间件集成,包括,RabbitMQ,Redis,MongoDB等,这里我先去了解RabbitMQ,Redis。

任务执行单元

Worker是Celery提供的任务执行的单元,worker并发的运行在分布式的系统节点中。

任务结果存储

Task result store用来存储Worker执行的任务的结果,Celery支持以不同方式存储任务的结果,包括Redis,MongoDB,Django ORM,AMQP等,这里我先不去看它是如何存储的,就先选用Redis来存储任务执行结果。

修改

添加celery配置信息

'''
Celery
'''
from celery import platforms,Celery
platforms.C_FORCE_ROOT = True
# Redis连接地址,如果为本机不需要做修改
broker = 'redis://127.0.0.1:6379/0'
app = Celery('fofa_spider',broker=broker)

添加核心函数

'''
celery 爬虫
@param api_url 爬虫URL
@param fofa_sql FOFA语句
'''
@app.task
def celery_spider(api_url,fofa_sql):
rs = fofa_requests(api_url)
batch_insert_db(rs['results'],fofa_sql)

修改业务逻辑代码

'''
fofa 爬虫主函数
@param fofa_sql fofa查询语句
'''
def main(fofa_sql):
base64_str = base64.b64encode(fofa_sql)
fields_str = ','.join(fields)
api_url = 'http://fofa.so/api/v1/search/all?email='+fofa_name+'&key='+fofa_key+'&fields='+fields_str+'&size='+str(page_size)+'&page='+str(page_start)+'&qbase64='+base64_str
rs = fofa_requests(api_url)
total_size = rs['size']
# 计算页数
page_end = total_size / page_size + 1 if total_size % page_size != 0 else total_size / page_size
# 存入数据库
batch_insert_db(rs['results'],fofa_sql)
for page_no in range(1,page_end+1):
api_url = 'http://fofa.so/api/v1/search/all?email='+fofa_name+'&key='+fofa_key+'&fields='+fields_str+'&size='+str(page_size)+'&page='+str(page_no)+'&qbase64='+base64_str
logging.info('send task -->'+api_url)
celery_spider.delay(api_url,fofa_sql)

完整代码地址:

https://github.com/0nise/scripts/blob/master/fofa_spider_ext.py

运行

运行python fofa_spider_ext.py发送需要爬虫的任务信息

运行celery -A fofa_spider_ext worker -l info进行消费爬虫

运行成功

数据库信息

FOFA爬虫大法——API的简单利用的更多相关文章

  1. Socket编程实践(2) Socket API 与 简单例程

    在本篇文章中,先介绍一下Socket编程的一些API,然后利用这些API实现一个客户端-服务器模型的一个简单通信例程.该例子中,服务器接收到客户端的信息后,将信息重新发送给客户端. socket()函 ...

  2. 【百度地图API】如何利用地图API制作汽车沿道路行驶的动画?——如何获得道路层数据

    原文:[百度地图API]如何利用地图API制作汽车沿道路行驶的动画?--如何获得道路层数据 有几个做汽车导航的朋友问我说,他们想在地图上制作一辆车沿着道路行驶的动画.可是,百度地图的道路数据并没有公开 ...

  3. PHP简单利用token防止表单重复提交

    <?php /* * PHP简单利用token防止表单重复提交 * 此处理方法纯粹是为了给初学者参考 */ session_start(); function set_token() { $_S ...

  4. demo工程的清单文件及activity中api代码简单示例

    第一步注册一个账户,并创建一个应用.获取app ID与 app Key. 第二步下载sdk 第三步新建工程,修改清单文件,导入相关的sdk文件及调用相应的api搞定. 3.1 修改清单文件,主要是加入 ...

  5. PHP简单利用token防止表单重复提交(转)

    <?php/* * PHP简单利用token防止表单重复提交 */function set_token() { $_SESSION['token'] = md5(microtime(true)) ...

  6. 【高德API】如何利用MapKit开发全英文检索的iOS地图

    原文:[高德API]如何利用MapKit开发全英文检索的iOS地图 制作全英文地图的展示并不困难,但是要制作全英文的数据检索列表,全英文的信息窗口,你就没办法了吧.告诉你,我有妙招!使用iOS自带的M ...

  7. 【百度地图API】如何利用PhoneGap制作地图APP

    原文:[百度地图API]如何利用PhoneGap制作地图APP 摘要:百度地图API是一套由javascript编写的地图程序接口,按说它应该运行在浏览器上.现在,只要利用PhoneGap,我们就能开 ...

  8. 【百度地图API】如何利用自己的数据制作社交地图?只显示可视区域内的标注

    原文:[百度地图API]如何利用自己的数据制作社交地图?只显示可视区域内的标注 摘要:如果你自己的数据已经超过1万个,如何进行合理的显示?除了聚合marker外,还有一个办法.那就是,只显示可视区域内 ...

  9. Android BLE与终端通信(一)——Android Bluetooth基础API以及简单使用获取本地蓝牙名称地址

    Android BLE与终端通信(一)--Android Bluetooth基础API以及简单使用获取本地蓝牙名称地址 Hello,工作需要,也必须开始向BLE方向学习了,公司的核心技术就是BLE终端 ...

随机推荐

  1. unity零基础开始学习做游戏(四)biu~biu~biu发射子弹打飞机

    -------小基原创,转载请给我一个面子 主角都能移动了,那不得做点什么伸张正义,守护世界和平的事嘛,拿起家伙biu~biu~biu~ 首先得做一个好人和一个坏人 老规矩,Canvas下创建两个Im ...

  2. 学习Timer定时器

    原文地址:http://www.cppblog.com/ivenher/articles/19969.html setTimer函数用于创建一个计时器,KillTimer函数用于销毁一个计时器.计时器 ...

  3. Java自学?Java编程资源大放送

    黑马程序员 北京JavaEE就业班32期教程视频+源码+资料 链接: https://pan.baidu.com/s/1VCXyNVD-LvlZyReVgzKXGg 密码:cike 黑马:Java基础 ...

  4. Vue.js与Jquery的比较 谁与争锋 js风暴

    普遍认为jQuery是适合web初学者的起步工具.许多人甚至在学习jQuery之前,他们已经学习了一些轻量JavaScript知识.为什么?部分是因为jQuery的流行,但主要是源于经验开发人员的一个 ...

  5. 【转】javascript 浮点数运算问题

    大多数语言在处理浮点数的时候都会遇到精度问题,但是在JS里似乎特别严重,来看一个例子 alert(45.6*13); 结果居然是592.800000000001,当然加法之类的也会有这个问题 那这是j ...

  6. python爬虫入门(二)Opener和Requests

    Handler和Opener Handler处理器和自定义Opener opener是urllib2.OpenerDirector的实例,我们之前一直在使用urlopen,它是一个特殊的opener( ...

  7. java项目获取根路径(web项目和application项目的区分)

    Java项目中经常要读取配置文件,涉及到读取配置文件的地方,就会要读定位文件的路径.因此,在项目如何正确获取文件路径尤为关键. 根据不同的java项目,在获取文件路径时候有一些 小区别 测试环境:E: ...

  8. Windows系统下 Python(Anaconda)的 Dlib库 的安装

    0.引言 介绍 Windows 10 64位系统下,利用 Anaconda 开发环境,在python中安装 Dlib库 : windows下dlib的安装十分不友好,所以在这里分享下安装过程: win ...

  9. 用Java制作一个简单的图片验证码

    //Java实现简单验证码功能 package project; import java.awt.Color; import java.awt.Font;import java.awt.Graphic ...

  10. 【踩坑】iconfont使用异常bug

    你见过html页面上'x'字符变成打印机图标么?一般人应该没有. -----------------------诡异bug----------------------- 今天测试报了一个bug,说页面 ...