如何设计搭建一个社工库

从初起设计一个社工库,到现在的Beta,前前后后零零整整花了不下一个月的时间,林林总总记录下来,留给需要之人

泄露数据库格式不一,长相奇葩,因需将用户名、密码、邮箱、哈希等信息按表分列入库,故整理数据是很耗时间的一步

整体架构

选择了Debian x64+Mysql+Mysqlcft+Sphinx+Nginx+PHP

轻量的sqlite数据库,但查询速度及空间消耗过大,对请求时sqlite处理效率较差

mangodb,但mangodb在分布计算中有更好的优势而在社工库搭建中优势并不明显

在mysql和postgresql中,选择历久弥新的mysql

为方便社工库移植,使用VM建一个虚拟机,所有数据库均在虚拟机中,LNMP环境对外只提供PHP查询接口

实际测试中,CentOS6.4虚拟机中因断电损失过多数据,并不如预想中稳定,且对CoreSeek版本较老的mmseg中文分词编译会出现各种各样的问题,难以解决。32位的操作系统在sphinx单个索引大小上会有限制,几次折腾后还是迁回了Debian7 X64

整理数据

一般使用bash脚本完成。DEMO:

普通格式:

#!/bin/bash
sed '/^[ \t]\{0,\}$/d' $1 | sed 's/[\t ]/\t/g' | sed 's/\r//g' |sed '/^\s*$/d' | awk -F"\t" '{print "NULL|||"$1"|||"$2"||||||"$1"|||xxxx|||" }' | iconv -c -f gb18030 -t UTF-8 | sort | uniq
he

UCmember格式:

#!/bin/bash
sed 's/[\r\n ]//g' $1 | tr -d '\n' | sed "s/INSERTINTO\`bbs\_uc\_members\`VALUES(//g" | sed "s/','/\t/g" | sed "s/,'/\t/g" | sed "s/',/\t/g" |sed "s/');/\n/g" | awk -F"\t" '{ print "NULL|||"$2"||||||"$3"|||"$9"|||"$4"|||"$7"|||xxxx+xxxx+evil++"}' | sed "/+evil++||||||||||||/d"

PW_MEMBER格式:

#!/bin/bash
sed 's/[\r\n ]//g' $1 | tr -d '\n' | sed "s/INSERTINTO\`pw_members\`VALUES('/\n/g" | sed "s/','/\t/g" | awk -F"\t" '{ print $1"|||"$2"||||||"$3"|||"$5"|||xxxx|||"}' | sed "/+evil++||||||||||||/d"

文件内格式不同的处理脚本eg:

#!/bin/bash
sed 's/\r//g' $1 | sed "s/'/[fenhao]/g" | sed 's/[ \t]\{1,\}/\t/g' | sed 's/----/\t/g' | awk -F "\t" '{ if ($2~/@163.com/)
{
if ($3~/^$/) {print "NULL|||"$1"|||"$2$3"||||||"}
else {print "NULL|||"$1"|||"$3"||||||"}
}
else
{print "NULL|||"$1"|||"$2"||||||"}
}' | iconv -c -f gb18030 -t UTF-8 | sort | uniq

批量按行导入:

#!/bin/bash
sed '/^[ \t]\{0,\}$/d' $1 | sed 's/\r//g' | sed '/^\s*$/d' | awk '{print "NULL|||"$0"|||xxxx|||" }'

对于数据库设计也尤为重要。测试后、按表存储、单表记录数不超过3000W,否则建全文索引时间过长。

库表设计
CREATE TABLE `evil_xxxx_1` (
`id` INT( 10 ) NOT NULL AUTO_INCREMENT,
`username` VARCHAR( 64 ) ,
`password` VARCHAR( 64 ) ,
`passhash` VARCHAR( 64 ) ,
`email` VARCHAR( 64 )
); CREATE TABLE `evil_ucmember_1` (
`id` INT( 10 ) NOT NULL AUTO_INCREMENT,
`username` VARCHAR( 64 ) ,
`password` VARCHAR( 64 ) ,
`passhash` VARCHAR( 64 ) ,
`salt` VARCHAR( 16 ) ,
`email` VARCHAR( 64 ) ,
`ip` VARCHAR( 32 ) ,
`site` VARCHAR( 64 ) ,
PRIMARY KEY (id)
); CREATE TABLE `evil_multinfo_1` (
`id` INT( 10 ) NOT NULL AUTO_INCREMENT,
`info` VARCHAR( 1024 ) ,
`site` VARCHAR( 64 ) ,
PRIMARY KEY (id)
);

分表的一个方案:

INSERT INTO evil_xx_1(evil_xx_1.id,evil_xx_1.username,evil_xx_1.password,evil_xx_1.passhash) SELECT evil_xx.id,evil_xx.username,evil_xx.password,evil_xx.passhash FROM evil_xx where user.id <= 30000000;
命令查询
show table status;//查看数据库状态
desc table; //查看表结构
set names 'utf8';//设置编码,数据表统一编码UTF-8
drop index index_name on table_name; //删除索引
alter table table_name add primary key(id);//添加主键
alter table table_name drop PRIMARY KEY;//去掉主键
truncate table table_name;//清空表中数据
alter table 表名 rename to 新表名;//重命名表
alter table table_name change Name Name varchar(16);//重命名列及格式
alter table table_name add column xxxx varchar(64) after aaaa;//添加列
alter table 表名 drop column 列名;//删除列
set @t=0;
update table_name set id=(@t:=@t+1);//重建ID
导入数据
load data infile '/tmp/xxxx.sql'
into table `evil_xxxx`
fields terminated by '|||'
lines terminated by '\n';

速度相对较快

关于索引

中文全文索引主要依赖mysqlctf和sphinx,测试发现,sphinx对于分词索引速度较快,但分词的原因导致诸如搜索humor却搜索不到humorous的情况,而mysqlctf索引速度相对较慢且无进度信息,但索引大小可控,一般全文索引1G数据库信息对应MYI大小为5-9G

关于Coreseek的编译使用,官方有较多文档

Sphinx配置文件(全文检索包括分词及最小分词5字母)

source evil_xxx
{
type = mysql
sql_host = localhost
sql_user = ooo
sql_pass = xxx
sql_db = db
sql_port = 3306
sql_query_pre = SET NAMES utf8
sql_query = SELECT id,username,password,passhash,email FROM xxxx
sql_query_info = SELECT * FROM xxxx WHERE id=$id
} index evil_xxx
{
source = evil_xxx
path = /usr/local/coreseek/var/data/evil_xxx
docinfo = extern
mlock = 0
morphology = none
min_word_len = 1
html_strip = 0
charset_dictpath = /usr/local/mmseg3/etc/
charset_type = zh_cn.utf-8
ngram_len = 0
min_infix_len = 5
enable_star = 1//允许模糊搜索
}

检索时调用官方API即可

关于MYSQLCFT建立索引的方法

首先是安装插件

wget http://mysqlcft.googlecode.com/files/mysqlcft-1.0.0-x86_64-bin.tar.gz
tar zxvf mysqlcft-1.0.0-x86_64-bin.tar.gz
mkdir -p /usr/local/mysqlcft/lib/mysql/plugin/
cp mysqlcft.so /usr/local/mysqlcft/lib/mysql/plugin/

登陆mysql后

INSTALL PLUGIN mysqlcft SONAME 'mysqlcft.so';
SHOW PLUGINS;

安装OK后建立索引

ALTER IGNORE TABLE 数据库名.表名 ADD FULLTEXT INDEX 全文联合索引名 (字段名1,字段名2) WITH PARSER mysqlcft;

ALTER IGNORE TABLE db.evil_xxxx ADD FULLTEXT INDEX fullindex(username,password,passhash,email) WITH PARSER mysqlcft;

在搜索时

SELECT * FROM evil_xxxx WHERE MATCH(username,password,passhash,email) AGAINST ('searchinfo' IN BOOLEAN MODE);

重建索引

REPAIR TABLE 数据库名.表名 QUICK;
几个Tips
  • 增加来源数据库/网站字段,方便针对查询
  • 同库分隔符格式不同,正则替换
  • 数据库引擎选择myisam(而不是INNODB),可使用alter转换
  • 入库分隔符为避免与密码字符重合,可使用类似==aaaa==等分隔符替换入库
  • 数据库中有的邮箱在前密码在后,有的密码在前,邮箱在后,使用awk多写几行分支语句
  • 配置my.cnf文件使得mysql数据处理效率最大化

社工数据搜索引擎搭建 - Build Social Engineer Evildata Search Engine的更多相关文章

  1. 社工工具包 SEToolkit

    社会工程学(Social Engineering)简称社工,其通过分析攻击对象的心理弱点,利用人性的本能反应,以及任何好奇心,贪婪等心理特征进行的,使用诸如假冒,欺骗,引诱等多种手段来达成攻击目标的一 ...

  2. Bugku-CTF社工篇之简单的个人信息收集

  3. 我是如何社工TDbank获取朋友隐私的

    原创 ziwen@beebeeto 转载请保留本行 个人感觉 国外的安全方面对社工的了解和防范并不是很好 即使他们使用社工的时间比我们要长很多 比如 他们的visa在pos机上使用是不需要密码的 而且 ...

  4. 大数据平台搭建(hadoop+spark)

    大数据平台搭建(hadoop+spark) 一.基本信息 1. 服务器基本信息 主机名 ip地址 安装服务 spark-master 172.16.200.81 jdk.hadoop.spark.sc ...

  5. python 模拟ajax查询社工库...

    在windows中使用,输入有关信息查询社工库,本来是网页版的,我把ajax请求提取出来.粗略的封装下,挺好玩. #coding:utf8 import urllib2,urllib from Bea ...

  6. 常见社工破解WPA2密码方法及防范措施

    0×00前言 何为社工?社工是一种通过利用受害者心理弱点,如本能反应.好奇心.同情心.信任.贪婪等进行诸如欺骗.盗取.控制等非法手段的一种攻击方式.在无线安全中也可以利用社工做到许多非法操作.下面举几 ...

  7. 用Python实现一个大数据搜索引擎

    用Python实现一个大数据搜索引擎 搜索是大数据领域里常见的需求.Splunk和ELK分别是该领域在非开源和开源领域里的领导者.本文利用很少的Python代码实现了一个基本的数据搜索功能,试图让大家 ...

  8. bugku 社工进阶

    首先看到的是 由于之前知道有bugku的百度吧   并且这个是一个社工题所以可以试一下这个百度吧 进入百度吧然后会见到 这句话的意思是要我们登录这个账号 但是我们只有账号没有密码  如果爆破的话很有可 ...

  9. Bugku-CTF社工篇之简单的社工尝试

随机推荐

  1. JS数组操作中的经典算法

    冒泡排序<script type="text/javascript"> var arr = [3,7,6,2,1,5]; 定义一个交换使用的中间变量var temp = ...

  2. 学习笔记TF048:TensorFlow 系统架构、设计理念、编程模型、API、作用域、批标准化、神经元函数优化

    系统架构.自底向上,设备层.网络层.数据操作层.图计算层.API层.应用层.核心层,设备层.网络层.数据操作层.图计算层.最下层是网络通信层和设备管理层.网络通信层包括gRPC(google Remo ...

  3. 1、初识socket

    经过近一个半月的学习我们已经度过了python基础的阶段,今天我们开始学习python网络编程,没有难以理解的逻辑,更注重的是记忆. 对网络协议和基础没有概念的可以在阅读本文前预习计算机基础3.网络协 ...

  4. tomcat 组件研究一--启动过程总结

    作为java 开发者,从开始学习java 便知道tomcat 这个容器了,但是一直却没有怎么研究过它的内部结构,以前对tomcat的认识也仅仅局限在那几个常用的目录放什么东西,那几个常用的配置文件应该 ...

  5. windows 资源监视器

    windows的资源监视器有很强大的资源监视能力 win+r输入resmon.exe即可打开

  6. 【转载】webstorm11(注册,激活,破解,码,一起支持正版,最新可用)(2016.11.16更新)

    很多人都发现 http://idea.lanyus.com/ 不能激活了 很多帖子说的 http://15.idea.lanyus.com/ 之类都用不了了 最近封的厉害仅作测试 选择 License ...

  7. [REST] 1.REST的起源

    0. 世界上第一个网站 1990年12月20日,这一天对于现在的互联网来说意义非凡.欧洲核子研究组织(CREN)的科学家Tim Berners-Lee在一台NeXT电脑上启动了世界上的第一个网站(当然 ...

  8. sed修炼系列(一):花拳绣腿之入门篇

    本文为花拳绣腿招式入门篇,主要目的是入门,为看懂sed修炼系列(二):武功心法做准备.虽然是入门篇,只介绍了基本工作机制以及一些选项和命令,但其中仍然包括了很多sed的工作机制细节.对比网上各sed相 ...

  9. Southwestern Europe Regional Contest 2014 题解

    时间:2017/9/8 题目8/10 Rank 5/150 体会:三星的题目和国内区域赛差距大,大多数题读懂题意就能做,所以静心读题是关键,套路性太深. A: 题意:给出一个算式,算式中的数字用大写字 ...

  10. JS中的事件以及DOM 操作

    [DOM树节点] DOM节点分为三大节点:元素节点,文本节点,属性节点. 文本节点,属性节点为元素节点的两个子节点通过getElment系列方法,可以去到元素节点 [查看节点] 1 document. ...