AI安全初探——利用深度学习检测DNS隐蔽通道
AI安全初探——利用深度学习检测DNS隐蔽通道
目录
AI安全初探——利用深度学习检测DNS隐蔽通道
1、DNS 隐蔽通道简介
2、 算法前的准备工作——数据采集
3、 利用深度学习进行DNS隐蔽通道检测
4、 验证XShell的检测效果
5、 结语
1、DNS 隐蔽通道简介
DNS 通道是隐蔽通道的一种,通过将其他协议封装在DNS协议中进行数据传输。由于大部分防火墙和入侵检测设备很少会过滤DNS流量,这就给DNS作为隐蔽通道提供了条件,从而可以利用它实现诸如远程控制、文件传输等操作,DNS隐蔽通道也经常在僵尸网络和APT攻击中扮演着重要的角色。
DNS隐蔽通道可以分为直连和中继两种模式。直连也就是Client直接和指定的目标DNS Server(授权的NS 服务器)连接,通过将数据编码封装在DNS协议中进行通信,这种方式速度快,但是限制比较多,很多场景不允许用户指定DNS Server。而中继模式的DNS通道则更为隐蔽,但同时也因为数据包到达目标DNS Server前需要经过多个DNS查询服务器,所以速度上较直连模式慢很多。中继模式的DNS通道原理如图1所示。
图1 中继模式下的DNS隐蔽通道原理
例如,前段时间著名的XShell DNS通道攻击,黑客在Xshell中植入恶意代码,通过DNS隐蔽通道外发用户敏感数据的示例如图2 所示,黑客将外发数据藏在nylalobghyhirgh.com子域名中。
图2 Xshell DNS隐蔽通道,黑客将外发数据藏在nylalobghyhirgh.com子域名中
DNS 隐蔽通道从提出到现在已经有了很多实现工具,历史比较早的有NSTX、Ozymandns,目前比较活跃的有iodine、dnscat2、dns2tcp,其他不太常见的还有DeNise、Heyoka等。不同工具的核心原理相似,但在编码、实现细节和应用场景方面存在一定的差异。
本文使用卷积神经网络(CNN)来检测DNS隐蔽通道。第一步工作是样本数据采集。
2、算法前的准备工作——数据采集
利用上述DNS隐蔽通道工具进行“黑”样本采集工作见另一篇博文《DNS隐蔽通道检测——数据收集,利用iodine进行DNS隐蔽通道样本收集》,其流程是先抓取DNS隐蔽通道工具攻击过程中的网络流量pcap包,然后利用wireshark工具将pcap包转换为机器学习算法能够识别文本文件。这是一个体力活,我收集到的业界流行的DNS 隐蔽通道工具的数据样本如图3所示。
图3 收集的DNS隐蔽通道工具示意样本
以dnscat2工具为例,其生成的一个样本见图4,可以看到DNS报文里包含了大量的较长子域名,而外发数据便藏在这些子域名中(我使用的主域名是friendsakka.xyz)。
图4 dnscat2工具生成的示意样本
至于“白”样本收集,我们使用的是某高校的校园网络流量。黑白样本收集好以后,就可以进入检测算法环节了。
3、利用深度学习进行DNS隐蔽通道检测
本文使用CNN(卷积神经网络)来检测DNS隐蔽通道,在介绍算法前,先简单介绍下CNN。
CNN(卷积神经网络)常用于图像识别并取得了极佳的效果。图5展示的是一个典型的卷积神经网络结构。该网络包含两个卷积层(convolution layer),两个池化层(pooling layer)和一个全连接层(fully connected layer)。
图5 典型的卷积神经网络结构
卷积神经网络的基本思想和我们人类大脑识别图像的机制是一致的。例如,当看到一张“喵星人”图像时,我们之所以认为它是“喵星人”,是因为我们看到它有萌萌的头、长长的尾巴、柔软光滑的皮毛等明显特征,通过组合(更高层次的抽象)这些特征,我们的大脑最终便可做出准确的判断。卷积神经网络的基本思想也是类似,核心理念包括:
- 局部感受野:这是通过卷积层来完成的,形象地说,就是模仿你的眼睛,想想看,你在看东西的时候,目光是聚焦在一个相对较小的局部吧?比如喵星人的图像上有爪子或者萌头等明显的局部特征。而在卷积神经网络中,每个隐层节点只连接到图像的某些局部像素点上。
- 池化:形象地说,当你看向远方,然后闭上眼睛,你仍然记得看到了些什么,但是你能完全记住你刚刚看到的每一个细节吗?答案是不能。同样,在卷积神经网络中,没有必要对原图像所有细节做处理,而是使用某种“压缩”方法,这就是池化,也就是每次将原图像卷积后,都通过一个采样的过程,来减小图像的规模。
- 权值共享:在卷积神经网中,同一个卷积核内,所有的神经元的权值是相同的,从而大大减少需要训练的参数。之所以如此设计,就如同人类大脑的某个神经中枢中的神经细胞,它们的结构、功能是相同的,甚至可以互相替代。
如果你还没有理解的话,我们再看下面这个例子,专家们设计了包含10个卷积层,4个池化层和2个全连接层的卷积神经网络,见图6所示,该网络主要用于图像识别。专家们发现,在比较低的层,神经元倾向于学习一些简单的模式,比如图像边缘、颜色、条带灯;而在比较高的层,神经元能够检测到一些更为高层次的抽象特征,比如整辆轿车等。
图6 专家构建的用于图像识别的卷积神经网络
CNN的诞生是为了解决图像处理问题。在安全界,瀚思科技开发出了基于深度学习的二进制病毒样本检测技术,可以做到沙箱同等水平的 99% 的检测准确率,而误报率低于 1/1000。
CNN检测的图像通常是二维数据,而作为DNS隐蔽通道传输的子域名虽是一维的文本数据,但同样可以用CNN进行处理。在本文的DNS隐蔽通道检测中,我们使用一维的卷积函数处理DNS子域名片段,以提炼高级特征进一步分析。
利用CNN进行DNS隐蔽通道检测的代码框架如下:
def run():
X, Y, max_len, volcab_size = get_data()
trainX, testX, trainY, testY = train_test_split(X, Y, test_size=0.2, random_state=42)
model = get_cnn_model(max_len, volcab_size)
model.fit(trainX, trainY, validation_set=(testX, testY), show_metric=True, batch_size=32)
大致流程是先获取黑白样本数据,然后将80%的数据用于训练,剩下20%的数据用于CNN模型验证。
其中,get_cnn_model使用了python的TensorFlow库tflearn,其代码如下:
def get_cnn_model(max_len, volcab_size):
# 构建CNN模型
network = tflearn.input_data(shape=[None, max_len], name='input')
# 为了进行数据降维加入了embedding层
network = tflearn.embedding(network, input_dim=volcab_size, output_dim=64)
# 卷积层使用了一维的卷积函数
branch1 = conv_1d(network, 128, 3, padding='valid', activation='relu', regularizer="L2")
branch2 = conv_1d(network, 128, 4, padding='valid', activation='relu', regularizer="L2")
branch3 = conv_1d(network, 128, 5, padding='valid', activation='relu', regularizer="L2")
network = merge([branch1, branch2, branch3], mode='concat', axis=1)
network = tf.expand_dims(network, 2)
# 最大池化操作
network = global_max_pool(network)
# 加入dropout防止过拟合
network = dropout(network, 0.5)
# 全连接
network = fully_connected(network, 2, activation='softmax')
# 回归操作
network = regression(network, optimizer='adam', learning_rate=0.001,
loss='categorical_crossentropy', name='target')
# 构建深度神经网络模型
model = tflearn.DNN(network, tensorboard_verbose=0)
return model
在上述模型中,为了进行数据降维先加入了embedding层,其本质和word2vec一样,因为在DNS 隐蔽通道的子域名中包含了大量的字符而导致数据输入维度过高,代码中output_dim=64表示将数据输入降低维度到64维。接下来我们使用一维的卷积函数conv_1d处理DNS子域名片段,提炼高级特征进一步分析。由于典型的一维卷积函数处理文字片段的大小通常为3、4、5,我们也使用这些典型参数。此外,模型中加入了dropout,用于防止过拟合。
获取黑白样本数据的代码如下,其中包括对原始的子域名字符进行字典编码(先得到黑白样本所有子域名字符集合),并使用pad_sequences函数按照固定长度进行子域名长度对齐操作(因CNN要求各样本数据输入维度一致,而某些子域名很短,某些子域名很长,pad_sequences将短的子域名采用特殊数字进行填充补齐,使它们长度一致):
def get_data():
black_x, white_x = get_local_data()
black_y, white_y = [LABEL.black]*len(black_x), [LABEL.white]*len(white_x)
X = black_x + white_x
labels = black_y + white_y # Generate a dictionary of valid characters
valid_chars = {x:idx+1 for idx, x in enumerate(set(''.join(X)))} max_features = len(valid_chars) + 1
maxlen = np.max([len(x) for x in X]) # Convert characters to int and pad
X = [[valid_chars[y] for y in x] for x in X]
X = pad_sequences(X, maxlen=maxlen, value=0.) # Convert labels to 0-1
Y = to_categorical(labels, nb_classes=2) return X, Y, maxlen, max_features
其中,get_local_data主要是从样本文件中提取DNS子域名。
def get_local_data(tag="labeled"):
data_path = "latest_metadata_sample"
black_data, white_data = [], []
for dir_name in ("black", "white_like"):
dir_path = "%s/%s_%s" % (data_path, tag, dir_name)
for path in iterbrowse(dir_path):
with open(path) as f:
for line in f:
_, subdomain = extract_subdomain(line)
if subdomain is not None:
if "white_like" in path:
white_data.append(subdomain)
elif "black" in path:
black_data.append(subdomain)
return black_data, white_data
核心代码讲解完毕,开始进行模型训练。在我的个人电脑上,算法运行时间大概17小时,最后的结果如下:
Run id: 6U1KPD Log directory: /tmp/tflearn_logs/ -- Training Step: | total loss: 0.03967 | time: .696s | Adam | epoch: | loss: 0.03967 - acc: 0.9888 | val_loss: 0.02546 - val_acc: 0.9926 -- iter: / -- Training Step: | total loss: 0.03562 | time: .500s5776/ | Adam | epoch: | loss: 0.03562 - acc: 0.9917 | val_loss: 0.01793 - val_acc: 0.9948 -- iter: / -- Training Step: | total loss: 0.03433 | time: .422s | Adam | epoch: | loss: 0.03433 - acc: 0.9888 | val_loss: 0.01432 - val_acc: 0.9962 -- iter: / -- Training Step: | total loss: 0.02852 | time: .083s | Adam | epoch: | loss: 0.02852 - acc: 0.9892 | val_loss: 0.01186 - val_acc: 0.9972 -- iter: / -- Training Step: | total loss: 0.02441 | time: .232s | Adam | epoch: | loss: 0.02441 - acc: 0.9947 | val_loss: 0.01398 - val_acc: 0.9960 -- iter: / -- Training Step: | total loss: 0.01890 | time: .252s | Adam | epoch: | loss: 0.01890 - acc: 0.9930 | val_loss: 0.01373 - val_acc: 0.9963 -- iter: / -- Training Step: | total loss: 0.00921 | time: .734s | Adam | epoch: | loss: 0.00921 - acc: 0.9984 | val_loss: 0.01290 - val_acc: 0.9966 -- iter: / -- Training Step: | total loss: 0.00780 | time: .017s | Adam | epoch: | loss: 0.00780 - acc: 0.9994 | val_loss: 0.01177 - val_acc: 0.9970 -- iter: / -- Training Step: | total loss: 0.01850 | time: .918s | Adam | epoch: | loss: 0.01850 - acc: 0.9951 | val_loss: 0.01109 - val_acc: 0.9971 -- iter: / -- Training Step: | total loss: 0.02062 | time: .476s | Adam | epoch: | loss: 0.02062 - acc: 0.9953 | val_loss: 0.00966 - val_acc: 0.9974 -- iter: /
可以看到算法迭代了10次,每次训练时间一个多小时,最终的检测精度在99.53%,使用CNN进行DNS隐蔽通道的检测效果初步看来还不错。但是,因为训练样本和测试样本的内在数据分布规律是相同的,该精度再高也可能存在一定的过拟合风险。下面我们利用前段时间著名的XShell DNS隐蔽通道攻击来评估算法的检测能力。
4、验证XShell的检测效果
我们尝试用训练出的算法检测前段时间著名的XShell隐蔽通道攻击,其进行攻击的域名为nylalobghyhirgh.com,将包含该攻击的DNS样本加入到模型预测中:
def predict():
testX, testY = get_xshell_data()
model = get_cnn_model()
....
predictions = model.predict(testX)
cnt = 0
for i,p in enumerate(predictions): if abs(p[2]-testY[i][2]) < 0.1: cnt += 1
print cnt/(len(predictions)+.0)
代码运行后得到的检测准确率为97.3%,也就意味着nylalobghyhirgh.com下97.3%的子域名都可能是在利用DNS隐蔽通道传输数据。
上述验证表明,使用CNN可以有效地检测DNS隐蔽通道。当然,最终的检测准确率还需在真实而复杂的网络环境中长期运行观察而定。
5、结语
本文只是AI安全初探的一次尝试,大致说明了使用深度学习算法CNN进行安全检测的基本流程,文中有写得不明白的地方,欢迎大家留言一起探讨。
转载请注明出处:http://www.cnblogs.com/bonelee/p/8109172.html
参考资料:
1、http://blog.csdn.net/baobei0112/article/details/54906309
2、https://yq.aliyun.com/articles/68901
3、http://www.freebuf.com/articles/network/153345.html
AI安全初探——利用深度学习检测DNS隐蔽通道的更多相关文章
- 【AI in 美团】深度学习在OCR中的应用
AI(人工智能)技术已经广泛应用于美团的众多业务,从美团App到大众点评App,从外卖到打车出行,从旅游到婚庆亲子,美团数百名最优秀的算法工程师正致力于将AI技术应用于搜索.推荐.广告.风控.智能调度 ...
- 一张图看懂AI、机器学习和深度学习的区别
AI(人工智能)是未来,是科幻小说,是我们日常生活的一部分.所有论断都是正确的,只是要看你所谈到的AI到底是什么. 例如,当谷歌DeepMind开发的AlphaGo程序打败韩国职业围棋高手Lee Se ...
- 利用机器学习进行DNS隐蔽通道检测——数据收集,利用iodine进行DNS隐蔽通道样本收集
我们在使用机器学习做DNS隐蔽通道检测的过程中,不得不面临样本收集的问题,没办法,机器学习没有样本真是“巧妇难为无米之炊”啊! 本文简单介绍了DNS隐蔽通道传输工具iodine,并介绍如何从iodin ...
- DNS隐蔽通道 是可以通过dig 子域名来追踪其真实IP的
比如a.friendskaka.com 是我的外发子域名,那么可以按照下面两个命令来追踪IP: bonelee@bonelee-VirtualBox:~/桌面$ dig auth.a.friendsk ...
- 使用深度学习检测TOR流量——本质上是在利用报文的时序信息、传输速率建模
from:https://www.jiqizhixin.com/articles/2018-08-11-11 可以通过分析流量包来检测TOR流量.这项分析可以在TOR 节点上进行,也可以在客户端和入口 ...
- 使用深度学习检测DGA(域名生成算法)——LSTM的输入数据本质上还是词袋模型
from:http://www.freebuf.com/articles/network/139697.html DGA(域名生成算法)是一种利用随机字符来生成C&C域名,从而逃避域名黑名单检 ...
- R-CNN,SPP-NET, Fast-R-CNN,Faster-R-CNN, YOLO, SSD, R-FCN系列深度学习检测方法梳理
1. R-CNN:Rich feature hierarchies for accurate object detection and semantic segmentation 技术路线:selec ...
- R-CNN,SPP-NET, Fast-R-CNN,Faster-R-CNN, YOLO, SSD系列深度学习检测方法梳理
1. R-CNN:Rich feature hierarchies for accurate object detection and semantic segmentation 技术路线:selec ...
- 【AI in 美团】深度学习在文本领域的应用
背景 近几年以深度学习技术为核心的人工智能得到广泛的关注,无论是学术界还是工业界,它们都把深度学习作为研究应用的焦点.而深度学习技术突飞猛进的发展离不开海量数据的积累.计算能力的提升和算法模型的改进. ...
随机推荐
- Codeforces Round #198 (Div. 2)C,D题解
接着是C,D的题解 C. Tourist Problem Iahub is a big fan of tourists. He wants to become a tourist himself, s ...
- ffmpeg编码
1. 注册所有容器格式和CODEC:av_register_all()2. 打开文件:av_open_input_file()3. 从文件中提取流信息:av_find_stream_info()4. ...
- 让.bashrc文件在终端自动生效
修改了.bashrc文件,想在打开终端时默认路径变成桌面路径.代码如下 cd ~/desktop export PATH="/Users/nola/local:$PATH" 但是每 ...
- Python编程Web框架 :Django 从入门到精通
Django是一个高级别的Python Web框架,它鼓励快速开发和干净实用的设计. 现在我们开始学习它. Django学习之 第一章:Django介绍 Django学习之 第二章:Django快速上 ...
- 错误:the apk for your currently selected variant(app-release-unsigned.apk)is not signed.Please specity a signing configuration for this variant(release)
1:导入android studio project 时总会出现运行处一个红色叉号,这里可以点击选择叉号上面显示的Edit Configurations 查看右下角的错误警告信息.: 2:记录错误: ...
- sql中数据库连接与断开式连接有什么区别?
连接式指的是对数据的操作在 conn.Open() 与 conn.Close()之间: 断开式连接指的是 conn.Open()打开连接之后,先将数据放入adapter中,然后关闭连接(conn.Cl ...
- SQL Server-聚焦强制索引查询条件和Columnstore Index
前言 本节我们再来穿插讲讲索引知识,后续再讲数据类型中的日期类型,简短的内容,深入的理解,Always to review the basics. 强制索引查询条件 前面我们也讲了一点强制索引查询的知 ...
- SQL 字段类型详解
bit 整型 bit数据类型是整型,其值只能是0.1或空值.这种数据类型用于存储只有两种可能值的数据,如Yes 或No.True 或False .On 或Off. 注意:很省空间的一种数据 ...
- 接口测试及Postman工具
首先,什么是接口呢? 接口一般来说有两种,一种是程序内部的接口,一种是系统对外的接口.系统对外的接口:比如你要从别的网站或服务器上获取资源或信息,别人肯定不会把数据库共享给你,他只能给你提供一个他们写 ...
- JS棋盘
有一个棋盘,有64个方格,在第一个方格里面放1粒芝麻重量是0.00001kg, 第二个里面放2粒,第三个里面放4,棋盘上放的所有芝麻的重量 <!DOCTYPE html> <html ...