摘自：https://paper.seebug.org/papers/Archive/drops2/%E7%94%A8%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E8%AF%86%E5%88%AB%E9%9A%8F%E6%9C%BA%E7%94%9F%E6%88%90%E7%9A%84C%26amp%3BC%E5%9F%9F%E5%90%8D.html

0x00 前言

本文用识别由域名生成算法Domain Generation Algorithm: DGA生成的C&C域名作为例子，目的是给白帽安全专家们介绍一下机器学习在安全领域的应用，演示一下机器学习模型的一般流程。机器的力量可以用来辅助白帽专家们更有效率的工作。

本文用到的演示数据集和python演示代码请参见 https://github.com/phunterlau/dga_classifier 关于编码和行文风格过于仓促的问题，请不要在意这些细节，如果有相关问题可以微博上@phunter_lau，大家互相交流进步。

0x02 数据收集

分类的任务需要告诉机器他用来学习的正例(positive samples)和反例(negative samples)，在这里正例就是C&C域名，反例就是正常的合法域名。

正例和反例的涵盖范围和具体问题有关，具体到本文的例子，我选择Conficker（ABC三种混合）当作正例，Alexa前10万当作反例。Conficker的算法早在多年前公开。

0x03 特征工程

这几乎是整个文章最有值得读的部分。如果能把人类的经验用数量化表达给机器，机器就能学习到人类的经验，而特征(feature)就是人类经验的数量化。特征工程是个反复循环的过程，一开始我们找到基线特征，用分类算法计算并评价结果，如果结果不能达到预期，再回头来加入新的特征帮助更好的分类。

基本特征：随机性和熵

Shannon熵可以很好的判别fryjntzfvti.biz和google.com/qq.com之间的区别，因为前者用了很多不重复字母而qq.com的重复字幕比较多。但是很多合法域名的熵值和C&C域名之间的并非是绝对差距，比如baidu.com也是五个不重复的字母，这单个特征不足以最终决策，我们还一些其他高级的特征。

高级特征：还有什么能表达随机性呢

合法域名一般比较好念出来，C&C域名不好念

思考一下合法域名和C&C域名的目的，就可以想到：合法域名为了让人类记住会选一些好念（pronounceable）的域名，比如 google yahoo baidu等等有元音字母之类好念的，而C&C域名为了随机性就不太好念，比如fryjntzfvti.biz。域名里元音字母占的比重可以是个很好的特征。

“好念“这个概念也可以有另外一个高级一些的特征，叫做gibberish detection，判断一个字符串是不是能用人类的语言念出来，比如google就不是一个英文单词但是朗朗上口。这背后是一个基于马尔可夫链的模型，具体细节可以参见 https://github.com/rrenaud/Gibberish-Detector

连续 vs 分散

通过进一步观察我们可以发现，C&C域名的随机性也表现在连续出现的字母和数字上。一般随机生成的域名都不会出现大段连续的数字或者连续出现相同的字母。同时因为英文字母分布里辅音字母远多于元音字母，C&C更可能连续反复出现辅音字母，而合法域名为了好念多是元音辅音交替。这些都是不容易想到但是容易计算的特征，代码并不复杂。

还有什么？n-gram 的平均排名！

这是我个人认为比较巧妙的想法。

对于字符串文本的机器学习，n-gram （unigram（单字）bigram（相邻双字）trigram（相邻三字））常常能提供重要的特征。举例来说，fryjntzfvti.biz的域名的bigram分解是以下12个：

^f,fr,ry,yj,jn,nt,tz,zf,fv,vt,ti,i$

这里^和$代表字符串的开头和结尾。观众朋友可以自行计算trigram当作练习。bigram/trigram本身出现的频率也可以当作特征，但是对这个问题来说，bigram本身可能有 (26+2)^2=784种组合，trigram就有21952种组合，特征向量的长度太长而我们的数据约有25万组，如果把他们本身当作特征，模型训练的速度很慢。（比较熟悉机器学习的观众朋友可能会提示用PCA等降维方法，我实际实验表明降维到20维左右效果也不错，在此不当作本文内容，请有兴趣的观众朋友自己实验一下。）

C&C域名的随机算法产生的bigram和trigram比较分散，而合法域名喜欢用比较好念好见的组合。如果把正例反例出现的bigram按照出现频率进行排序会发现，合法域名的bigram在频率排序里的位置比较靠前，而随机C&C域名产生的比较分散的bigram/trigram基本上频率都很低，所以bigram/trigram的平均排名也可以很好的区分C&C和合法域名。

扯一些额外内容。n-gram的分析方法也常用于malware的代码和二进制码的自动分析，比如ASM里面每个指令当作一个gram，指令的组合可能对应于一些可疑行为。靠人工找这些可能可疑行为对应的指令组合十分麻烦，但是机器就适合做这些繁琐的事情啊，只要把所有n-gram扔给机器做分类，最后机器会给出特定组合的权重，就能找到这些对应的指令对了。二进制代码的分析也有类似方法，参见最近Kaggle的malware分类比赛的获胜报告（参考文献3）。有白帽专家可能会问，有些可疑指令对可能距离比较远怎么办？这种情况就是skip-gram分析，建议谷歌搜索相关关键词，这里就不多说撑篇幅了。

究竟还能再挖出来什么特征呢？

特征工程就好像Taylor Swift的胸一样，你只要需要，用力挤努力挤还是有的。如果按照反例Alexa前10万名训练隐含马尔可夫链，计算一下从A_i到A_i+1转换的概率。这个转换概率的分布对于正例有一些区别，也可以用来帮助区分。具体关于马尔可夫链相关知识请参见http://en.wikipedia.org/wiki/Markov_chain （解释起来背后的原因篇幅比较大，就只贴一下这个特征的分布图，但是不要害怕，看示例代码里的实现其实很简单，只是计算转移矩阵而已）

领域特征：安全专家的领域知识

对于C&C域名，不只是随机性，其他白帽专家才知道的领域知识也会提供重要的特征。

比如域名所在的ccTLD可以当作特征。我们知道多数情况下.com的域名申请又贵又要审核，所以现在很多C&C不会选择.com，反而会选一些审核不严的比如.biz .info .ru .ws以及最近爆发的.xyz之类的ccTLD都是C&C重灾区。中国的白帽专家也可能知道.cn现在申请都得备案，所以C&C也不太可能用.cn的根域名当作C&C。值得提醒的是，这些情况并非100%确定，比如C&C可能找到一个cn域名的下级域名当C&C而主域名已备案，这些需要机器综合考虑其他特征来判断。ccTLD这样的类别特征(categorial feature)在使用的时候需要编码变成 is_biz=0/1, is_ws=0/1这样展开的0/1向量，这个方法叫做OneHotEncoder。实际的模型结果也显示出来.biz .info之类的ccTLD对C&C域名的判断占的重要性比重很大。

还有一些看似比较无聊但是很有价值的知识：比如C&C域名现在越来越长，因为短的域名都被抢光了，所以域名长度也可以是重要的特征。更多这些特征需要安全专家加入自己的领域知识来得到，专家的领域知识在机器学习里的重要程度几乎是第一位的。

见原文。。。

DGA特征挖掘的更多相关文章

DGA域名——可以每天只生成一个域名，因此最多存在365个 DGA域名；
Mirai变种中的DGA 分享到: 发布时间:2016-12-12 16:02:57 作者:360网络安全研究院投稿方式:发送邮件至linwei#360.cn,或登陆网页版在线投稿那个导致美国断网 ...
特征列属性值获取 vowpal wabbit 生成DNN 的训练测试数据
用户特征文件 userFeature.data 每行代表一个用户的特征数据, 格式为: “uid|features”,uid 和 features 用竖线“|”分隔.其中 ...
使用sklearn进行集成学习——实践
系列 <使用sklearn进行集成学习——理论> <使用sklearn进行集成学习——实践> 目录 1 Random Forest和Gradient Tree Boosting ...
[转]使用sklearn进行集成学习——实践
转:http://www.cnblogs.com/jasonfreak/p/5720137.html 目录 1 Random Forest和Gradient Tree Boosting参数详解2 如何 ...
HBase案例：HBase 在人工智能场景的使用
近几年来,人工智能逐渐火热起来,特别是和大数据一起结合使用.人工智能的主要场景又包括图像能力.语音能力.自然语言处理能力和用户画像能力等等.这些场景我们都需要处理海量的数据,处理完的数据一般都需要存储 ...
HBase 在人工智能场景的使用
近几年来,人工智能逐渐火热起来,特别是和大数据一起结合使用.人工智能的主要场景又包括图像能力.语音能力.自然语言处理能力和用户画像能力等等.这些场景我们都需要处理海量的数据,处理完的数据一般都需要存储 ...
Feature Tools 简介
FeatureTools是2017年9月上线的github项目,是一个自动生成特征的工具,应用于关系型数据. github链接:https://github.com/Featuretools/feat ...
机器学习案例学习【每周一例】之 Titanic: Machine Learning from Disaster
下面一文章就总结几点关键: 1.要学会观察,尤其是输入数据的特征提取时,看各输入数据和输出的关系,用绘图看! 2.训练后,看测试数据和训练数据误差,确定是否过拟合还是欠拟合: 3.欠拟合的话,说明模 ...
推荐系统系列（一）：FM理论与实践
背景在推荐领域CTR(click-through rate)预估任务中,最常用到的baseline模型就是LR(Logistic Regression).对数据进行特征工程,构造出大量单特征,编码之 ...

随机推荐

cogs 2170. 大整数取模
2170. 大整数取模 ★ 输入文件:bigint.in 输出文件:bigint.out 简单对比时间限制:1 s 内存限制:256 MB [题目描述] 输入正整数n和m,输出n mo ...
HDU 3723
把向上看成+1,向下看成-1.可以知道符合卡特兰数的一般解释了.记作Can(i) 中间平过的即是0.亦即是C(n,2*i),i表示向上的数. 于是总的就是sum(C(n,2*i)*Can(i)),i从 ...
HDU 1796
呃,我竟然傻了,同时被a且b整除的个数为n/(a*b). 其实应该是n/[a,b]才对,是他们的最小公倍数啊... #include <iostream> #include <cst ...
Android知识点总结
说明当中大部分文章都是转载自其它大神之手.在转载的过程中学到了非常多,这里主要解说的是android体系的相关知识点,本文会持续更新. 1 Android service相关知识点 Android ...
Android sdCard路径问题
一,获取Android设备的全部存储设备,这里边肯定有一个能用的 StorageManager sm = (StorageManager) context.getSystemService(Conte ...
nyoj 628 小媛在努力【搜索】
第一次是直接建一个10^7的数组结果内存大的要死.! 是不是能够不建数组这下好了小媛在努力时间限制:1000 ms | 内存限制:65535 KB 难度:2 描写叙述在多媒体数据处理 ...
bzoj1212: [HNOI2004]L语言（字典树）
1212: [HNOI2004]L语言题目:传送门题解: 看完题目之后就觉得可以暴力在字典树上之间询问,一开始还傻了以为用文章来建,肯定用单词啊: 那么我们可以用一个v数组表示当前字符串1~i的区 ...
JAVA设计模式之【命令模式】
命令模式为了降低耦合度,将请求的发送者和接收者解耦发送请求的对象只需要哦知道如何发送请求,而不必知道如何完成请求对请求排队记录请求日志支持撤销操作核心在于引入命令类角色抽象命令类Com ...
ORA-01119、ORA-27040
SQL> alter tablespace DRSYS add datafile '/ora_data/drsys02.dbf' size 1000m;alter tablespace DRSY ...
【转】Android 服务器之SFTP服务器上传下载功能 -- 不错
原文网址:http://blog.csdn.net/tanghua0809/article/details/47056327 本文主要是讲解Android服务器之SFTP服务器的上传下载功能,也是对之 ...

DGA特征挖掘