dga model train and test code

# _*_coding:UTF-8_*_

import operator

import tldextract

import random

import pickle

import os

import tflearn

from math import log

from tflearn.data_utils import to_categorical, pad_sequences

from tflearn.layers.core import input_data, dropout, fully_connected

from tflearn.layers.conv import conv_1d, max_pool_1d

from tflearn.layers.estimator import regression

from tflearn.layers.normalization import batch_normalization

from sklearn.model_selection import train_test_split

def get_cnn_model(max_len, volcab_size=None):

    if volcab_size is None:

        volcab_size = 10240000

    # Building convolutional network

    network = tflearn.input_data(shape=[None, max_len], name='input')

    network = tflearn.embedding(network, input_dim=volcab_size, output_dim=32)

    network = conv_1d(network, 64, 3, activation='relu', regularizer="L2")

    network = max_pool_1d(network, 2)

    network = conv_1d(network, 64, 3, activation='relu', regularizer="L2")

    network = max_pool_1d(network, 2)

    network = batch_normalization(network)

    network = fully_connected(network, 64, activation='relu')

    network = dropout(network, 0.5)

    network = fully_connected(network, 2, activation='softmax')

    sgd = tflearn.SGD(learning_rate=0.1, lr_decay=0.96, decay_step=1000)

    network = regression(network, optimizer=sgd, loss='categorical_crossentropy')

    model = tflearn.DNN(network, tensorboard_verbose=0)

    return model

def get_data_from(file_name):

    ans = []

    with open(file_name) as f:

        for line in f:

            domain_name = line.strip()

            ans.append(domain_name)

    return ans

def get_local_data(tag="labeled"):

    white_data = get_data_from(file_name="dga_360_sorted.txt")

    black_data = get_data_from(file_name="top-1m.csv")

    return black_data, white_data

def get_data():

    black_x, white_x = get_local_data()

    black_y, white_y = [1]*len(black_x), [0]*len(white_x)

    X = black_x + white_x

    labels = black_y + white_y

    # Generate a dictionary of valid characters

    valid_chars = {x:idx+1 for idx, x in enumerate(set(''.join(X)))}

    max_features = len(valid_chars) + 1

    print("max_features:", max_features)

    maxlen = max([len(x) for x in X])

    print("max_len:", maxlen)

    maxlen = min(maxlen, 256)

    # Convert characters to int and pad

    X = [[valid_chars[y] for y in x] for x in X]

    X = pad_sequences(X, maxlen=maxlen, value=0.)

    # Convert labels to 0-1

    Y = to_categorical(labels, nb_classes=2)

    volcab_file = "volcab.pkl"

    output = open(volcab_file, 'wb')

    # Pickle dictionary using protocol 0.

    data = {"valid_chars": valid_chars, "max_len": maxlen, "volcab_size": max_features}

    pickle.dump(data, output)

    output.close()

    return X, Y, maxlen, max_features

def train_model():

    X, Y, max_len, volcab_size = get_data()

    print("X len:", len(X), "Y len:", len(Y))

    trainX, testX, trainY, testY = train_test_split(X, Y, test_size=0.2, random_state=42)

    print(trainX[:1])

    print(trainY[:1])

    print(testX[-1:])

    print(testY[-1:])

    model = get_cnn_model(max_len, volcab_size)

    model.fit(trainX, trainY, validation_set=(testX, testY), show_metric=True, batch_size=1024)

    filename = 'finalized_model.tflearn'

    model.save(filename)

    model.load(filename)

    print("Just review 3 sample data test result:")

    result = model.predict(testX[0:3])

    print(result)

def test_model():

    volcab_file = "volcab.pkl"

    assert os.path.exists(volcab_file)

    pkl_file = open(volcab_file, 'rb')

    data = pickle.load(pkl_file)

    valid_chars, max_document_length, max_features = data["valid_chars"], data["max_len"], data["volcab_size"]

    print("max_features:", max_features)

    print("max_len:", max_document_length)

    cnn_model = get_cnn_model(max_document_length, max_features)

    filename = 'finalized_model.tflearn'

    cnn_model.load(filename)

    print("predict domains:")

    bls = list()

    with open("dga_360_sorted.txt") as f:

    # with open("todo.txt") as f:

        lines = f.readlines()

        print("domain_list len:", len(lines))

        cnt = 1000

        for i in range(0, len(lines), cnt):

            lines2 = lines[i:i+cnt]

            domain_list = [line.strip() for line in lines2]

            #print("domain_list sample:", domain_list[:5])

            # Convert characters to int and pad

            X = [[valid_chars[y] if y in valid_chars else 0 for y in x] for x in domain_list]

            X = pad_sequences(X, maxlen=max_document_length, value=0.)

            result = cnn_model.predict(X)

            for i, domain in enumerate(domain_list):

                if result[i][1] > .5: #.95:

                    #print(lines2[i], domain + " is GDA")

                    print(lines2[i].strip() + "\t" + domain, result[i][1])

                    bls.append(domain)

                else:

                    #print(lines2[i], domain )

                    pass

            #print(bls)

        print(len(bls) , "dga found!")

if __name__ == "__main__":

    print("train model...")

    train_model()

    print("test model...")

    test_model()

dga model train and test code的更多相关文章

一步步开发自己的博客 .NET版（9、从model first替换成code first 问题记录）
为什么要改用code first 用过code first的基本上都不会再想用回model first或是db first(谁用谁知道).不要问我为什么不一开始就直接使用code first,因为那个 ...
Pytorch本人疑问(2)model.train()和model.eval()的区别
我们在训练时如果使用了BN层和Dropout层,我们需要对model进行标识: model.train():在训练时使用BN层和Dropout层,对模型进行更改. model.eval():在评价时将 ...
MVC学习6 学习使用Code First Migrations功能把Model的更新同步到DB中
参考:http://www.asp.net/mvc/tutorials/mvc-4/getting-started-with-aspnet-mvc4/adding-a-new-field-to-th ...
EF7 - What Does “Code First Only” Really Mean
这篇文章很有价值,但翻译了一段,实在翻译不下去了,没办法,只能转载了. 英文地址:http://blogs.msdn.com/b/adonet/archive/2014/10/21/ef7-what- ...
Code First ：使用Entity. Framework编程(8) ----转发收藏
第8章 Code First将走向哪里? So far, this book has covered all of the Code First components that reached the ...
Code First ：使用Entity. Framework编程(7) ----转发收藏
第7章高级概念 The Code First modeling functionality that you have seen so far should be enough to get you ...
Create Entity Data Model
http://www.entityframeworktutorial.net/EntityFramework5/create-dbcontext-in-entity-framework5.aspx 官 ...
Clean Code – Chapter 6 Objects and Data Structures
Data Abstraction Hiding implementation Data/Object Anti-Symmetry Objects hide their data behind abst ...
CV code references
转:http://www.sigvc.org/bbs/thread-72-1-1.html 一.特征提取Feature Extraction: SIFT [1] [Demo program][SI ...

随机推荐

鲜贝7.3--pycharm切换
在pycharm中切换python版本打开软件会看到,这里有明显的红色提示错误.原因是当前使用的是python3.3,当执行print的时候,打印的文字需要小括号’()‘括起来. 在工具栏中找到这个 ...
bioawk
https://github.com/lh3/bioawk 1.基本思想使用: usage: bioawk [-F fs] [-v var=value] [-c fmt] [-tH] [-f pro ...
用arthas查看JVM已加载的类及方法信息
1.sc:“Search-Class” 的简写,这个命令能搜索出所有已经加载到 JVM 中的 Class 信息,这个命令支持的参数有 [d].[E].[f] 和 [x:]. [d] 输出当前类的详细信 ...
【正则】day01
正则表达式一.概述验证网络爬虫. 概念: 具有语法格式的字符串. 函数 PCRE 1.perl语言正则语法兼容.(java c) 2.速度快,效率高. P ...
POJ2976Dropping tests(分数规划)
传送门题目大意:n个二元组a[i],b[i],去掉k个,求sigma a[i]/ sigma b[i]的最大值代码: #include<iostream> #include<cs ...
MySQL实战45讲学习笔记：第四十三讲
一.本节概述我经常被问到这样一个问题:分区表有什么问题,为什么公司规范不让使用分区表呢?今天,我们就来聊聊分区表的使用行为,然后再一起回答这个问题. 二.分区表是什么? 为了说明分区表的组织形式,我 ...
算法八字符串转换正数（atoi）
请你来实现一个 atoi 函数,使其能将字符串转换成整数. 首先,该函数会根据需要丢弃无用的开头空格字符,直到寻找到第一个非空格的字符为止. 当我们寻找到的第一个非空字符为正或者负号时,则将该符号与之 ...
转载：RAID5和RAID10，哪种RAID更适合你
转自 http://storage.it168.com/h/2007-06-28/200706281204046_3.shtml 存储是目前IT产业发展的一大热点,而RAID技术是构造高性能.海量存储 ...
后端必备的 Git 分支开发规范指南转
原文链接作者:稻草叔叔 http://juejin.im/post/5b4328bbf265da0fa21a6820 点击上方 "后端技术精选",选择 "置顶公众号&q ...
禁用software reporter tool.exe 解决CPU高占用率的问题
或者或者 C:\Users\Administrator\AppData\Local\Google\Chrome\User Data\SwReporter\36.184.200 下编辑 manifes ...

dga model train and test code

dga model train and test code的更多相关文章

随机推荐

热门专题