【新人赛】阿里云恶意程序检测 -- 实践记录 11.24

使用word2vec训练词向量

使用word2vec无监督学习训练词向量，输入的是训练数据和测试数据，输出的是每个词的词向量，总共三百个词左右。

求和：然后再将每行数据中的每个词的词向量加和，得到每行的词向量表示。

其他还可以通过求平均，求众数或者最大值等等方法得到每行的词向量表示。

代码如下：

import time

import csv

import pickle

import numpy as np

import xgboost as xgb

from sklearn.model_selection import StratifiedKFold

from sklearn.feature_extraction.text import CountVectorizer

from gensim.models.word2vec import Word2Vec

import warnings

warnings.filterwarnings('ignore')  # 忽略警告

with open("security_train.csv.pkl", "rb") as f:

    labels = pickle.load(f)

    files = pickle.load(f)

with open("security_test.csv.pkl", "rb") as f:

    file_names = pickle.load(f)

    outfiles = pickle.load(f)

训练词向量模型的方法：

def train_w2v_model(files, size, model, flag):

  for batch in range(int(len(files)/size) + 1):

    sentences = []

    print("batch:", batch)

    if batch != int(len(files)/size):

      for i in range(batch*size, size*(batch+1)):

        sentence = files[i].split(' ')

        sentences.append(sentence)

    else:

      for i in range(size*(batch+1), len(files)):

        sentence = files[i].split(' ')

        sentences.append(sentence)

    sentences = np.array(sentences)

    if batch == 0 and flag == True:

      model.build_vocab(sentences)

    else:

      model.build_vocab(sentences, update=True)

    model.train(sentences, total_examples = model.corpus_count, epochs = model.epochs)

  print("done.")

  return model

# 训练词向量

model = Word2Vec()

model = train_w2v_model(files, 1000, model, True)

model = train_w2v_model(outfiles, 1000, model, False)

model.save('./temp/w2cmodel_train_test')

# model = Word2Vec.load('./temp/w2cmodel0')

print(model)

对每行数据求词向量之和的方法：

def train_sum_vec(files, model, size=100):

  rtvec = []

  for i in range(len(files)):

    if i % 100 == 0:

      print(i)

    text = files[i].split(' ')

    # 对每个句子的词向量进行求和计算

    vec = np.zeros(size).reshape((1, size))

    for word in text:

      try:

        vec += model[word].reshape((1, size))

      except KeyError:

        continue

    rtvec.append(vec)

  train_vec = np.concatenate(rtvec)

  return train_vec

得到训练数据的词向量：

# 将词向量保存为 Ndarray

train_vec = train_sum_vec(files, model)

# 保存 Word2Vec 模型及词向量

model.save('w2v_model.pkl')

np.save('X_train_test_vec.npy', train_vec)

print('done.')

得到测试数据的词向量：

test_vec = train_sum_vec(outfiles, model)

np.save('y_test_vec.npy', test_vec)

print('done.')

xgboost训练：

meta_train = np.zeros(shape=(len(files), 8))

meta_test = np.zeros(shape=(len(outfiles), 8))

k = 10

skf = StratifiedKFold(n_splits=k, random_state=42, shuffle=True)

X_vector = np.load('X_train_test_vec.npy')

y_vector = np.load('y_test_vec.npy')

for i, (tr_ind, te_ind) in enumerate(skf.split(X_vector, labels)):

    X_train, X_train_label = X_vector[tr_ind], labels[tr_ind]

    X_val, X_val_label = X_vector[te_ind], labels[te_ind]

    print('FOLD: {}'.format(str(i)))

    print(len(tr_ind), len(te_ind))

    dtrain = xgb.DMatrix(X_train, label=X_train_label)

    dtest = xgb.DMatrix(X_val, X_val_label)

    dout = xgb.DMatrix(y_vector)

    param = {'max_depth': 6, 'eta': 0.1, 'eval_metric': 'mlogloss', 'silent': 1, 'objective': 'multi:softprob',

             'num_class': 8, 'subsample': 0.8, 'colsample_bytree': 0.85}

    evallist = [(dtrain, 'train'), (dtest, 'val')]  # 测试 , (dtrain, 'train')

    num_round = 300  # 循环次数

    bst = xgb.train(param, dtrain, num_round, evallist, early_stopping_rounds=50)

    # dtr = xgb.DMatrix(train_features)

    pred_val = bst.predict(dtest)

    pred_test = bst.predict(dout)

    meta_train[te_ind] = pred_val

    meta_test += pred_test

meta_test /= 10.0

with open("word2vec_result_{}.pkl".format(

        str(time.strftime("%Y-%m-%d-%H-%M-%S", time.localtime()))),

        'wb') as f:

    pickle.dump(meta_train, f)

    pickle.dump(meta_test, f)

result = meta_test

out = []

for i in range(len(file_names)):

    tmp = []

    a = result[i].tolist()

    tmp.append(file_names[i])

    tmp.extend(a)

    out.append(tmp)

with open("word2vec_10k_{}.csv".format(

        str(time.strftime("%Y-%m-%d-%H-%M-%S", time.localtime()))),

        "w",

        newline='') as csvfile:

    writer = csv.writer(csvfile)

    # 先写入columns_name

    writer.writerow(["file_id", "prob0", "prob1", "prob2", "prob3", "prob4", "prob5", "prob6", "prob7"])

    # 写入多行用writerows

    writer.writerows(out)

提交到线上得到的结果为，0.725923

使用词向量的平均值，提交到线上结果为，0.751533

数据增强后，结果为，0.711533

【新人赛】阿里云恶意程序检测 -- 实践记录 11.24 - word2vec模型 + xgboost的更多相关文章

【新人赛】阿里云恶意程序检测 -- 实践记录11.3 - n-gram模型调参
主要工作本周主要是跑了下n-gram模型,并调了下参数.大概看了几篇论文,有几个处理方法不错,准备下周代码实现一下. xgboost参数设置为: param = {'max_depth': 6, ' ...
【新人赛】阿里云恶意程序检测 -- 实践记录11.10 - XGBoost学习 / 代码阅读、调参经验总结
XGBoost学习: 集成学习将多个弱学习器结合起来,优势互补,可以达到强学习器的效果.要想得到最好的集成效果,这些弱学习器应当"好而不同". 根据个体学习器的生成方法,集成学习方 ...
【新人赛】阿里云恶意程序检测 -- 实践记录10.27 - TF-IDF模型调参 / 数据可视化
TF-IDF模型调参 1. 调TfidfVectorizer的参数 ngram_range, min_df, max_df: 上一篇博客调了ngram_range这个参数,得出了ngram_range ...
【新人赛】阿里云恶意程序检测 -- 实践记录10.13 - Google Colab连接 / 数据简单查看 / 模型训练
1. 比赛介绍比赛地址:阿里云恶意程序检测新人赛这个比赛和已结束的第三届阿里云安全算法挑战赛赛题类似,是一个开放的长期赛. 2. 前期准备因为训练数据量比较大,本地CPU跑不起来,所以决定用Go ...
【新人赛】阿里云恶意程序检测 -- 实践记录10.20 - 数据预处理 / 训练数据分析 / TF-IDF模型调参
Colab连接与数据预处理 Colab连接方法见上一篇博客数据预处理: import pandas as pd import pickle import numpy as np # 训练数据和测试数 ...
阿里云小程序云应用环境DIY，延长3倍免费期
阿里云清明节前刚刚推出了小程序云应用扶持计划一期活动 (活动链接见文章底部).假期研究了下以后,发觉不太给力.基本上就是给了2个月的免费测试环境,和平均2个月的基础版生产环境.而如果选用标准版生产环境 ...
Android手机安全软件的恶意程序检测靠谱吗--LBE安全大师、腾讯手机管家、360手机卫士恶意软件检测方法研究
转载请注明出处,谢谢. Android系统开放,各大论坛活跃,应用程序分发渠道广泛,这也就为恶意软件的传播提供了良好的环境.好在手机上安装了安全软件,是否能有效的检测出恶意软件呢?下边针对LBE安全大 ...
阿里云centos安装docker-engine实践
近日在阿里云ECS服务器(centos系统)中安装docker,参考官方指南 https://docs.docker.com/engine/installation/linux/centos/ 大概 ...
阿里云负载均衡配置https记录
配置前端协议是443,后端是80 问题1记录: 例如访问https://www.xxx.com,在后端服务器上面获取是http还是https请求协议实际上是http: 因为我们先请求负载均衡,负载均衡 ...

随机推荐

Ceph 存储集群2-配置：心跳选项、OSD选项、存储池、归置组和 CRUSH 选项
一.心跳选项完成基本配置后就可以部署.运行 Ceph 了.执行 ceph health 或 ceph -s 命令时,监视器会报告 Ceph 存储集群的当前状态.监视器通过让各 OSD 自己报告.并接 ...
1、OSI参考模型
网络的层次模型:Core layer (核心层):高速转发,不建议做策略 Distribution layer (分布层,汇聚层):基于策略连接(路由控制,安全策略)Access layer (接入 ...
webdriver高级应用 -无人干预地自动上传文件
本节主要介绍通过程序代码无人干预地上传文件附件,并进行提交操作. 1.使用send_keys方法上传文件 #!/usr/bin/env python # -*- coding: utf-8 -*- # ...
webdriver高级应用（2） - 滚动条操作
webdriver高级应用(2) - 滚动条操作 #-*- coding:utf-8 -*- from selenium import webdriver import unittest import ...
原生servlet项目启动自动加载一个方法
web.xml里的配置: 配置好要加载的类,其中1这一句是项目启动时自动加载该类的必要条件. <servlet> <servlet-name>SharePltfCLServle ...
EF core (code first) 通过自动迁移实现多租户数据分离：按Schema分离数据
前言本文是多租户系列文章的附加操作文章,如果想查看系列中的其他文章请查看下列文章主线文章 Asp.net core下利用EF core实现从数据实现多租户(1) Asp.net core下利用EF ...
浅谈无线局域网WLAN
无线局域网WLAN 一.概述有线局域网的组成如下图所示,多台计算机通过双绞线连接到一个集线器(hub)或交换机(switch)上,组成一个有限局域网. 无线局域网的组成如下图所示,多台计算机通过无线 ...
pytorch之 Variable
import torch from torch.autograd import Variable # Variable in torch is to build a computational gra ...
配置nginx代理服务器访问tomcat服务
nginx原配置文件如下: #user nobody; worker_processes ; #error_log logs/error.log; #error_log logs/error.log ...
Failed to get convolution algorithm解决
蒸腾了两天,终于搞定了是cudnn版本的问题更新cudnn的时候,首先要删除/usr/local/cuda-10.0/targets/x86_64-linux/lib路径下所有之前cudnn版本的 ...

【新人赛】阿里云恶意程序检测 -- 实践记录 11.24 - word2vec模型 + xgboost

使用word2vec训练词向量

【新人赛】阿里云恶意程序检测 -- 实践记录 11.24 - word2vec模型 + xgboost的更多相关文章

随机推荐

热门专题