DGA特征挖掘

摘自:https://paper.seebug.org/papers/Archive/drops2/%E7%94%A8%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E8%AF%86%E5%88%AB%E9%9A%8F%E6%9C%BA%E7%94%9F%E6%88%90%E7%9A%84C%26amp%3BC%E5%9F%9F%E5%90%8D.html 0x00 前言本文用识别由域名生成算法Domain Generation Algorithm: DGA生成的C&…

DGA域名——可以每天只生成一个域名，因此最多存在365个 DGA域名；

Mirai变种中的DGA 分享到: 发布时间:2016-12-12 16:02:57 作者:360网络安全研究院投稿方式:发送邮件至linwei#360.cn,或登陆网页版在线投稿那个导致美国断网的Mirai 又出现带DGA变种,内置了域名生成算法. 连续导致美国和德国断网事件的Mirai恶意软件,不仅感染并控制了越来越多的摄像头等联网设备,组成潜在威胁更大的僵尸网络,其自身还不断出现新的变种,近日360网络安全研究院全球首次确认了早先Mirai 7547端口传播样本中的DGA机制. 概要…

特征列属性值获取 vowpal wabbit 生成DNN 的训练测试数据

使用sklearn进行集成学习——实践

系列 <使用sklearn进行集成学习——理论> <使用sklearn进行集成学习——实践> 目录 1 Random Forest和Gradient Tree Boosting参数详解2 如何调参? 2.1 调参的目标:偏差和方差的协调 2.2 参数对整体模型性能的影响 2.3 一个朴实的方案:贪心的坐标下降法 2.3.1 Random Forest调参案例:Digit Recognizer 2.3.1.1 调整过程影响类参数 2.3.1.2 调整子模型影响类参数 2.3.2 Gr…

[转]使用sklearn进行集成学习——实践

转:http://www.cnblogs.com/jasonfreak/p/5720137.html 目录 1 Random Forest和Gradient Tree Boosting参数详解2 如何调参? 2.1 调参的目标:偏差和方差的协调 2.2 参数对整体模型性能的影响 2.3 一个朴实的方案:贪心的坐标下降法 2.3.1 Random Forest调参案例:Digit Recognizer 2.3.1.1 调整过程影响类参数 2.3.1.2 调整子模型影响类参数 2.3.2 Gradi…

HBase案例：HBase 在人工智能场景的使用

近几年来,人工智能逐渐火热起来,特别是和大数据一起结合使用.人工智能的主要场景又包括图像能力.语音能力.自然语言处理能力和用户画像能力等等.这些场景我们都需要处理海量的数据,处理完的数据一般都需要存储起来,这些数据的特点主要有如下几点: 大:数据量越大,对我们后面建模越会有好处: 稀疏:每行数据可能拥有不同的属性,比如用户画像数据,每个人拥有属性相差很大,可能用户A拥有这个属性,但是用户B没有这个属性:那么我们希望存储的系统能够处理这种情况,没有的属性在底层不占用空间,这样可以节约大量的空间使用…

HBase 在人工智能场景的使用

Feature Tools 简介

FeatureTools是2017年9月上线的github项目,是一个自动生成特征的工具,应用于关系型数据. github链接:https://github.com/Featuretools/featuretools 项目官网:https://www.featuretools.com/ API doc:https://docs.featuretools.com/api_reference.html 最近看了一下这个开源工具,对生成关系型特征有一些帮助,把这个项目简单总结一下. 这个项目起源于De…

机器学习案例学习【每周一例】之 Titanic: Machine Learning from Disaster

下面一文章就总结几点关键: 1.要学会观察,尤其是输入数据的特征提取时,看各输入数据和输出的关系,用绘图看! 2.训练后,看测试数据和训练数据误差,确定是否过拟合还是欠拟合: 3.欠拟合的话,说明模型不准确或者特征提取不够,对于特征提取不够问题,可以根据模型的反馈来看其和数据的相关性,如果相关系数是0,则放弃特征,如果过低,说明特征需要再次提炼! 4.用集成学习,bagging等通常可以获得更高的准确度! 5.缺失数据可以使用决策树回归进行预测! 转自:http://blog.csdn.net…

推荐系统系列（一）：FM理论与实践

背景在推荐领域CTR(click-through rate)预估任务中,最常用到的baseline模型就是LR(Logistic Regression).对数据进行特征工程,构造出大量单特征,编码之后送入模型.这种线性模型的优势在于,运算速度快可解释性强,在特征挖掘完备且训练数据充分的前提下能够达到一定精度.但这种模型的缺点也是较为明显的: 模型并未考虑到特征之间的关系 $y=w_0+\sum_{i=1}^{n}w_ix_i$ .在实践经验中,对特征进行交叉组合往往能够更好地提升模型效果.…

通过整合遥感数据和社交媒体数据来进行城市土地利用的分类（ Classifying urban land use by integrating remote sensing and social media data）DOI: 10.1080/13658816.2017.1324976 20.0204

Classifying urban land use by integrating remote sensing and social media data Xiaoping Liu, Jialv He, Yao Yao, Jinbao Zhang, Haolin Liang, Huan Wang & YeHong 摘要研究方向的重要性(有意义): 城市土地使用信息在城市管理.政府政策制定.和人类活动监测方面扮演着重要的角色. However,存在的困难: 由于城市系统的复杂性,将城市功能…

从离线分析建模到稳健风控升级，为什么说顶象Dinsight实时风控引擎是对的选择？

随着金融业数字化程度进一步加深,互联网垂直电商.消费金融等领域与人们生活的深度融合,数字科技在安全风险控制上已经成为了重要的基石.如何主动防范化解风险,建立智能化的实时风险监测预警体系,加速业务模式转型,提升价值创造能力,对于银行.第三方支付以及互联网等企业的风控作用尤为重要. 人工智能加持下的"Dinsight实时风控引擎" 现今金融风控技术的应用场景已经渗透到众多场景中,例如信用借贷.保险.支付.供应链金融等诸多场景,而其中最为典型和广泛的应用领域是信贷领域和保险领域.而在后疫情时…

矩池云 | 使用LightGBM来预测分子属性

今天给大家介绍提升方法(Boosting), 提升算法是一种可以用来减小监督式学习中偏差的机器学习算法. 面对的问题是迈可·肯斯(Michael Kearns)提出的:一组"弱学习者"的集合能否生成一个"强学习者"? 弱学习者一般是指一个分类器,它的结果只比随机分类好一点点.强学习者指分类器的结果非常接近真值. 大多数提升算法包括由迭代使用弱学习分类器组成,并将其结果加入一个最终的成强学习分类器.加入的过程中,通常根据它们的分类准确率给予不同的权重.加和弱学习者之后…

paper 124：【转载】无监督特征学习——Unsupervised feature learning and deep learning

来源:http://blog.csdn.net/abcjennifer/article/details/7804962 无监督学习近年来很热,先后应用于computer vision, audio classification和 NLP等问题,通过机器进行无监督学习feature得到的结果,其accuracy大多明显优于其他方法进行training.本文将主要针对Andrew的unsupervised learning,结合他的视频:unsupervised feature learning b…

WEKA使用（基础配置+垃圾邮件过滤+聚类分析+关联挖掘）

声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的WEKA,实验内容主要有三部分,第一是分类挖掘(垃圾邮件过滤),第二是聚类分析,第三是关联挖掘. 3)本文由于过长,且实验报告内的评估观点有时不一定正确,希望抛砖引玉. (一)WEKA在Ubuntu下的配置下载解压下载和解压weka .下载: 创建目录:sudo mkdir /usr/weka. 解压weka到该目录:unzip weka-3-6-10.zip -d /us…

大数据挖掘: FPGrowth初识--进行商品关联规则挖掘

@(hadoop)[Spark, MLlib, 数据挖掘, 关联规则, 算法] [TOC] 〇.简介经典的关联规则挖掘算法包括Apriori算法和FP-growth算法.Apriori算法多次扫描交易数据库,每次利用候选频繁集产生频繁集:而FP-growth则利用树形结构,无需产生候选频繁集而是直接得到频繁集,大大减少扫描交易数据库的次数,从而提高了算法的效率.但是apriori的算法扩展性较好,可以用于并行计算等领域. 关联规则的目的就是在一个数据集中找出项与项之间的关系,适用于在大数量的项…

【软件分析与挖掘】Multiple kernel ensemble learning for software defect prediction

摘要: 利用软件中的历史缺陷数据来建立分类器,进行软件缺陷的检测. 多核学习(Multiple kernel learning):把历史缺陷数据映射到高维特征空间,使得数据能够更好地表达: 集成学习(ensemble learning):使用一系列的分类器来减少由主类带来的分类误差,使具有更好的检测结果. 本文采用集成学习的方法构建一个多核分类器,集多核学习和集成学习的优点,提出方法: propose a multiple kernel ensemble learning (MKEL) appr…

利用GBDT模型构造新特征具体方法

利用GBDT模型构造新特征具体方法数据挖掘入门与实战公众号: datadw 实际问题中,可直接用于机器学**模型的特征往往并不多.能否从"混乱"的原始log中挖掘到有用的特征,将会决定机器学**模型效果的好坏.引用下面一句流行的话: 特征决定了所有算法效果的上限,而不同的算法只是离这个上限的距离不同而已. 本文中我将介绍Facebook最近发表的利用GBDT模型构造新特征的方法. (Xinran He et al. Practical Lessons from Predict…

小白日记38：kali渗透测试之Web渗透-手动漏洞挖掘（四）-文件上传漏洞

手动漏洞挖掘文件上传漏洞[经典漏洞,本身为一个功能,根源:对上传文件的过滤机制不严谨] <?php echo shell_exec($_GET['cmd']);?> 直接上传webshell 修改文件类型上传webshell 文件头,扩展名修改扩展名上传webshell 静态解析文件扩展名时可能无法执行文件头让偶过滤上传webshell 上传目录权限正常上传当可以上传一个页面文件或一句话木马等时,则可验证存在该漏洞 #低安全级别绕过:可截包重放,修改上传文件大小等限制 #中等级别…

小白日记37：kali渗透测试之Web渗透-手动漏洞挖掘（三）-目录遍历、文件包含

手动漏洞挖掘漏洞类型 #Directory traversal 目录遍历[本台机器操作系统上文件进行读取] 使用者可以通过浏览器/URL地址或者参数变量内容,可以读取web根目录[默认为:/var/www/]之外的其他操作系统文件(如:/etc/passwd/).形成根源:目录权限限制不严格 #File include文件包含[1.include本地文件包含LFI:2.远程系统文件包含RFI(可传入木马)] 通常为如include函数,可以将web根目录以外的目录包含进来.根源:include…

小白日记11：kali渗透测试之服务扫描-banner、dmitry、nmap特征库、操作系统识别、SNMP

服务扫描不能单纯的以端口辨别服务.很多网络服务是漏洞频发的高危对象,对网络上的特定服务进行扫描,往往能让我们少走弯路,增加渗透成功的几率.确定开放端口后,通常会对相应端口上所运行服务的信息进行更深入的挖掘,通常称为服务查点. 1.Banner捕获(最主要最简单,也是最不准确) 连接服务器的端口,利用其返回的banner信息,但可能是管理员伪造的. [软件开发商软件名称,服务类型,版本号--可直接发现已知的漏洞,但如果不是很熟悉的话,需要长时间查找资料] 必须建立完整的TCP连接,才能直接获…

Web挖掘技术

一.数据挖掘数据挖掘是运用计算机及信息技术,从大量的.不全然的数据集中获取隐含在当中的实用知识的高级过程.Web 数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web 技术中的应用.Web 数据挖掘是一项综合技术,通过从Internet 上的资源中抽取信息来提高Web 技术的利用效率,也就是从Web 文档结构和试用的集合中发现隐含的模式. 数据挖掘涉及的学科领域和方法非常多,有多种分类法. (1)依据挖掘对象分:关系数据库.面向对象数据库.空间数据库.时序数据库.DNA 数据库.多媒体数据…

Shodan在渗透测试及漏洞挖掘中的一些用法

渗透测试中,第一阶段就是信息搜集,这一阶段完成的如何决定了你之后的进行是否顺利,是否更容易.而关于信息收集的文章网上也是有太多.今天我们来通过一些例子来讲解如何正确使用Shodan这一利器. 想要利用好这一利器,首先得知道他是什么,Shodan是一款网络空间搜索引擎,和我们常见的百度谷歌不同,他主要搜索的是存在于互联网中的设备,服务器.摄像头.工控设备.智能家居等,都是他的目标.Shodan不仅可以发现这些设备,并且可以识别出其版本,位置,端口,服务等一些信息,并且进行了一些相应分类. Shod…

静态频繁子图挖掘算法用于动态网络——gSpan算法研究

摘要随着信息技术的不断发展,人类可以很容易地收集和储存大量的数据,然而,如何在海量的数据中提取对用户有用的信息逐渐地成为巨大挑战.为了应对这种挑战,数据挖掘技术应运而生,成为了最近一段时期数据科学的和人工智能领域内的研究热点.数据集中的频繁模式作为一种有价值的信息,受到了人们的广泛关注,成为了数据挖掘技术研究领域内的热门话题和研究重点. 传统的频繁模式挖掘技术被用来在事务数据集中发现频繁项集,然而随着数据挖掘技术应用到非传统领域,单纯的事务数据结构很难对新的领域的数据进行有效的建模.因此,频繁…

【读书笔记与思考】《python数据分析与挖掘实战》-张良均

[读书笔记与思考]<python数据分析与挖掘实战>-张良均最近看一些机器学习相关书籍,主要是为了拓宽视野.在阅读这本书前最吸引我的地方是实战篇,我通读全书后给我印象最深的还是实战篇.基础篇我也看了,但发现有不少理论还是讲得不够透彻,个人还是比较倾向于 <Machine Learning>--Tom M.Mitchell,Andrew 的 machine learning 课程,或周华志的<机器学习>,Jiawei Han 的 <data mining>.…

NLP︱句子级、词语级以及句子-词语之间相似性（相关名称：文档特征、词特征、词权重）

每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 关于相似性以及文档特征.词特征有太多种说法.弄得好乱,而且没有一个清晰逻辑与归类,包括一些经典书籍里面也分得概念模糊,所以擅自分一分. ---------------------------------------------- 一.单词的表示方式 1.词向量词向量是现行较为多的方式,另外一篇博客已经写了四种词向量的表达方式,两两之间也有递进…

海量数据挖掘MMDS week2: 频繁项集挖掘 Apriori算法的改进：非hash方法

http://blog.csdn.net/pipisorry/article/details/48914067 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记之关联规则Apriori算法的改进:非hash方法 - 大数据集下的频繁项集:挖掘随机采样算法.SON算法.Toivonen算法 Apriori算法的改进:大数据集下的频繁项集挖掘 1. 前面所讨论的频繁项都是在一次能处理的情况.如果数据量过大超过了主存的大小,这…