http://www.csmining.org/cdmc2016/ Data Mining Tasks Description Task 1: 2016 e-News categorisation For this year, the dataset is sourced from 6 online news media: The New Zealand Herald (www.nzherald.co.nz), Reuters(www.reuters.com), The Times (www.t…
CIKM Competition数据挖掘竞赛夺冠算法陈运文 背景 CIKM Cup(或者称为CIKM Competition)是ACM CIKM举办的国际数据挖掘竞赛的名称.CIKM全称是International Conference on Information and Knowledge Management,属于信息检索和数据挖掘领域的国际著名学术会议,由ACM SIGIR分会(ACM Special Interest Group on Information Retrieval)主办.…
题目:Deep Android Malware Detection 作者:Niall McLaughlin, Jesus Martinez del Rincon, BooJoong Kang 年份:2017 会议:CODASPY 2.解决的问题 之前的方法需要对程序进行分析然后提取具有识别能力的特征用于恶意软件的分类.在本文中应用卷积神经网络来对恶意软件进行分类,该方法是受到基于n-gram的恶意软件检测的启发,但不同于基于n-gram的恶意软件检测,对于n个操作数作为卷积神经网络的输入,卷积神…
使用图聚类方法:Malware Classification using Graph Clustering 见 https://github.com/rahulp0491/Malware-Classifier 代码参考:https://github.com/bindog/ToyMalwareClassification,https://github.com/xiaozhouwang/kaggle_Microsoft_Malware #微软恶意代码分类 比赛说明和数据下载 https://www.…
1.题目 这道题目的地址在https://www.kaggle.com/c/titanic,题目要求大致是给出一部分泰坦尼克号乘船人员的信息与最后生还情况,利用这些数据,使用机器学习的算法,来分析预测另一部分人员最后是否生还.题目练习的要点是语言和数据分析的基础内容(比如python.numpy.pandas等)以及二分类算法. 数据集包含3个文件:train.csv(训练数据).test.csv(测试数据).gender_submission.csv(最后提交结果的示例,告诉大家提交的文件长什…
完整代码: https://github.com/cindycindyhi/kaggle-Titanic 特征工程系列: Titanic系列之原始数据分析和数据处理 Titanic系列之数据变换 Titanic系列之派生属性&维归约 为什么有的机器学习项目成功了有的却失败了呢?毕竟算法是有限的改进也是有限的,最主要的因素就是特征的选择了.如果我们有一些与类别非常相关同时又相互独立的特征,学习起来是很容易的,相反就不一定了.通常情况下,并不是直接把原始数据作为特征,而是从中构建一些特征.这是机器学…
A friend of mine asked me help him to examine his Android 5.0 smartphone. He did not say what's wrong with his phone, and he just wonder why his wife know everything he chat on the phone, and where he has been. I'd like to help him to figure out if a…
完整代码: https://github.com/cindycindyhi/kaggle-Titanic 特征工程系列: Titanic系列之原始数据分析和数据处理 Titanic系列之数据变换 Titanic系列之派生属性&维归约 之前的三篇博文已经进行了一次还算完整的特征工程,分析字符串类型的变量获取新变量,对数值变量进行规范化,获取派生属性并进行维规约.现在我们已经有了一个特征集,可以进行训练模型了. 由于这是一个分类问题,可以使用L1 SVM 随机森林等分类算法,随机森林是一个非常简单而…
完整代码: https://github.com/cindycindyhi/kaggle-Titanic 特征工程系列: Titanic系列之原始数据分析和数据处理 Titanic系列之数据变换 Titanic系列之派生属性&维归约 缺失值填充之后,就要对其他格式有问题的属性进行处理了.比如Sex Embarked这些属性的值都是字符串类型的,而scikit learn中的模型都只能处理数值型的数据,需要将这些原始的字符串类型的数据转为数值型数据.所有数据通常可以分成两种类型:定量与定性.定量的…
Titanic是kaggle上的一道just for fun的题,没有奖金,但是数据整洁,拿来练手最好不过啦. 这道题给的数据是泰坦尼克号上的乘客的信息,预测乘客是否幸存.这是个二元分类的机器学习问题,但是由于数据样本相对较少,在当时慌乱的情况下幸存者有一定的随机性,还是有一定挑战的.https://www.kaggle.com/c/titanic-gettingStarted/ 一 载入数据 首先,我们要先看一看数据,分析数据的一些较为直观的特征.代码使用numpy pandas和scikit…