一.什么是arff格式文件 1.arff是Attribute-Relation File Format缩写,从英文字面也能大概看出什么意思.它是weka数据挖掘开源程序使用的一种文件模式.由于weka是个很出色的数据挖掘开源项目,所以使用的比较广,这也无形中推广了它的数据存储格式. 2.下面是weka自带的一个arff文件例子(weather.arff) @relation weather @attribute outlook {sunny, overcast, rainy} @attribut…
一.说明 IG是information gain 的缩写,中文名称是信息增益,是选择特征的一个很有效的方法(特别是在使用svm分类时).这里不做详细介绍,有兴趣的可以googling一下. chi-square 是一个常用特征筛选方法,在种子词扩展那篇文章中,有详细说明,这里不再赘述. 二.weka中的使用方法 1.特征筛选代码 package com.lvxinjian.alg.models.feature; import java.nio.charset.Charset; import ja…
前一阵子写过一个arff的随笔,但是写完后发现有些啰嗦.其实如果使用weka自带的api,生成arff文件将变成一件很简单的事儿. 首先,可以先把特征文件生成csv格式的.csv格式就是每列数据都用逗号分隔的一种格式.(还有不清楚的googling一下就知道了) 一.首先看下特征文件怎么保存成csv格式. 1.首行为特征名,以逗号分隔. 2.除首行外的行都为数据行,每列数据都是首行对应的值.(可以是字符串,数字) 例: 二.通过weka的api把上面的csv转化成arff格式文件 1.weka代…
初试weka数据挖掘 Posted on 2013-09-07 13:26 DM张朋飞 阅读(321) 评论(7) 编辑 收藏 偶然间在网上看到了一篇关于weka好的博文,就记录了下来…… weka下载地址为http://www.cs.waikato.ac.nz/ml/weka/downloading.html 读者有时候看到两个图片并列,其中一个是原文的,另一个是我实验时打开的. 一.引入 数据挖掘.机器学习这些字眼,在一些人看来,是门槛很高的东西.诚然,如果做算法实现甚至算法优化,确实需要很…
The chi squared distance d(x,y) is, as you already know, a distance between two histograms x=[x_1,..,x_n] and y=[y_1,...,y_n] having n bins both. Moreover, both histograms are normalized, i.e. their entries sum up to one.The distance measure d is usu…
特征选择之Chi卡方检验 卡方值越大,说明对原假设的偏离越大,选择的过程也变成了为每个词计算它与类别Ci的卡方值,从大到小排个序(此时开方值越大越相关),取前k个就可以. 针对英文纯文本的实验结果表明:作为特征选择方法时,开方检验和信息增益的效果最佳(相同的分类算法,使用不同的特征选择算法来得到比较结果):文档频率方法的性能同前两者大体相当,术语强度方法性能一般:互信息方法的性能最差.…
不多说,直接上干货! Weka简介 Weka是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis)的英文字首缩写,官方网址为:http://www.cs.waikato.ac.nz/ml/weka,在该网站可以免费下载可运行软件和源代码,还可以获得说明文档.常见问题解答.数据集和其他文献等资源.Weka的发音类似新西兰本土一种不会飞的鸟,如下图所示,因此Weka系统使用该鸟作为其徽标. Weka是新西兰怀卡托大学用Java开发的数据挖掘著名开…
本文版权归博客园和作者吴双共同所有,欢迎转载,转载和爬虫请注明原文地址 :博客园蜗牛NoSql系列地址  http://www.cnblogs.com/tdws/tag/NoSql/ Redis命令拾遗之散列类型 Redis散列类型,Hash,适合存储对象.上一篇文章字符串类型提到字符串不适合一段整体的数据,而不是适合存储存在很多属性的对象.比如文章.那么今天介绍的Hash就是解决这个问题的类型.它包括键名,每个键下可以有多个(字段)field,你也可以理解field为面向对象中的对象属性. 举…
今天我们来讲一讲有关数据探索的问题.其实这个概念还蛮容易理解的,就是我们刚拿到数据之后对数据进行的一个探索的过程,旨在了解数据的属性与分布,发现数据一些明显的规律,这样的话一方面有助于我们进行数据预处理,另一方面在进行特征工程时可以给我们一些思路.所以这样一个过程在数据挖掘中还是蛮有用的,相信大家在网上看过不少数据挖掘比赛的Kernel,一般一上来都先是个数据探索的过程.之前听过一个老师讲课,说数据探索过程其实可有可无,直接预处理猛搞,但典型的口嫌体正直,在演示一个比赛的流程时,还是先进行了汇总…
这里分别讲==和equals()的关系,以及equals()和hashcode()的关系 讲解之前,需要先明白对象的内容.对象的引用,基本类型,引用类型这几个概念,此处不做解释 一.==和equals() 两者都是比较"是否相同"这个概念.不同在于 1.基本类型比较是否相同用 == 和 != 2.对象使用==时比较的是对象的引用,默认的Object.equals()比较对象引用地址,如果想比较对象的内容 那么需要覆盖equals()方法,大多数Java类库特别是"表示值得类&…