weka特征选择(IG、chi-square)】的更多相关文章

The chi squared distance d(x,y) is, as you already know, a distance between two histograms x=[x_1,..,x_n] and y=[y_1,...,y_n] having n bins both. Moreover, both histograms are normalized, i.e. their entries sum up to one.The distance measure d is usu…
特征选择之Chi卡方检验 卡方值越大,说明对原假设的偏离越大,选择的过程也变成了为每个词计算它与类别Ci的卡方值,从大到小排个序(此时开方值越大越相关),取前k个就可以. 针对英文纯文本的实验结果表明:作为特征选择方法时,开方检验和信息增益的效果最佳(相同的分类算法,使用不同的特征选择算法来得到比较结果):文档频率方法的性能同前两者大体相当,术语强度方法性能一般:互信息方法的性能最差.…
一.说明 IG是information gain 的缩写,中文名称是信息增益,是选择特征的一个很有效的方法(特别是在使用svm分类时).这里不做详细介绍,有兴趣的可以googling一下. chi-square 是一个常用特征筛选方法,在种子词扩展那篇文章中,有详细说明,这里不再赘述. 二.weka中的使用方法 1.特征筛选代码 package com.lvxinjian.alg.models.feature; import java.nio.charset.Charset; import ja…
看过这篇博客的都应该明白,特征选择代码实现应该包括3个部分: 搜索算法: 评估函数: 数据: 因此,代码的一般形式为: AttributeSelection attsel = new AttributeSelection(); // create and initiate a new AttributeSelection instanceRanker search = new Ranker(); // choose a search methodPrincipalComponents eval…
http://www.siam.org/students/siuro/vol1issue1/S01009.pdf bendford'law e=log10(1+l/n) o=freq of first digit / total x2= N*sum(power((o-e),2)/e) 1-9的乘法表中的数字算出来的chisquare test is 4.881 其第一个数字出现频率和benford标准值放大一百倍为: Digit Benford Probability Observed Prob…
机器学习算法的空间.时间复杂度依赖于输入数据的规模,维度规约(Dimensionality reduction)则是一种被用于降低输入数据维数的方法.维度规约可以分为两类: 特征选择(feature selection),从原始的d维空间中,选择为我们提供信息最多的k个维(这k个维属于原始空间的子集) 特征提取(feature extraction),将原始的d维空间映射到k维空间中(新的k维空间不输入原始空间的子集) 在文本挖掘与文本分类的有关问题中,常采用特征选择方法.原因是文本的特征一般都…
在文本挖掘与文本分类的有关问题中,文本最初始的数据是将文档表示成向量空间模型的一个矩阵,而这个矩阵所拥有的就是不同的词,常采用特征选择方法.原因是文本的特征一般都是单词(term),具有语义信息,使用特征选择找出的k维子集,仍然是单词作为特征,保留了语义信息,而特征提取则找k维新空间,将会丧失了语义信息. 当然,另一方面,在处理文本时,对于我们来说,已经拥有将不同词在低维空间上总结归纳的能力,知道这些词的联系和区别,但是对于计算机来说,它们怎么知道这些的联系呢?也就是它们根本还不拥有这些降维的能…
零.全部项目通用的: http://blog.csdn.net/mmc2015/article/details/46851245(数据集格式和预測器) http://blog.csdn.net/mmc2015/article/details/46852755(载入自己的原始数据) (适合文本分类问题的 整个语料库载入) http://blog.csdn.net/mmc2015/article/details/46906409(5. 载入内置公用的数据) (常见的非常多公共数据集的载入,5. Da…
文本分类之特征选择 1 研究背景 对于高纬度的分类问题,我们在分类之前一般会进行特征降维,特征降维的技术一般会有特征提取和特征选择.而对于文本分类问题,我们一般使用特征选择方法. 特征提取:PCA.线性判别分析 特征选择:文档频数.信息增益.期望交叉熵.互信息.文本证据权.卡方等 特征选择的目的一般是: 避免过拟合,提高分类准确度 通过降维,大大节省计算时间和空间 特征选择基本思想: 1)构造一个评价函数 2)对特征空间的每个特征进行评分 3)对所有的特征按照其评估分的大小进行排序 4)从中选取…
// // 问题到数据 理解问题 理解客户的问题:谁是客户(某航空公司)?交流,交流,交流! 问题要具体 某航空公司: 乘客体验如何?哪方面需要提高? 类别:比较.描述.聚类,判别还是回归 需要什么样的数据:现有数据,数据质量,需要收集的数据,自变量,因变量 哪些方面的满意度?哪些主要竞争对手? 内部数据?外部数据? 领导不关心的问题都是没有未来的! 设计问卷 礼貌(Courtesy) 友善(Friendliness) 能够提供需要的帮助(Helpfulness) 食物饮料服务(Service)…