Weka – 分类】的更多相关文章

1.      weka简单介绍 1)  weka是新西兰怀卡托大学WEKA小组用JAVA开发的机器学习/数据挖掘开源软件. 2)  相关资源链接 http://sourceforge.net/projects/weka/files/ http://www.cs.waikato.ac.nz/ml/weka/ 3)  主要特点 集数据预处理.学习算法(分类.回归.聚类.关联分析)和评估方法等为一体的综合性数据挖掘工具 具有交互式可视化界面 提供算法学习比較环境 通过其接口.可实现自己的数据挖掘算法…
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的WEKA,实验内容主要有三部分,第一是分类挖掘(垃圾邮件过滤),第二是聚类分析,第三是关联挖掘. 3)本文由于过长,且实验报告内的评估观点有时不一定正确,希望抛砖引玉. (一)WEKA在Ubuntu下的配置 下载解压 下载和解压weka .下载: 创建目录:sudo mkdir /usr/weka. 解压weka到该目录:unzip weka-3-6-10.zip -d /us…
寒假老板给的任务,让我重现这个实验http://www.liuhaihua.cn/archives/15565.html.自己就随便试了下,用的都是比较经典(lao)的算法和知识,记录一下. 一.从网页上爬取POI数据 找了一圈,感觉这个网站比较靠谱:http://www.poi86.com,因为这里只需要POI标签,不需要其他类似地址啊什么的信息,所以这个网站足够用了. 爬网站使用的scrapy这个开源库,核心代码如下: import re import json from scrapy.sp…
weka介绍 参见 1)百度百科:http://baike.baidu.com/link?url=V9GKiFxiAoFkaUvPULJ7gK_xoEDnSfUNR1woed0YTmo20Wjo0wYo7uff4mq_wg3WzKhTZx4Ok0JFgtiYY19U4q 2)weka官网: http://www.cs.waikato.ac.nz/ml/weka/ 简单文本分类实现: 此处文本为已处理好的文本向量空间模型,关于文本特征提取主要是基于TF-IDF算法对已分词文档进行特征抽取,然后基于…
一.初始化设置 1 jvm out of memory 解决方案: 在weka SimpleCLI窗口依次输入java -Xmx 1024m 2 修改配置文件,使其支持中文: 配置文件是在Weka安装后的目录下,比如我的是在C:\Program Files\Weka-3-7\RunWeka.ini,打开这个文件,找到fileEncoding=Cp1252这一行,改成fileEncoding=utf-8即可.如下: # The file encoding; use "utf-8" ins…
weka提供了几种处理数据的方式,其中分类和回归是平时用到最多的,也是非常容易理解的,分类就是在已有的数据基础上学习出一个分类函数或者构造出一个分类模型.这个函数或模型能够把数据集中地映射到某个给定的类别上,从而进行数据的预测.就是通过一系列的算法,将看起来本来分散的数据,给划分成一个个不同的类,我们可以知道某个数据为什么要划分到这个类别,后来的数据通过这个过程就可以知道把它划分到哪个类别,从而进行了数据的预测. 要进行分类,我们根据什么分类,这就需要把数据分为训练集和测试集两个部分,先分析训练…
一.分类classifier 如何利用weka里的类对数据集进行分类,要对数据集进行分类,第一步要指定数据集中哪一列做为类别,如果这一步忘记了(事实上经常会忘记)会出现“Class index is negative (not set)!”这个错误,设置某一列为类别用Instances类的成员方法setClassIndex,要设置最后一列为类别则可以用Instances类的numAttributes()成员方法得到属性的个数再减1. 然后选择分类器,比较常用的分类器有J48,NaiveBayes…
利用DM工具Weka进行数据挖掘(分类)的完整过程:…
1.如题. 最近写了一个FCM的聚类算法,希望能够可视化结果,因此一个想法是调用weka中的包,使自己的程序可以可视化.这里参考了网络上的方法,首先实现在Eclipse中调用weka包实现分类的功能. 步骤如下: 1. 到weka官网下载weka安装程序,并安装: 2.在weka安装目录:(我的是C://Program Files//Weka-3-6)找到两个jar包:weka.jar 和 weka-src.jar,以供下面使用: 3.在Eclipse中新建一个工程,并新建class: 4.在新…
不管是实验室研究机器学习算法或是公司研发,都有需要自己改进算法的时候,下面就说说怎么在weka里增加改进的机器学习算法. 一 添加分类算法的流程 1 编写的分类器必须继承 Classifier或是Classifier的子类:下面用比较简单的zeroR举例说明: 2 复写接口 buildClassifier,其是主要的方法之一,功能是构造分类器,训练模型: 3 复写接口 classifyInstance,功能是预测一个标签的概率:或实现distributeForInstance,功能是对得到所有的…