Weka学习之认识weka(一)】的更多相关文章

 Weka 简介   WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归.聚类.关联规则以及在新的交互式界面上的可视化. Weka是基于java,用于数据挖掘和知识分析一个平台.来自世界各地的java爱好者们都可以把自己的算法放在这个平台上,然后从海量数据中发掘其背后隐藏的种种关系:也许你只是出于对数据的狂热爱好,但也许你的发现会蕴含着无限的商机. 打开Weka,首先出现一个窗口.这是一个很简单的窗体,提供四个按钮:Simple…
学习数据挖掘工具中,下面使用4种工具来对同一个数据集进行研究. 数据描述:下面这些数据是15个同学选修课程情况,在课程大纲中共有10门课程供学生选择,下面给出具体的选课情况,以ARFF数据文件保存,名称为TestStudenti.arff.我使用Apriori算法期望挖掘出学生选课的关联规则. @relation test_studenti @attribute Arbori_binari_de_cautare {TRUE, FALSE}@attribute Arbori_optimali {T…
转载自:https://blog.csdn.net/u011067360/article/details/20844443 数据挖掘开源软件:WEKA基础教程 本文档部分来自于网络,随着自己的深入学习,讲不断的修订和完善. 第一节   Weka简介: Weka是由新西兰怀卡托大学开发的智能分析系统(Waikato Environment for Knowledge Analysis)  .在怀卡托大学 以外的地方,Weka通常按谐音念成Mecca,是一种现今仅存活于新西兰岛的,健壮的棕色鸟, …
代码整个运行流程 參数设置 input数据,设置数据格式 batchFinished(),处理数据(Tokenzier,Stemming,Stopwords) determineDictionary();  统计计算(TF,IDF) 归一化 output 一些变量和方法的作用 m_Dictionary , m_DocsCounts  变量与 m_OutputCounts变量 意义 public TreeMap m_Dictionary = new TreeMap(); //TreeMap类型成员…
步骤: (一) 选择数据源 (二)选择要分析的字段 (三)选择需要的关联规则算法 (四)点击start运行 (五) 分析结果 算法选择: Apriori算法参数含义 1.car:如果设为真,则会挖掘类关联规则而不是全局关联规则.2.classindex: 类属性索引.如果设置为-1,最后的属性被当做类属性.3.delta: 以此数值为迭代递减单位.不断减小支持度直至达到最小支持度或产生了满足数量要求的规则.4.lowerBoundMinSupport: 最小支持度下界.5.metricType:…
载入数据 (一)打开文件 (二) 打开url (三) 打开数据库 (四)从一些数据生成器(DataGenerators)中生成人造数据    这篇主要写(三)中的连接mySql          网上教程很多这里写个简单步骤 推荐一篇文章 http://blog.csdn.net/senaku/article/details/2225943 下载必要的工具 mysql驱动(有的就别下了) http://pan.baidu.com/share/link?shareid=2530503288&uk=…
import java.io.*;import weka.classifiers.*;import weka.classifiers.meta.Vote;import weka.core.Instance;import weka.core.Instances;import weka.core.SelectedTag;import weka.core.converters.ArffLoader;public class test { /** * @param args */ public stat…
主动学习: 主动学习的过程:需要分类器与标记专家进行交互.一个典型的过程: (1)基于少量已标记样本构建模型 (2)从未标记样本中选出信息量最大的样本,交给专家进行标记 (3)将这些样本与之前样本进行融合,并构建模型 (4)重复执行步骤(2)和步骤(3),直到stopping criterion(不存在未标记样本或其他条件)满足为止 模拟思路: 1. 将数据分为label 和 unlabel数据集 2. 将 unlabel 分为100个一组,每组样本数组分别求出熵值,按照熵值排序,取前5个样本,…
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的WEKA,实验内容主要有三部分,第一是分类挖掘(垃圾邮件过滤),第二是聚类分析,第三是关联挖掘. 3)本文由于过长,且实验报告内的评估观点有时不一定正确,希望抛砖引玉. (一)WEKA在Ubuntu下的配置 下载解压 下载和解压weka .下载: 创建目录:sudo mkdir /usr/weka. 解压weka到该目录:unzip weka-3-6-10.zip -d /us…
一.说明 IG是information gain 的缩写,中文名称是信息增益,是选择特征的一个很有效的方法(特别是在使用svm分类时).这里不做详细介绍,有兴趣的可以googling一下. chi-square 是一个常用特征筛选方法,在种子词扩展那篇文章中,有详细说明,这里不再赘述. 二.weka中的使用方法 1.特征筛选代码 package com.lvxinjian.alg.models.feature; import java.nio.charset.Charset; import ja…