Weka学习之认识weka（一）

Weka 简介

WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。

Weka是基于java，用于数据挖掘和知识分析一个平台。来自世界各地的java爱好者们都可以把自己的算法放在这个平台上，然后从海量数据中发掘其背后隐藏的种种关系；也许你只是出于对数据的狂热爱好，但也许你的发现会蕴含着无限的商机。

打开Weka，首先出现一个窗口。这是一个很简单的窗体，提供四个按钮：Simple CLI、Explorer、Experimenter、KnowledgeFlow。

Simple CLI 应该是一个使用命令行的界面，有点像SAS的编辑器；

Explorer 是则是视窗模式下的数据挖掘工具（一般都用这个）；

Experimenter 运行算法实验，管理算法方案之间的统计检验的环境。

KnowledgeFlow 这个环境本质上和Explorer 所支持的功能是一样的，但他有一个可以拖放的界面，优势是支持增量学习（incremental leaning）

Exlporer

先打开Weka Exlporer感受一下它的强大吧。它有六个标签页，分别是Preprocess、Classify、Cluster、Associate、 Select attributes、Visualize。

在Preprocess中Open一个数据文件(Weka使用的数据文件是.arff，其实是一个文本数据集，格式并不复杂，用notepad打开一看就明白了)。当然也可以Open URL或Open DB。

打开数据文件后，可以使用Filter进行一下过滤，相当于“预处理的预处理”。

Filter提供了许多算法来过滤数据，比如 filters/unsupervised/instance/normalize应该是一个标准化的算法。当然，也可以编写你自己的算法!

这时窗体上已经给出这个数据集的一些基本特征了，比如有多少属性，各属性的一些简单统计量，右下方还给出一些可视化效果比如柱状图。通过这些可以初步了解这个数据集了。但这些都是很直观的可以看出来。

接下来的两个标签页是classify(分类)和cluster(聚类)，接触数据挖掘的人对它们一定不会陌生。同样Weka有许多分类和聚类算法可供选择，在这里面称为clasifier和clusterer。

classify 主要是训练和测试关于分类和回归的学习方案

Cluster 主要是从数据中学习聚类、

Associate这是一个用于发掘Associate Rules(关联规则)的模块。对商学略有涉猎的人一定熟知沃尔玛发现了啤酒和尿布销售的关系这一佳话。有了Weka Associate，任何一家超市都可以做到这一点了。将前面导入的数据使用Associator进行发掘，就可以发现其中无数隐藏的关系。Weka提供了Apriori、PredictiveApriori、Tertius等多种关联规则发掘算法，不过我感觉这已经够用了。选定一个算法，进行一些必要的设置，包括支持度上界、下界，每次运算的支持度递减值，等等。另外一个重要的参数：所需要生成的关联规则个数。太不可思议了，以前我们能从海量数据中发现一个关联规则就已经沾沾自喜，现在Weka居然问你想生成多少关联规则!

参数设置完成，点Start，就可以去喝茶了。不一会，10条关联规则已经生成，可以提交给老板了。当然，你还可以分析一下哪些规则比较有用，哪一条有潜在收益，这就需要business sense了。

Select attributes是针对单属性的分析，

Visualize则提供了许多可视化效果，交互式的二维图像。

状态栏
状态（Status）栏出现在窗口的最底部。它显示一些信息让你知道正在做什么。
例如：
如果 Explorer 正忙于装载一个文件，状态栏就会有通知。
提示在状态栏中的任意位置右击鼠标将会出现一个小菜单。这个菜单给了你两个选：
1. Memory Information. 在 log 栏中显示 WEKA 可用的内存量。
2. Run garbage collector. 强制运行 Java 垃圾回收器，搜索不再需要的内存空间并将之释放，从而可为新任务分配更多的内存。注意即使不强制运行，垃圾回收也是一直作为后台任务在运行的。

Weka学习之认识weka（一）的更多相关文章

Apriori算法实例----Weka，R, Using Weka in my javacode
学习数据挖掘工具中,下面使用4种工具来对同一个数据集进行研究. 数据描述:下面这些数据是15个同学选修课程情况,在课程大纲中共有10门课程供学生选择,下面给出具体的选课情况,以ARFF数据文件保存,名 ...
0、weka学习与使用
转载自:https://blog.csdn.net/u011067360/article/details/20844443 数据挖掘开源软件:WEKA基础教程本文档部分来自于网络,随着自己的深入学习 ...
Weka学习 -- StringToWordVector 源代码学习（1）
代码整个运行流程參数设置 input数据,设置数据格式 batchFinished(),处理数据(Tokenzier,Stemming,Stopwords) determineDictionary( ...
Weka学习之关联规则分析
步骤: (一) 选择数据源 (二)选择要分析的字段 (三)选择需要的关联规则算法 (四)点击start运行 (五) 分析结果算法选择: Apriori算法参数含义 1.car:如果设为真,则会挖掘类 ...
Weka学习之预处理连接MySql（二）
载入数据 (一)打开文件 (二) 打开url (三) 打开数据库 (四)从一些数据生成器(DataGenerators)中生成人造数据这篇主要写(三)中的连接mySql 网上 ...
weka 集成学习
import java.io.*;import weka.classifiers.*;import weka.classifiers.meta.Vote;import weka.core.Instan ...
调用weka模拟实现 “主动学习“ 算法
主动学习: 主动学习的过程:需要分类器与标记专家进行交互.一个典型的过程: (1)基于少量已标记样本构建模型 (2)从未标记样本中选出信息量最大的样本,交给专家进行标记 (3)将这些样本与之前样本进行 ...
WEKA使用（基础配置+垃圾邮件过滤+聚类分析+关联挖掘）
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的WEKA,实验内容主要有三部分,第一是分类挖掘(垃圾邮件过滤),第二是聚类分析, ...
weka特征选择（IG、chi-square)
一.说明 IG是information gain 的缩写,中文名称是信息增益,是选择特征的一个很有效的方法(特别是在使用svm分类时).这里不做详细介绍,有兴趣的可以googling一下. chi-s ...

随机推荐

Wannafly挑战赛22 A-计数器（gcd，裴蜀定理）
原题地址题目描述有一个计数器,计数器的初始值为0,每次操作你可以把计数器的值加上a1,a2,...,an中的任意一个整数,操作次数不限(可以为0次),问计数器的值对m取模后有几种可能. 输入描述: ...
MyBatis笔记：invalid bound statement (not found)
maven项目在本地运行的时候没有问题,一旦把war包部署到测试机上就不能运行.查看了一下tomcat日志发现抛出这样的错误:invalid bound statement (not found),后 ...
（寒假集训）Watering the Fields （最小生成树）
Watering the Fields 时间限制: 1 Sec 内存限制: 64 MB提交: 26 解决: 10[提交][状态][讨论版] 题目描述 Due to a lack of rain, ...
内连接（INNER JOIN）
内连接组合两张表,并且基于两张表中的关联关系来连接它们.使用内连接需要指定表中哪些字段组成关联关系,并且需要指定基于什么条件进行连接.内连接的语法如下: INNER JOIN table_name O ...
Logger Rate Limiter -- LeetCode
Design a logger system that receive stream of messages along with its timestamps, each message shoul ...
luogu P1284 三角形牧场
题目描述和所有人一样,奶牛喜欢变化.它们正在设想新造型的牧场.奶牛建筑师Hei想建造围有漂亮白色栅栏的三角形牧场.她拥有N(3≤N≤40)块木板,每块的长度Li(1≤Li≤40)都是整数,她想用所有 ...
【bzoj4318】【OSU!】期望dp——维护多个期望值递推
[pixiv] https://www.pixiv.net/member_illust.php?mode=medium&illust_id=62369739 Description osu 是 ...
php程序无法使用localhost连接数据库解决方法（linux）
php程序无法使用localhost连接数据库解决方法(linux) 出现这种情况是因为PHP无法正确获取mysql.sock 在php.ini文件中指定即可解决问题. 修改如下: 找到 mysql. ...
Matlab中find函数陷阱
a = [ 1 2 3 3 3]; 如果a==3 返回[ 0 0 1 1 1]; find(a==3) 返回[3 4 5],这才是想要的下标.
httpanalyzer 抓包时会更换证书
今天是要httpanalyzer时发现,在启用的时候,如果当前网络地址是https的话,那么当前证书会被更换掉,效果如下: 而原来的证书如下: 所以,请注意,如果你的请求有严格的证书验证,那么证书验证 ...

Weka学习之认识weka（一）

Weka学习之认识weka（一）的更多相关文章

随机推荐

热门专题