1.前言:本科生毕业设计有好多人说没有什么用处,自己又做不出来什么新东西,全是抄抄改改的,浪费大家时间。但是对此事我的态度不同,我觉得就像我们小时候玩过家家一样,别的孩子都在玩,我不参与进去显得会有遗憾,而且本次毕设我并没有那么难受,也学到了新的东西,说句心里话,其实也是有收获的。

2.rapidminer软件简介:它是一款可视化软件,用于数u据挖掘,我们需要做的事情就是去不停地联系,核心代码都有人帮我们写好了。在这款软件面前,你完全可以是编程小白也没有什么关系,因为我们不需要考虑那么底层的技术问题,我们只需要会用就足够了。当然这款软件还是提供给我们开发者一些很好的开发余地的。我们可以自己写代码去处理业务逻辑,甚至可以直接去对现有算子进行改造,然后让自己的思路进行运算,总之,对于不是那么复杂的业务逻辑,rapidminer软件处理起来可以说是游刃有余。

3.软件介绍:

下载安装后我们可以在桌面看到这个图标,下图所示:

点击打开,我们看到如下界面:

直接选择blank来新建一个空白程序,

我把这些分为了7个区域,分别用A,B,C,D,E,F,G来表示,他们分别代表着导航栏,快捷功能,中央仓库,算子区,程序设计窗口,参数设置区,帮助区等7个区域。我们的程序设计就是把原始数据导入B区,将数据和算子拖到E区,在F区设置算子的参数,然后点击B区的run(三角标号)来运行程序,最后会在B区的Result展示程序结果。

4.案例简介:我本次课程设计过程中有3000多条实验数据存在Excel中,我现在把它导入rapidminer软件里边,找到数据存放位置(我的是在C:\Users\Administrator\Desktop\毕设论文\实验数据),然后回到软件,点击C区的Add Data,导入数据

导入后就开始设计流程了。首先把刚刚导入的数据从C区拖到E区

我的目的是筛选出实验误差小于5%的数据,对其进行聚类分析,来寻找规律。好的,那么首先就是对数据进行清洗和筛选了

在算子区搜索栏可以搜索自己进行处理的算子,以便快速锁定,如图1,输入select后会列出所有的select来,接下来就是选择合适的算子,我这里选择的是select attributes(选择属性)算子,如图2,然后把它拖到E区,接下来就是设置参数了,我们把算子拖到F区后首先要做的就是设置参数,以便让算子能够理解你的标准。我这里是选择没有缺失值的所有数据,如图3。接下来完成后续的步骤,过程和刚刚的select 算子一样,搜索,拖拽,设参,连线。接下来我再次拖拽一个select attributes算子,设置参数区选择subset(子集),即我要过滤掉和我目的不相关的数据

接下来就是决定过滤掉什么了,要什么,点击参量就可以了,点击apply。

接下来就是找误差小于5%的数据,明显输入filter来查询过滤算子,然后拖到E区

设置参量,点击filters的add后看到如图展示,如果有多个条件,设置多个条件就是了。

接下来就是聚类分析,聚类算子默认k-means,用来对数据进行聚类,只需要在F区设置k的值即可,k默认是2,我设置为5,即要聚成5类,该算子即可帮你完成剩下的工作。

为了对照方便我还需要将误差大于等于5%的数据进行一次归类,这时候filter examples算子的unm出口就很有用了,它代表unmatched(即不匹配的,回忆一下我们之前设置的条件是σ<5%)那unm出口就对应它的互补面了。我们同样设置为5类,有对照性。

最后运行,结果如图, 有两个结果集一个是小于5%的(clustering),另一个是大于等于5%的(clustering2),好多种展现形式。

关于本科毕业设计期间对数据挖掘工具rapidminer的使用体验和心得,案例分享的更多相关文章

  1. WEKA,一个开源java的数据挖掘工具

    开始研究WEKA,一个开源java的数据挖掘工具. HS沉寂这么多天,谁知道偏偏在我申请离职的时候给我安排了个任务,哎,无语. 于是,今天看了一天的Weka. 主要是看了HS提供的三个文章(E文,在g ...

  2. Orange的数据挖掘工具入门使用

    Orange的数据挖掘工具入门使用 声明: 1)本报告由博客园bitpeach撰写,版权所有,免费转载,请注明出处,并请勿作商业用途. 2)若本文档内有侵权文字或图片等内容,请联系作者bitpeach ...

  3. 哈尔滨工业大学(深圳)本科毕业设计(论文)LaTeX模板:hitszthesis

    目录 本篇文章的主要内容如下: 目录 引言 Why hitszthesis? 下载方式 编译方式简介 模板说明文档(用户手册) 毕业论文撰写样例 后记 引言 去年发布过哈深本科毕业设计(论文)的LaT ...

  4. 【案例分享】使用ActiveReports报表工具,在.NET MVC模式下动态创建报表

    提起报表,大家会觉得即熟悉又陌生,好像常常在工作中使用,又似乎无法准确描述报表.今天我们来一起了解一下什么是报表,报表的结构.构成元素,以及为什么需要报表. 什么是报表 简单的说:报表就是通过表格.图 ...

  5. Python机器学习数据挖掘工具sklearn安装和使用

    python借助pip安装第三方库,所以首先确保电脑上已成功安装了pip. 安装sklearn前需要先安装numpy.scipy和pandas等库.安装的方式有两种: 一.前往python的组件库页( ...

  6. grunt 构建工具(build tool)初体验

    操作环境:win8 系统,建议使用 git bash (window下的命令行工具) 1,安装node.js 官网下载:https://nodejs.org/  直接点击install ,会根据你的操 ...

  7. 工具系列 | VScode VS Live Share 实时编码分享(和你的小伙伴一起写代码吧)

    Visual Studio Live Share能干啥? 分享任何语言,任何应用程序 无论您正在构建什么类型的应用程序,您正在编写什么语言,或者您的操作系统如何:在您需要协作时,Live Share会 ...

  8. Python3.7.9+Locust1.4.3版本性能测试工具案例分享

    一.Locust工具介绍 1.概述 Locust是一款易于使用的分布式负载测试工具,完全基于事件,使用python开发,即一个locust节点也可以在一个进程中支持数千并发用户,不使用回调,通过gev ...

  9. JetBrains新产品Aqua——自动化测试开发工具(抢鲜体验)

    转载请注明出处️ 作者:测试蔡坨坨 原文链接:caituotuo.top/9a093c88.html 你好,我是测试蔡坨坨. 随着行业内卷越来越严重,自动化测试已成为测试工程师的必备技能,谈及自动化测 ...

随机推荐

  1. leetcode 747. Largest Number At Least Twice of Others

    In a given integer array nums, there is always exactly one largest element. Find whether the largest ...

  2. jQuery comet

    下面程序是例用从数据端推送信息,原理是每隔10秒读取一下data.txt文件,看有木有新的数据输入,如果有,则alert文件内容. hmtl代码是 <!DOCTYPE html> < ...

  3. mtk lk阶段的lcm流程

    一.lk进入kmain() 1. vendor/mediatek/proprietary/bootable/bootloader/lk/arch/arm/srt0.S bl kmain 二.初始化lk ...

  4. HDU 1627 Krypton Factor

    回溯法:避免无用判断,强化回溯代码的实现过程 题目的大意就是以字典序为准,排列字符串,但要保证一个字符串中不包含相邻的重复子串. Problem Description For example, th ...

  5. nohup command > myout.file 2>&1 &

    nohup command > myout.file 2>&1 &

  6. CentOS 6.5远程连接工具x shell

    安装X shell 在Window系统下远程连接Linux,x shell只是一种远程连接工具,类似工具还有CRT.VNC.putty. 以下是安装X shell的注意事项 此选项中,如不把——初始数 ...

  7. linq Foreach

    lst.ForEach(item => { CbxDF1VersionItemSource.Add(item); });

  8. css sprite讲解与使用实例

    转自:http://www.manongjc.com/article/886.html 一.什么是css sprites css sprites直译过来就是CSS精灵.通常被解释为“CSS图像拼合”或 ...

  9. Hadoop2 使用 YARN 运行 MapReduce 的过程源码分析

    Hadoop 使用 YARN 运行 MapReduce 的过程如下图所示: 总共分为11步. 这里以 WordCount 为例, 我们在客户端终端提交作业: # 把本地的 /home/hadoop/t ...

  10. HUD-1548

    A strange lift Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Others)To ...