序列模式分析算法GSP的实现

一、算法简介

序列模式定义：给定一个由不同序列组成的集合，其中，每个序列由不同的元素按顺序有序排列，每个元素由不同项目组成，同时给定一个用户指定的最小支持度阈值，序列模式挖掘就是找出所有的频繁子序列，即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值。

GSP是序列模式挖掘的一种算法。其主要实现步骤描述如下：

1）扫描序列数据库，得到长度为1的序列模式L1，作为初始的种子集

L1 C2 L2 C3 L3 C4 L4 ……

2）根据长度为i 的种子集Li 通过连接操作和剪切操作生成长度为i+1的候选序列模式Ci+1；

3）然后扫描序列数据库，计算每个候选序列模式的支持数，产生长度为i+1的序列模式Li+1，并将Li+1作为新的种子集。

4）重复第三步，直到没有新的序列模式或新的候选序列模式产生为止。

产生候选序列模式主要分两步：

1）连接阶段：如果去掉序列模式s1的第一个项目与去掉序列模式s2的最后一个项目所得到的序列相同，则可以将s1于s2进行连接，即将s2的最后一个项目添加到s1中。其中最后一个项目集是否为合并在原来s1的最后一个项目集，还是自成一个新的项目集，取决于s2的最后一个项目是否原来就是一个单独的项目集。

2）剪切阶段：依据“不频繁子序列的超集也不频繁"。若某候选序列模式的某个子序列不是频繁序列模式，则此候选序列模式不可能是频繁序列模式，将它从候选序列模式中删除。

候选序列模式的支持度计算：对于给定的候选序列模式集合C，扫描序列数据库，对于其中的每一条序列d，找出集合C中被d所包含的所有候选序列模式，并增加其支持度计数。

例子：下表演示了如何从长度为3的序列模式产生长度为4的候选序列模式。

在连接步中,种子序列<(1,2) 3>和种子序列<2 (3,4)>连接可产生候选4序列<(1,2) (3,4)>；种子序列<2 3 5>连接可产生候选4序列<(1,2) 3 5>。其余的序列均不满足连接条件。在剪枝步中，候选4序列<(1,2) 3 5>被剪去，因为其连续子序列<1,3,5>不包含在频繁3序列集合L3中。

二、算法的设计和实现

本算法采用Java实现，主要根据序列模式的情况，序列模式挖掘中共涉及到3个对象：序列、元素和项目。

算法共有5个类：

GSP类：算法核心类，GSP算法的核心操作：连接和剪枝操作都在这里实现，在使用该算法时，也是需要通过使用该类的方法来实现GSP算法。

Sequence类：序列类，该类封装了序列的基本信息和基本操作，实现了对序列间的比较以及序列中的项目集操作。

Element类：元素类，在序列模式中元素也就是项目集，项目集中包含了项目，在本算法实现中，元素类中含有一个项目集属性，用于表示项目集，在使用时也是使用该属性来表示项目集，另外，在该类中还封装了对项目的操作以及一些其他操作。

SeqDB类：该类用于从数据库中扫描获取序列，本算法主要用于模拟实现，所以在程序中已经初始化了序列。

GSPTest类：测试类，使用JUnit对算法进行单元测试，本文附的代码只含有对于实现GSP算法的方法测试。

由于程序中附带了对方法的注释，这里对各个方法的原理和实现就不作介绍。

三、实验结果

（一）实验数据

<{1 5}{2}{3}{4}>

<{1}{3}{4}{3 5}>

<{1}{2}{3}{4}>

<{1}{3}{5}>

<{4}{5}>

（二）程序输出

最小支持度计数为：2

输入的序列集合为：

[<(1,5) 2 3 4>, <1 3 4 (3,5)>, <1 2 3 4>, <1 3 5>, <4 (4,5)>]

序列模式L(1) 为：[<2>, <4>, <1>, <3>, <5>]

.................................................

剪枝前候选集的大小为：40 候选集c为：[<(2,2)>, <2 2>, <(2,4)>, <2 4>, <4 2>, <(1,2)>, <2 1>, <1 2>, <(2,3)>, <2 3>, <3 2>, <(2,5)>, <2 5>, <5 2>, <(4,4)>, <4 4>, <(1,4)>,

<4 1>, <1 4>, <(3,4)>, <4 3>, <3 4>, <(4,5)>, <4 5>, <5 4>, <(1,1)>, <1 1>, <(1,3)>, <1 3>, <3 1>, <(1,5)>, <1 5>, <5 1>, <(3,3)>,

<3 3>, <(3,5)>, <3 5>, <5 3>, <(5,5)>, <5 5>]

剪枝后候选集的大小为：40 候选集c为：[<(2,2)>, <2 2>, <(2,4)>, <2 4>, <4 2>, <(1,2)>, <2 1>, <1 2>, <(2,3)>, <2 3>, <3 2>, <(2,5)>, <2 5>, <5 2>, <(4,4)>, <4 4>, <(1,4)>,

<4 1>, <1 4>, <(3,4)>, <4 3>, <3 4>, <(4,5)>, <4 5>, <5 4>, <(1,1)>, <1 1>, <(1,3)>, <1 3>, <3 1>, <(1,5)>, <1 5>, <5 1>, <(3,3)>,

<3 3>, <(3,5)>, <3 5>, <5 3>, <(5,5)>, <5 5>]

序列模式L(2) 为：[<2 4>, <1 2>, <2 3>, <1 4>, <3 4>, <4 5>, <1 3>, <1 5>, <3 5>]

.................................................

剪枝前候选集的大小为：18 候选集c为：[<1 (2,4)>, <1 2 4>, <2 (4,5)>, <2 4 5>, <1 (2,3)>, <1 2 3>, <2 (3,4)>, <2 3 4>, <2 (3,5)>, <2 3 5>, <1 (4,5)>, <1 4 5>, <3 (4,5)>,

<3 4 5>, <1 (3,4)>, <1 3 4>, <1 (3,5)>, <1 3 5>]

剪枝后候选集的大小为：7 候选集c为：[<1 2 4>, <1 2 3>, <2 3 4>, <1 4 5>, <3 4 5>, <1 3 4>, <1 3 5>]

序列模式L(3) 为：[<1 2 4>, <1 2 3>, <2 3 4>, <1 3 4>, <1 3 5>]

.................................................

剪枝前候选集的大小为：2 候选集c为：[<1 2 (3,4)>, <1 2 3 4>]

剪枝后候选集的大小为：1 候选集c为：[<1 2 3 4>]

序列模式L(4) 为：[<1 2 3 4>]

.................................................

计算花费时间60毫秒!

四、程序源代码

有关源码请点击下载。

数据挖掘进阶之序列模式分析算法GSP的实现的更多相关文章

数据挖掘进阶之序列模式挖掘GSP算法
数据挖掘进阶之序列模式挖掘GSP算法绪继续数据挖掘方面算法的讲解,前面讲解了数据挖掘中关联规则算法FP-Growth的实现.此篇博文主要讲解基于有趣性度量标准的GSP序列模式挖掘算法.有关论文后期 ...
数据挖掘进阶之关联规则挖掘FP-Growth算法
数据挖掘进阶之关联规则挖掘FP-Growth算法绪近期在写论文方面涉及到了数据挖掘,需要通过数据挖掘方法实现软件与用户间交互模式的获取.分析与分类研究.主要涉及到关联规则与序列模式挖掘两块.关联规 ...
数据挖掘：周期性分析SMCA算法
数据挖掘:周期性分析SMCA算法原文地址:http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=1423978 算法介绍以时间顺序挖掘周期性的模式 ...
数据挖掘领域十大经典算法之—C4.5算法（超详细附代码）
https://blog.csdn.net/fuqiuai/article/details/79456971 相关文章: 数据挖掘领域十大经典算法之—K-Means算法(超详细附代码) ...
【SPMF开源数据挖掘平台入门】MaxSP算法使用说明
前段时间,由于项目中用到了序列挖掘的算法,师兄推荐我用用SPMF.在此做个记录. 首先简单介绍一下SPMF: SPMF是一个采用Java开发的开源数据挖掘平台. 它提供了51种数据挖掘算法实现,用于: ...
机器学习——十大数据挖掘之一的决策树CART算法
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第23篇文章,我们今天分享的内容是十大数据挖掘算法之一的CART算法. CART算法全称是Classification ...
最长不下降序列nlogn算法
显然n方算法在比赛中是没有什么用的(不会这么容易就过的),所以nlogn的算法尤为重要. 分析: 开2个数组,一个a记原数,f[k]表示长度为f的不下降子序列末尾元素的最小值,tot表示当前已知的最长 ...
【原创】数据挖掘案例——ReliefF和K-means算法的医学应用
数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识.数据挖掘 (DataMiriing),指的是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的.事先未知 ...
【数据挖掘】朴素贝叶斯算法计算ROC曲线的面积
题记: 近来关于数据挖掘学习过程中,学习到朴素贝叶斯运算ROC曲线.也是本节实验课题,roc曲线的计算原理以及如果统计TP.FP.TN.FN.TPR.FPR.ROC面积等等.往往运用 ...

随机推荐

ubuntu cpu频率控制
安装cpufrequtils: sudo apt-get install cpufrequtils 查看cpu: sudo cpufreq-info 设置cpu模式: ...
[ExtJS5学习笔记]第二十七节 CMD打包错误 Error C2009: YUI Parse Error (identifier is a reserved word => debugger;)
本文地址:http://blog.csdn.net/sushengmiyan/article/details/41242993 本文作者:sushengmiyan ------------------ ...
EBS各个应用简称
模块全称 Banking Center 模块简称 FPT 服务器目录 FPT_TOP Billing Connect CUE CUE_TOP CADView-3D DDD DDD_TOP CPG ...
Android View框架总结（五）View布局流程之Layout
转载请注明出处:http://blog.csdn.net/hejjunlin/article/details/52216195 View树的Layout流程 View的Layout时序图 View布局 ...
在github上最热门好评高的ROS相关功能包
在github上最热门最受欢迎的ROS相关功能包下面依次列出,排名不分先后: 1 Simulation Tools In ROS https://github.com/ros-simulation ...
1.2、Android Studio为新设备创建一个模块
模块为你的应用的源码.资源文件和app level设置(比如AndroidManifest.xml)提供了一个容器.每个模块可以独立的构建.测试和调试. 通过使用模块,Android Studio可以 ...
Linux系统编程---守护进程
守护进程是什么?就是在后台运行的进程. 那么如何创建守护进程呢? 1. 创建孤儿进程 2. setsid() 创建进程会话 3. 重定向标准输入, 标准输出 4. chdir, 改当当前进程的工作目录 ...
与音频相关的技术知识点总结（Linux方向的开发）
几个术语和概念: 1. 关于PCM的 PCM是Pulse code modulation的缩写,它是对波形最直接的编码方式.它在音频中的地位可能和BMP在图片中的地位有点类似吧. Samp ...
dbcp连接池不合理的锁导致连接耗尽
应用报错,表象来看是连接池爆满了. org.springframework.transaction.CannotCreateTransactionException: Could not open J ...
最简单的基于DirectShow的示例：视频播放器自定义版
===================================================== 最简单的基于DirectShow的示例文章列表: 最简单的基于DirectShow的示例:视 ...

数据挖掘进阶之序列模式分析算法GSP的实现

序列模式分析算法GSP的实现

一、算法简介

二、算法的设计和实现

三、实验结果

（一）实验数据

（二）程序输出

四、程序源代码

数据挖掘进阶之序列模式分析算法GSP的实现的更多相关文章

随机推荐

热门专题