数据挖掘进阶之序列模式挖掘GSP算法

绪

继续数据挖掘方面算法的讲解，前面讲解了数据挖掘中关联规则算法FP-Growth的实现。此篇博文主要讲解基于有趣性度量标准的GSP序列模式挖掘算法。有关论文后期进行补充。实现思路与前面优化的FP-Growth算法一致，首先实现简单的GSP算法，通过认真阅读源码，在理解的基础之上进行优化。优化后的算法将在性能方面与原算法进行对比，以此突出此算法的优良性能。下面进行简要介绍:

原理介绍

GSP算法是一种非常有效的序列模式挖掘算法，该算法使用一种称作为逐层搜索的迭代方法，首先找出频繁1-序列模式的集合F1，F1用于寻找频繁2-序列模式F2，F2用于寻找频繁3-序列模式、F3...，如此下去，直到不能找到频繁序列模式为止。

F1 = the set of frequent 1-sequence

k=2,

do while F(k-1)!= Null;

Generate candidate sets Ck (set of candidate k-sequences);

For all input sequences s in the database D

Increment count of all a in Ck if s supports a

Fk = {a ∈ Ck such that its frequency exceeds the threshold}

k= k+1;

Result = Set of all frequent sequences is the union of all Fks

End do

GSP需要多次扫描序列数据库，在第一次扫描中，对所有的单个项目(1—序列模式)进行计数。利用频繁1—序列模式生成候选频繁2—序列模式，进行第二次扫描并求候选频繁2—序列模式的支持数。使用频繁2—序列模式生成候选频繁3—序列模式，重复以上过程，直到找出所有的频繁序列模式。

算法实现

本算法采用Java实现，主要根据序列模式的情况，序列模式挖掘中共涉及到3个对象：序列、元素和项目。算法共有5个类：

GSP类：算法核心类，GSP算法的核心操作：连接和剪枝操作都在这里实现。在使用该算法时，也是需要通过使用该类的方法来实现GSP算法。

Sequence类：序列类，该类封装了序列的基本信息和基本操作，实现了对序列间的比较以及序列中的项目集操作。

Element类：元素类，在序列模式中元素也就是项目集，项目集中包含了项目。在本算法实现中，元素类中含有一个项目集属性，用于表示项目集，在使用时也是使用该属性来表示项目集，另外，在该类中还封装了对项目的操作以及一些其他操作。

SeqDB类：该类用于从数据库中扫描获取序列，本算法主要用于模拟实现，所以在程序中已经初始化了序列。

GSPTest类：测试类，使用JUnit对算法进行单元测试，本文附的代码只含有对于实现GSP算法的方法测试。

序列模式分析算法GSP的实现

一、算法简介

序列模式定义：给定一个由不同序列组成的集合，其中，每个序列由不同的元素按顺序有序排列，每个元素由不同项目组成，同时给定一个用户指定的最小支持度阈值，序列模式挖掘就是找出所有的频繁子序列，即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值。

GSP是序列模式挖掘的一种算法。其主要实现步骤描述如下：

1）扫描序列数据库，得到长度为1的序列模式L1，作为初始的种子集

L1 C2 L2 C3 L3 C4 L4 ……

2）根据长度为i 的种子集Li 通过连接操作和剪切操作生成长度为i+1的候选序列模式Ci+1；

3）然后扫描序列数据库，计算每个候选序列模式的支持数，产生长度为i+1的序列模式Li+1，并将Li+1作为新的种子集。

4）重复第三步，直到没有新的序列模式或新的候选序列模式产生为止。

产生候选序列模式主要分两步：

1）连接阶段：如果去掉序列模式s1的第一个项目与去掉序列模式s2的最后一个项目所得到的序列相同，则可以将s1于s2进行连接，即将s2的最后一个项目添加到s1中。其中最后一个项目集是否为合并在原来s1的最后一个项目集，还是自成一个新的项目集，取决于s2的最后一个项目是否原来就是一个单独的项目集。

2）剪切阶段：依据“不频繁子序列的超集也不频繁"。若某候选序列模式的某个子序列不是频繁序列模式，则此候选序列模式不可能是频繁序列模式，将它从候选序列模式中删除。

候选序列模式的支持度计算：对于给定的候选序列模式集合C，扫描序列数据库，对于其中的每一条序列d，找出集合C中被d所包含的所有候选序列模式，并增加其支持度计数。

例子：下表演示了如何从长度为3的序列模式产生长度为4的候选序列模式。

在连接步中,种子序列<(1,2) 3>和种子序列<2 (3,4)>连接可产生候选4序列<(1,2) (3,4)>；种子序列<2 3 5>连接可产生候选4序列<(1,2) 3 5>。其余的序列均不满足连接条件。在剪枝步中，候选4序列<(1,2) 3 5>被剪去，因为其连续子序列<1,3,5>不包含在频繁3序列集合L3中。

二、算法的设计和实现

本算法采用Java实现，主要根据序列模式的情况，序列模式挖掘中共涉及到3个对象：序列、元素和项目。

算法共有5个类：

GSP类：算法核心类，GSP算法的核心操作：连接和剪枝操作都在这里实现，在使用该算法时，也是需要通过使用该类的方法来实现GSP算法。

Sequence类：序列类，该类封装了序列的基本信息和基本操作，实现了对序列间的比较以及序列中的项目集操作。

Element类：元素类，在序列模式中元素也就是项目集，项目集中包含了项目，在本算法实现中，元素类中含有一个项目集属性，用于表示项目集，在使用时也是使用该属性来表示项目集，另外，在该类中还封装了对项目的操作以及一些其他操作。

SeqDB类：该类用于从数据库中扫描获取序列，本算法主要用于模拟实现，所以在程序中已经初始化了序列。

GSPTest类：测试类，使用JUnit对算法进行单元测试，本文附的代码只含有对于实现GSP算法的方法测试。

由于程序中附带了对方法的注释，这里对各个方法的原理和实现就不作介绍。

三、实验结果

（一）实验数据

<{1 5}{2}{3}{4}>

<{1}{3}{4}{3 5}>

<{1}{2}{3}{4}>

<{1}{3}{5}>

<{4}{5}>

（二）程序输出

最小支持度计数为：2

输入的序列集合为：

[<(1,5) 2 3 4>, <1 3 4 (3,5)>, <1 2 3 4>, <1 3 5>, <4 (4,5)>]

序列模式L(1) 为：[<2>, <4>, <1>, <3>, <5>]

.................................................

剪枝前候选集的大小为：40 候选集c为：[<(2,2)>, <2 2>, <(2,4)>, <2 4>, <4 2>, <(1,2)>, <2 1>, <1 2>, <(2,3)>, <2 3>, <3 2>, <(2,5)>, <2 5>, <5 2>, <(4,4)>, <4 4>, <(1,4)>,

<4 1>, <1 4>, <(3,4)>, <4 3>, <3 4>, <(4,5)>, <4 5>, <5 4>, <(1,1)>, <1 1>, <(1,3)>, <1 3>, <3 1>, <(1,5)>, <1 5>, <5 1>, <(3,3)>,

<3 3>, <(3,5)>, <3 5>, <5 3>, <(5,5)>, <5 5>]

剪枝后候选集的大小为：40 候选集c为：[<(2,2)>, <2 2>, <(2,4)>, <2 4>, <4 2>, <(1,2)>, <2 1>, <1 2>, <(2,3)>, <2 3>, <3 2>, <(2,5)>, <2 5>, <5 2>, <(4,4)>, <4 4>, <(1,4)>,

<4 1>, <1 4>, <(3,4)>, <4 3>, <3 4>, <(4,5)>, <4 5>, <5 4>, <(1,1)>, <1 1>, <(1,3)>, <1 3>, <3 1>, <(1,5)>, <1 5>, <5 1>, <(3,3)>,

<3 3>, <(3,5)>, <3 5>, <5 3>, <(5,5)>, <5 5>]

序列模式L(2) 为：[<2 4>, <1 2>, <2 3>, <1 4>, <3 4>, <4 5>, <1 3>, <1 5>, <3 5>]

.................................................

剪枝前候选集的大小为：18 候选集c为：[<1 (2,4)>, <1 2 4>, <2 (4,5)>, <2 4 5>, <1 (2,3)>, <1 2 3>, <2 (3,4)>, <2 3 4>, <2 (3,5)>, <2 3 5>, <1 (4,5)>, <1 4 5>, <3 (4,5)>,

<3 4 5>, <1 (3,4)>, <1 3 4>, <1 (3,5)>, <1 3 5>]

剪枝后候选集的大小为：7 候选集c为：[<1 2 4>, <1 2 3>, <2 3 4>, <1 4 5>, <3 4 5>, <1 3 4>, <1 3 5>]

序列模式L(3) 为：[<1 2 4>, <1 2 3>, <2 3 4>, <1 3 4>, <1 3 5>]

.................................................

剪枝前候选集的大小为：2 候选集c为：[<1 2 (3,4)>, <1 2 3 4>]

剪枝后候选集的大小为：1 候选集c为：[<1 2 3 4>]

序列模式L(4) 为：[<1 2 3 4>]

.................................................

计算花费时间60毫秒!

四、程序源代码

gsp序列模式挖掘

gsp序列模式挖掘的更多相关文章

数据挖掘进阶之序列模式挖掘GSP算法
数据挖掘进阶之序列模式挖掘GSP算法绪继续数据挖掘方面算法的讲解,前面讲解了数据挖掘中关联规则算法FP-Growth的实现.此篇博文主要讲解基于有趣性度量标准的GSP序列模式挖掘算法.有关论文后期 ...
序列模式挖掘--SPADE算法
数据挖掘进阶之序列模式分析算法GSP的实现
序列模式分析算法GSP的实现一.算法简介序列模式定义:给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式 ...
数据挖掘进阶之关联规则挖掘FP-Growth算法
数据挖掘进阶之关联规则挖掘FP-Growth算法绪近期在写论文方面涉及到了数据挖掘,需要通过数据挖掘方法实现软件与用户间交互模式的获取.分析与分类研究.主要涉及到关联规则与序列模式挖掘两块.关联规 ...
日志分析方法概述 & Web日志挖掘分析的方法
日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核.各种应用服务器等等.日志的内容.规模和用途也各不相同,很难一概而论. 本文讨论的日志处理方法中的日志,仅指Web日志.其 ...
八、频繁模式挖掘Frequent Pattern Mining
频繁模式挖掘(Frequent Pattern Mining): 频繁项集挖掘是通常是大规模数据分析的第一步,多年以来它都是数据挖掘领域的活跃研究主题.建议用户参考维基百科的association r ...
prefixspan是挖掘频繁子序列，子序列不一定是连续的，当心！！！
序列模式挖掘是从序列数据库中发现频繁子序列作为模式. 子序列与频繁序列了解了序列数据的概念,我们再来看看上面是子序列.子序列和我们数学上的子集的概念很类似,也就是说,如果某个序列A所有的项集在序列B ...
PrefixSpan算法原理总结
前面我们讲到频繁项集挖掘的关联算法Apriori和FP Tree.这两个算法都是挖掘频繁项集的.而今天我们要介绍的PrefixSpan算法也是关联算法,但是它是挖掘频繁序列模式的,因此要解决的问题目标 ...
R语言预测实战(游浩麟)笔记1
预测流程确定主题.指标.主体.精度.周期.用户.成本和数据七要素. 收集数据.内容划分.收集原则. 选择方法.主要方法有自相关分析.偏相关分析.频谱分析.趋势分析.聚类分析.关联分析.相关分析.互相 ...

随机推荐

define的用法
define的用法小结 define的用法只是一种纯粹的替换功能,宏定义的替换是预处理器处理的替换. 一:简单的宏定义用法格式:#define 标识符替换内容替换的内容可以是数字,字符,字符串, ...
UML中的六种关系的比较与学习
通过不断的学习并绘制UML图,整个画图的过程中深刻体会到其核心部分还是理解事物之间的关系,总结六大关系来深入学习,主要关系有六种:继承.实现.依赖.关联.聚合.组合. 区别于联系: 1 ...
BLOB或TEXT字段使用散列值和前缀索引优化提高查询速度
1.创建表,存储引擎为myisam,对大文本字段blob使用MD5函数建立一个散列值 create table t2(id varchar(60), content blob, hash_value ...
iOS10 配置须知-b
在iOS10中,如果你的App想要访问用户的相机.相册.麦克风.通讯录等等权限,都需要进行相关的配置,不然会直接crash.需要在info.plist中添加App需要的一些设备权限. NSBlueto ...
MVC3 Model Binding验证方式
1.使用ModelState在Action中进行验证 [HttpPost] public ViewResult MakeBooking(Appointment appt) { if (string.I ...
Linux 命令整理 —— 基本操作
1.ls 目录列举(dir) 一般我们这么写: ls 列举当前目录的所有文件,如果文件很多的话,这么看很复杂.我们可以加关键字,例如我们要看包含xml的全部文件. ls *xml* 如果这个时候,我们 ...
NC保存报dirty解决方法
在NC UI端测试保存的时候报＂ The data whose initcode is 6033 is dirty! ＂错误,其解决方式是在IHrPf接口中添加你的单据模板编号和参数模板 ...
dom4j处理xml文件，读取xml字符串，格式化xml文件
1.xml文件 <?xml version="1.0" encoding="UTF-8"?> <employees> <emplo ...
zoj 3716 Ribbon Gymnastics （思维数学题）
题目以四个顶点为圆心画圆,圆面积不能重合,求四个圆的直径和最大是多少. #define _CRT_SECURE_NO_WARNINGS #include<string.h> #inclu ...
js和jquery获取文档对象以及滚动条位置
<div style="width:120px;height:120px;border:1px solid red; position:absolute; left:800px; to ...

gsp序列模式挖掘

数据挖掘进阶之序列模式挖掘GSP算法

绪

原理介绍

算法实现

序列模式分析算法GSP的实现

一、算法简介

二、算法的设计和实现

三、实验结果

（一）实验数据

（二）程序输出

四、程序源代码

gsp序列模式挖掘的更多相关文章

随机推荐

热门专题