论文总结(negFIN: An efficient algorithm for fast mining frequent itemsets)

一、论文整体思路：

作者提出了一种基于前缀树的数据结构，NegNodeset，其实是对之前前缀树的一种改进，主要区别在于采用了位图编码，通过这种数据结构产生的算法称为negFIN。

negFIN算法高效有三个原因

二、问题定义

I= {i1,i2,…, init} 表示事务数据库所有项的集合，T表示每个事务，T⊆I ，DB = {T1,T2,…, Tnt} 是所有事务的集合

P称为k-项集，如果P⊆T ，那么事务T包含了项集P，support(P)是DB中包含P的百分比，如果support(P)大于min-support

我们就称P为频繁项集，频繁项集是2的nit 次方，nit = |I| 。

三、之前贡献

主要对前缀树的研究，结构1)Node-list，2)N-list，3)Nodeset，4)DisffNodeset （***先理解下前缀树和哈希树）

1） Node-list和N-list是通过对节点进行先序和后序排列，这两种数据结构产生的算法分别是PPV和PrePost频繁项集挖掘算法，

这两个算法的缺点消耗了大量内存；

2）对于这种情况，数据结构Nodeset将其进行改进，k-项集的获得通过取k-1项集的交集，算法为FIN，确定是对于一些数据集Nodeset基数太大；

3）为了将其进行改进，DiffNodest数据结构提出，k-项集的获得两个不同的k-1项集获得，算法为dFIN，算法的更快了。

4）文中提出了NegNodeset为了实现计算两个不同的DiffNodesets花费时间较长，主要利用的是位图，提出的算法negFIN;

四、相关工作

频繁项集挖掘算法

1）通过产生候选项集

比如Apriori算法，以及一些其他的算法，这种方法的主要缺点是需要多次扫描数据库。

2）模式增长方法

这种方式不会产生候选项集，也避免了多次扫描数据库，包括FP-tree和FP-growth算法，缺点：对于稀疏的数据集效率低，数据结构复杂。

3）前缀树方法

五、基本术语

F1频繁项集的集合，例如F1 = {e, b, a, c, d} ，
L1是根据支持度进行非降序排列的频繁项集L1 = [e, d, c, b, a] ，L1 = [i0,i1,…, inf - 1] ，nf=|F1|
k-项集P，Pk = ik…i2i1 ，ik>...>i2>i1

例如P = {e, b, d} ，P3 = bde ，对Pk进行位图编码BMC(Pk) = bnf - 1…b1b0 ，这里需要注意的是

BMC(node-path)分为两部分，主要部分和无关部分

论文总结(negFIN: An efficient algorithm for fast mining frequent itemsets)的更多相关文章

【HEVC帧间预测论文】P1.7 Content Based Hierarchical Fast Coding Unit Decision Algorithm
Content Based Hierarchical Fast Coding Unit Decision Algorithm For HEVC <HEVC标准介绍.HEVC帧间预测论文笔记> ...
论文阅读笔记二十六：Fast R-CNN (ICCV2015)
论文源址:https://arxiv.org/abs/1504.08083 参考博客:https://blog.csdn.net/shenxiaolu1984/article/details/5103 ...
【论文翻译】MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications 论文链接:https://arxi ...
论文翻译：2020_TinyLSTMs: Efficient Neural Speech Enhancement for Hearing Aids
论文地址:TinyLSTMs:助听器的高效神经语音增强音频地址:https://github.com/Bose/efficient-neural-speech-enhancement 引用格式:Fe ...
algorithm@ Matrix fast power
一. 什么是快速幂: 快速幂顾名思义,就是快速算某个数的多少次幂.其时间复杂度为 O(log₂N), 与朴素的O(N)相比效率有了极大的提高.一般一个矩阵的n次方,我们会通过连乘n-1次来得到它的n次 ...
【论文阅读】A practical algorithm for distributed clustering and outlier detection
文章提出了一种分布式聚类的算法,这是第一个有理论保障的考虑离群点的分布式聚类算法(文章里自己说的).与之前的算法对比有以下四个优点: 1.耗时短O(max{k,logn}*n), 2.传递信息规模小: ...
第八周论文学习03 An Efficient Tree-based Power Saving Scheme for Wireless Sensor Networks with Mobile Sink
来源:IEEE Sensors Journal Year: 2016, Volume: 16, Issue: 20 Pages: 7545 - 7557, DOI: 10.1109/JSEN.2016 ...
论文总结(Frequent Itemsets Mining With Differential Privacy Over Large-Scale Data)
一.论文目标:将差分隐私和频繁项集挖掘结合,主要针对大规模数据. 二.论文的整体思路: 1)预处理阶段: 对于大的数据集,进行采样得到采样数据集并计算频繁项集,估计样本数据集最大长度限制,然后再缩小源 ...
Apriori algorithm
本文是个人对spmf中example1. mining frequent itemsets by using the apriori algorithm的学习. What is Apriori? A ...

随机推荐

vue中组件绑定事件时是否加.native
组件绑定事件时 1. 普通组件绑定事件不能添加.native, 添加后事件失效 2. 自定义组件绑定事件需要添加.native, 否则事件无效 <template> <!-- < ...
IntelliJ cannot log in to GitHub上传github报错解决
重装系统,新装的Intellij IDEA上新建的项目上传github失败,报错: invalid authentication token ... 此处多为本地git用户的用户名/邮箱,与之前设置的 ...
HTML元素类别及转换
位置特性分类元素分为三类:块级元素,行内元素,行级块元素 1.块级元素(block) 特点: (1)可以设置宽高.内.外边距: (2)独占一行(即前后均有换行 ...
Codeforces 714A 朋友聚会
参考自:https://www.cnblogs.com/ECJTUACM-873284962/p/6395268.html A. Meeting of Old Friends time limit p ...
RMQ--ST表
RMQ即区间最值查询,是指这样一个问题:对于长度为n的数列A,回答若干询问RMQ(A,i,j)(i,j<=n),返回数列A中下标在i,j之间的最小/大值. ST表既ST算法是一个非常有名的在线处 ...
如何判断是否为同一个App，Ionic3如何修改包名
如何判断是否同一个App 使用Ionic3创建了两个项目demo1.demo2,然后使用同一个JDK,生成了两个不同的keystore证书. 结果在手机端安装的时候,先安装demo1,没有任何替换的提 ...
POI如何自动调整Excel单元格中字体的大小
问题目的是要将Excel中的文字全部显示出来,可以设置对齐格式为[缩小字体填充],但是这样的话只能展示出一行数据,字体会变得很小.还有一种办法,设置对齐格式为[自动换行],然后让单元格中的字体自动调 ...
mysql 导入sql 2006 - mysql server has gone away 导入
解决办法:找到你的mysql目录下的my.ini配置文件,加入以下代码 max_allowed_packet=500M wait_timeout=288000 interactive_timeout ...
【POJ 1001】Exponentiation (高精度乘法+快速幂)
BUPT2017 wintertraining(15) #6A 题意求\(R^n\) ( 0.0 < R < 99.999 )(0 < n <= 25) 题解将R用字符串读 ...
LOJ2557. 「CTSC2018」组合数问题
LOJ2557. 「CTSC2018」组合数问题这道题是我第一道自己做完的题答题.考场上面我只拿了41分,完全没有经验.现在才发现其实掌握了大概的思路还是不难. 首先模拟退火,通过了1,2,6,9, ...

论文总结(negFIN: An efficient algorithm for fast mining frequent itemsets)

论文总结(negFIN: An efficient algorithm for fast mining frequent itemsets)的更多相关文章

随机推荐

热门专题