http://blog.csdn.net/pipisorry/article/details/48914067 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记之关联规则Apriori算法的改进:非hash方法 - 大数据集下的频繁项集:挖掘随机采样算法.SON算法.Toivonen算法 Apriori算法的改进:大数据集下的频繁项集挖掘 1. 前面所讨论的频繁项都是在一次能处理的情况.如果数据量过大超过了主存的大小,这…
http://blog.csdn.net/pipisorry/article/details/48901217 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记之关联规则Apriori算法的改进:基于hash的方法:PCY算法, Multistage算法, Multihash算法 Apriori算法的改进 {All these extensions to A-Priori have the goal of minimiz…
Apriori和fp-growth是频繁项集(frequent itemset mining)挖掘中的两个经典算法,虽然都是十几年前的,但是理解这两个算法对数据挖掘和学习算法都有很大好处.在理解这两个算法之前,应该先了解频繁项集挖掘是做什么用的. 频繁项集挖掘是关联规则挖掘中的首要的子任务.关联规则挖掘是要找出一个数据集上,满足一定条件的项集.这些项的集合能构成 形如蕴含式"A=>B"这样的“规则”.这个"=>"符号是通过一些条件来定义的,如果没有条件那…
http://blog.csdn.net/pipisorry/article/details/48894977 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记之association rules关联规则与频繁项集挖掘 {Frequent Itemsets: Often called "association rules," learn a number of techniques for finding it…
http://blog.csdn.net/pipisorry/article/details/48918007 FP-Growth频繁项集挖掘算法(Frequent-Pattern Growth, 频繁模式增长) FP-树频集算法 这个没时间写,下次有空写吧╮(╯_╰)╭ from:http://blog.csdn.net/pipisorry/article/details/48918007 ref:数据挖掘概率与技术 J.Han,J.Pei,and Y.Yin.Mining frequent…
频繁项集挖掘的应用多出现于购物篮分析,现介绍两种频繁项集的挖掘算法Aprior和FPGrowth,用以发现购物篮中出现频率较高的购物组合. 基础知识 项:“属性-值”对.比如啤酒2罐.  项集:项的集合.比如{啤酒2罐,…,尿布5片}  K项集:项集中的每个项都有K个项.  支持度:项集在训练元组中同时出现的次数(或者比例).  置信度:A−>BA−>B的置信度,表示P(B|A)P(B|A),是个条件概率.(置信度大于用户规定的最小置信度的规则是可信的)  兴趣度:A−>BA−>B…
http://blog.csdn.net/pipisorry/article/details/48858661 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记之 Locality-Sensitive Hashing(LSH) 局部敏感哈希 {This is the first half of discussion of a powerful technique for focusing search on things…
http://blog.csdn.net/pipisorry/article/details/49742907 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记 相似项的发现:面向高相似度的方法 {博客内容:More about Locality-Sensitive Hashing:当所能接受的相似度较低时,基于LSH的方法表现得更为有效.但当要找几乎相等的集合时,还存在一些更快的方法,并且这些方法是精准的,即它们会找到…
http://blog.csdn.net/pipisorry/article/details/48894963 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记之Nearest-Neighbor Learning,KNN最近邻学习 {The module is about large scale machine learning.} Supervised Learning监督学习 Note: y有多种不同的形式,对应不同…
http://blog.csdn.net/pipisorry/article/details/48882167 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记之局部敏感哈希LSH的距离度量方法 Distance Measures距离度量方法 {There are many other notions of similarity(beyond jaccard similarity) or distance and whi…